Genómica funcional

Anuncio
Genómica funcional
Adanay M ARTÍN P ÉREZ
C INVESTAV
1 de agosto del 2013
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
1 / 56
Introducción
Introducción
El campo de la genómica abarca dos áreas principales, la
genómica estructural y la genómica funcional.
La primera se ocupa principalmente de las estructuras del
genoma, con un enfoque en el estudio del mapeo y ensamble del
mismo, así como su anotación y comparación.
La última hace énfasis principalmente en las funciones de los
genes en todo el genoma. El énfasis aquí está en el alto
rendimiento, que es el análisis simultáneo de todos los genes en
un genoma.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
2 / 56
Introducción
Introducción
Esta función es de hecho lo que separa a la genómica de la
biología molecular tradicional, que estudia sólo un gen a la vez.
El análisis de alto rendimiento de todos los genes expresados
también se denomina análisis de transcriptoma, que es el análisis
de la expresión de todo el conjunto de moléculas de ARN
producidas por una célula bajo un conjunto de condiciones dadas.
En la práctica, el ARN mensajero (ARNm) es la única especie de
ARN que se estudia.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
3 / 56
Introducción
Introducción
El análisis de transcriptoma facilita nuestra comprensión de cómo
los conjuntos de genes trabajan juntos para formar las vías
metabólicas, de regulación y señalización dentro de la célula.
Además revela los patrones de genes coexpresados y
corregulados y permite la determinación de las funciones de los
genes que fueron caracterizados con anterioridad.
En resumen, la genómica funcional ofrece información sobre las
funciones biológicas de todo el genoma a través del análisis de
expresión automatizado de alto rendimiento.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
4 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Etiquetas de secuencias expresadas
Uno de los enfoques de alto rendimiento es la secuenciación de
etiquetas de secuencias expresadas (expressed sequence tags)
(EST).
Las EST son secuencias cortas obtenidas a partir de clones de
ADNc (ADN complementario) y sirven como identificadores cortos
de genes.
Las EST son típicamente del rango de 200 a 400 nucleótidos de
longitud obtenidos a partir de ya sea el extremo 5’ o 3’ de los
insertos de ADNc.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
5 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Etiquetas de secuencias expresadas
Existen varias bibliotecas de clones de ADNc que se preparan
mediante la transcripción inversa de poblaciones aisladas de
ARNm utilizando diferentes técnicas. Para generar datos de EST,
se seleccionan al azar clones de las bibliotecas de ADNc.
Los datos de EST son capaces de proporcionar una estimación
aproximada de los genes que se expresan de forma activa en un
genoma bajo una condición fisiológica en particular.
Esto es debido a que las frecuencias de EST particulares reflejan
la abundancia del ARNm correspondiente en una célula, que a su
vez corresponde a los niveles de expresión génica bajo la
condición dada.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
6 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Desventajas
Las secuencias EST suelen ser de baja calidad, ya que se
generan de forma automática y sin verificación; y por lo tanto
contienen altos porcentajes de errores. Muchas bases son
determinadas como ambiguas y representadas por N.
Las secuencias de genes en el extremo 3’ tienden a ser más
fuertemente representadas que aquellas en el extremo 5’, debido
a las técnicas utilizadas de transcripción inversa.
Por desgracia, las secuencias del extremo 3’ son también más
propensas a errores, debido a la baja calidad de base al
comienzo de la secuencia.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
7 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Desventajas
Otro problema de las EST es la presencia de clones quiméricos
debido a artefactos de clonación en la construcción de la
biblioteca, en la que más de una transcripción se liga a un clon
resultante del extremo 5’ de un gen y el extremo 3’ de otro gen.
Se ha estimado que hasta el 11 % de los clones de ADNc pueden
ser quiméricos.
Además, principalmente representan transcripciones abundantes
y altamente expresadas. Los genes débilmente expresados
apenas se encuentran en una secuenciación EST.
A pesar de estas limitaciones, la tecnología EST sigue siendo
ampliamente utilizada.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
8 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Ventajas
Las bibliotecas EST se pueden generar fácilmente a partir de
diversas líneas de células, tejidos y órganos en diversas etapas
de desarrollo.
Aunque las EST individuales son propensas a errores, toda una
colección de EST contiene información valiosa. A menudo,
después de la consolidación de múltiples secuencias EST, se
puede derivar un ADNc de longitud completa.
La rápida acumulación de secuencias EST ha llevado a la
creación de bases de datos públicas y privadas para archivar los
datos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
9 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
dbEST
La base de datos dbEST (www.ncbi.nlm.nih.gov/dbEST/) contiene
colecciones de EST para un gran número de organismos (> 250). La
base de datos se actualiza regularmente para reflejar el progreso de
varios proyectos de secuenciación EST. Cada secuencia EST recién
presentada es sujeta a una búsqueda de similitud en base de datos. Si
se encuentra una fuerte similitud con un gen conocido, es anotado en
consecuencia.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
10 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Construcción de índices EST
Uno de los objetivos de la bases de datos de EST es organizar y
consolidar los datos de EST en gran medida redundantes, para
mejorar la calidad de la información de secuencias y que los datos
puedan ser utilizados para extraer el ADNc de longitud completa.
El proceso incluye una etapa de preprocesamiento que elimina
los vectores contaminantes. Por ejemplo, para detectar
secuencias de vectores bacterianos se puede utilizar Vecscreen.
Esto es seguido por una etapa de agrupamiento que asocia
secuencias EST con genes únicos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
11 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Construcción de índices EST
El siguiente paso es derivar secuencias de consenso por fusión
redundante, EST superpuestas y corregir errores, dando como
resultado secuencias EST más largas. El procedimiento es algo
similar al ensamble de genoma.
Por último, las regiones de codificación se definen a través de la
utilización de algoritmos de búsqueda de genes basados en
HMM. Esto ayuda a excluir intrones potenciales y secuencias 3’
no traducidas.
Una vez que se identifica la secuencia de codificación, ésta puede
ser anotada traduciéndola en secuencias de proteínas para
búsquedas de similitud en base de datos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
12 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Construcción de índices EST
Las EST compiladas también se pueden alinear con la secuencia
genómica si está disponible para identificar el locus del genoma
del gen expresado, así como los límites intrón-exón del gen. Esto
se realiza generalmente mediante el programa SIM4
(http://pbil.univ-lyon1.fr/sim4.php).
El proceso de agrupación que reduce la redundancia de EST y
produce una colección de secuencias EST no redundantes y
anotadas se conoce como índice de construcción genética.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
13 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
UniGene
UniGene (www.ncbi.nlm.nih.gov/UniGene/) es una base de datos
de clústeres EST. Cada grupo es un conjunto de secuencias EST
superpuestas que se procesan computacionalmente para
representar un único gen expresado.
La base de datos se construye sobre la base de información
combinada de dbEST, GenBank, bases de datos de ARNm y ADN
genómico. Sólo se agrupan EST de extremos 3’ para minimizar el
problema de quimerismo.
El siguiente paso es eliminar las secuencias contaminantes que
incluyen vectores bacterianos.
Las EST resultantes se utilizan para la búsqueda contra una base
de datos de genes únicos conocidos (base de datos EGAD) con
el programa BLAST.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
14 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
UniGene
La etapa de compilación identifica secuencias solapadas y deriva
secuencias de consenso utilizando el programa de CAP3.
Durante este paso, los errores en EST individuales se corrigen; y
las secuencias son entonces divididas en grupos y ensambladas
en contigs.
El resultado final es un conjunto de agrupaciones no redundantes
y orientadas a genes, conocidas como UniGene.
Cada clúster UniGene representa un gen único anotando su
función e información del locus del gen, así como información
relacionada con el tipo de tejido donde el gen se ha expresado. El
procedimiento de agrupación se resume en la siguiente figura.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
15 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
Pasos para procesar secuencias EST para la
construcción de la bases de datos UniGene
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
16 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
TIGR Gene Indices
TIGR Gene índices (www.tigr.org/db /tgi.shtml) es una base de
datos de EST que utiliza un método de agrupación diferente de
UniGene.
En este caso se recopilan datos de dbEST, GenBank ARNm y
datos de ADN genómico, además de la propia base de datos de
secuencia TIGR. Las secuencias sólo se agrupan si son más del
95 % idénticas en las comparaciones por pares de regiones de
nucleótidos de longitud mayor a 40. Se utiliza BLAST y FASTA
para identificar las secuencias que se solapan.
En la etapa de ensamble de secuencias, se utilizan tanto TIGR
Assembler como CAP3 para construir contigs, produciendo el
llamado consenso provisional o tentativo (TC).
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
17 / 56
Enfoque basado en secuencias
Etiquetas de secuencias expresadas
TIGR Gene Indices
Para evitar el quimerismo, se agrupan transcripciones sólo si
coinciden plenamente con los genes conocidos.
La asignación funcional se da luego al TC y se basa fuertemente
en búsquedas BLAST en bases de datos de proteínas.
Los índices de genes TIGR sirven como una alternativa a las
agrupaciones UniGen y muestran secuencias recopiladas EST,
anotación funcional y resultados de búsqueda de similitud en
bases de datos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
18 / 56
Enfoque basado en secuencias
SAGE
SAGE
El análisis en serie de la expresión génica (serial analysis of gene
expression) (SAGE) es otro enfoque de alto rendimiento basado
en secuencias para el análisis de la expresión global de genes.
En este método, se toman fragmentos cortos de ADN (por lo
general 15 pares de bases [pb]) a partir de secuencias de ADNc y
se utilizan como marcadores únicos de las transcripciones de
genes.
Los fragmentos de secuencias se denominan etiquetas, que
posteriormente son analizadas computacionalmente de manera
consecutiva (en serie).
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
19 / 56
Enfoque basado en secuencias
SAGE
Ventajas
Si un clon promedio tiene un tamaño de 700 pb, puede contener
hasta 50 etiquetas de secuencias (15 pb cada una), lo que
significa que el método SAGE puede ser al menos cincuenta
veces más eficiente que la secuenciación EST.
Por lo tanto, el análisis SAGE ofrece mejores oportunidades de
detectar los genes expresados débilmente.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
20 / 56
Enfoque basado en secuencias
SAGE
Desventajas
La escala y el coste de la secuenciación requerida para el análisis
SAGE son prohibitivos para la mayoría de los laboratorios.
Es sensible a los errores de secuenciación debido al pequeño
tamaño de las etiquetas de oligonucleótidos para la
representación de la transcripción.
Además, una etiqueta SAGE correcta a veces puede
corresponder a varios genes o a ningún gen en absoluto.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
21 / 56
Enfoque basado en secuencias
SAGE
Herramientas de software para el análisis SAGE
SAGEmap (www.ncbi.nlm.nih.gov/SAGE/)
SAGE xProfiler (www.ncbi.nlm.nih.gov/SAGE/sagexpsetup.cgi)
SAGE Genie (http://cgap.nci.nih.gov/SAGE)
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
22 / 56
Enfoque basado en micro-arrays
Enfoque basado en micro-arrays
El método de perfiles de expresión génica global más utilizado en
la investigación genómica actual es el enfoque basado en
micro-arrays de ADN.
Un micro-array (o chip génico) es una superficie sólida (de vidrio o
plástico) a la cual se une una matriz de alta densidad de
oligómeros de ADN que representan la totalidad del genoma de la
especie en estudio.
Cada oligómero sirve como una sonda para la unión a un único
ADNc. Toda la población de ADNc, marcada con colorantes
fluorescentes o radioisótopos, se hibridizan con las sondas de
oligonucleótidos en el chip.
La cantidad de fluorescentes o marcadores radiactivos en cada
posición refleja la cantidad de ARNm correspondiente en la célula.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
23 / 56
Enfoque basado en micro-arrays
Diseño de oligonucleótidos
Diseño de oligonucleótidos
Los micro-arrays de ADN se generan mediante la fijación de
oligonucleótidos sobre un soporte sólido, tal como un
portaobjetos de vidrio, utilizando un dispositivo robótico.
Un oligonucleótido es una secuencia corta de ADN o ARN. Su
longitud está típicamente en el intervalo de veinticinco hasta
setenta bases de largo.
Para diseñar secuencias óptimas de oligonucleótidos para
micro-arrays, se utilizan los siguientes criterios.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
24 / 56
Enfoque basado en micro-arrays
Diseño de oligonucleótidos
Criterios para el diseño de oligonucleótidos
Las sondas deben ser lo suficientemente específicas para
minimizar la hibridación cruzada con los genes no específicos.
Esto requiere búsquedas BLAST contra bases de datos de
genomas para encontrar regiones de secuencias con menos
similitud con los genes no objetivo.
Las sondas deben ser sensibles y carentes de regiones de baja
complejidad (una cadena de nucleótidos idénticos).
Las secuencias de oligonucleótidos no deben formar estructuras
internas secundarias estables, tales como una estructura de
horquilla (hairpin), lo que podría interferir con la reacción de
hibridación. Programas como como Mfold pueden ayudar a
detectar estructuras secundarias.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
25 / 56
Enfoque basado en micro-arrays
Diseño de oligonucleótidos
Criterios para el diseño de oligonucleótidos
El diseño debe estar cerca del extremo 3’ del gen debido a que la
colección de ADNc a menudo está predispuesta para el extremo
3’.
Además, por conveniencia, todas las sondas deberían tener una
temperatura de fusión aproximadamente igual y un contenido de
GC de 45 % a 65 %.
Actualmente se han desarrollado varios programas que utilizan
estas normas en el diseño de secuencias de sondas de
micro-arrays.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
26 / 56
Enfoque basado en micro-arrays
Diseño de oligonucleótidos
Herramientas de software para el diseño de
oligonucleótidos
Actualmente se han desarrollado varios programas que utilizan
estas normas en el diseño de secuencias de sondas de
micro-arrays.
OligoWiz (www.cbs.dtu.dk/services/OligoWiz/)
OligoArray (http://berry.engin.umich.edu/oligoarray2/)
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
27 / 56
Enfoque basado en micro-arrays
Colecciones de datos
Colecciones de datos
El tipo más común de protocolo de micro-arrays es el micro-array
de dos colores, que consiste en etiquetar un conjunto de ADNc a
partir de una condición experimental con un colorante (Cy5,
fluorescencia roja) y otro conjunto de ADNc a partir de una
condición de referencia (los controles) con otro colorante (Cy3,
fluorescencia verde).
Cuando las dos muestras de ADNc etiquetadas de forma
diferente se mezclan en igual cantidad y se dejan hibridizar con
las sondas de ADN en los chips, los patrones de expresión de
genes de ambas muestras se pueden medir simultáneamente.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
28 / 56
Enfoque basado en micro-arrays
Colecciones de datos
Colecciones de datos
La imagen del micro-array hibridado es capturada mediante un
escáner láser que escanea cada punto del micro-array. Dos
longitudes de onda del haz de láser se utilizan para excitar los
tintes fluorescentes rojos y verdes y producir fluorescencia roja y
verde, que se detecta mediante un tubo fotomultiplicador.
Por lo tanto, para cada punto del micro-array, se registran señales
de fluorescencia verde y roja. Las dos imágenes de fluorescencia
se superponen para crear una imagen compuesta, que indica los
niveles relativos de expresión de cada gen.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
29 / 56
Enfoque basado en micro-arrays
Colecciones de datos
Colecciones de datos
Si un gen se expresa a un nivel más alto en la condición
experimental (rojo) que en el control (verde), el punto muestra un
color rojo plato.
Si el gen se expresa a un nivel inferior que el control, el punto
aparece verdoso. Si se tiene la misma cantidad de fluorescencia
verde y roja, da como resultado una mancha amarilla.
La imagen de color se almacena como un archivo de ordenador
(en formato TIFF) para su posterior procesamiento.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
30 / 56
Enfoque basado en micro-arrays
Procesamiento de imágenes
Procesamiento de imágenes
El procesamiento de imágenes consiste en localizar y cuantificar
los puntos de hibridación y separar las señales de hibridación
verdaderas del ruido de fondo.
El ruido de fondo y los artefactos producidos en este paso
incluyen la hibridación no específica, las irregularidades de la
superficie de deslizamiento, y la presencia de contaminantes tales
como el polvo.
Los programas de ordenador se utilizan para localizar
correctamente los límites de las manchas y medir las intensidades
de las imágenes in situ después de restar los píxeles de fondo.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
31 / 56
Enfoque basado en micro-arrays
Procesamiento de imágenes
Procesamiento de imágenes
Luego, las señales se convierten en números y se informan como
proporciones entre Cy5 y Cy3 para cada punto.
Esta proporción representa los cambios relativos de expresión y
refleja el cambio en la cantidad de ARNm en condiciones
experimentales versus condiciones de control.
Los datos se presentan a menudo como falsos colores de
diferentes intensidades de rojo y verde en función de si las
relaciones están por encima o por debajo de 1 respectivamente.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
32 / 56
Enfoque basado en micro-arrays
Procesamiento de imágenes
Procesamiento de imágenes
Las regiones con cantidades igual de ARNm experimental y de
control (amarillo en los datos en bruto), se muestran en negro.
Las imágenes en falso color se presentan en cuadros en una
matriz de genes versus condiciones, para que los genes
expresados pueden ser analizados más fácilmente.
Los fabricantes de escáneres de micro-arrays suelen ofrecer
programas de software para llevar a cabo el análisis de imágenes
de micro-arrays. También existe un pequeño número de
programas de software libre de procesamiento de imágenes
disponibles en Internet.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
33 / 56
Enfoque basado en micro-arrays
Herramientas de procesamiento de imágenes
Herramientas de procesamiento de imágenes
ArrayDB (http://genome.nhgri.nih.gov/arraydb/)
ScanAlyze (http://rana.lbl.gov/EisenSoftware.htm)
TIGR Spotfinder (http://www.tigr.org/softlab/)
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
34 / 56
Enfoque basado en micro-arrays
Transformación y normalización de datos
Transformación y normalización de datos
Tras el procesamiento de imágenes, los datos de expresión de
genes digitalizados tienen que ser procesados antes de poder
identificar los genes expresados diferencialmente.
Este proceso se conoce como normalización de los datos y está
diseñado para corregir el sesgo debido a las variaciones en la
recopilación de datos de micro-arrays como consecuencia de las
diferencias biológicas intrínsecas.
Cuando la intensidad de fluorescencia Cy5 se representa frente a
Cy3, la mayoría de los datos se agrupan cerca de la parte inferior
izquierda del diagrama, que muestra una distribución no normal
de los datos en bruto.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
35 / 56
Enfoque basado en micro-arrays
Transformación y normalización de datos
Transformación y normalización de datos
Se cree que esto es un resultado del desequilibrio de intensidades
de rojo y verde durante el muestreo in situ, lo que resulta ineficaz
en la discriminación de los genes expresados diferencialmente.
La normalización de los datos ofrece una manera mucho más
fácil para su comparación y visualización.
A veces, los datos no se ajustan a una relación lineal, debido a
errores de muestreo sistemático. En este caso, una regresión no
lineal puede producir un mejor ajuste y ayudar a eliminar el sesgo.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
36 / 56
Enfoque basado en micro-arrays
Transformación y normalización de datos
Diagrama de dispersión del análisis de expresión
génica que muestra el proceso de normalización de
datos.
Intensidad de la señal de fluorescencia de Cy5 frente Cy3.
Los mismos datos después de la transformación a logaritmo de
base 2.
Intensidad media logarítmica frente a la relación de las dos
intensidades de fluorescencia.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
37 / 56
Enfoque basado en micro-arrays
Transformación y normalización de datos
Herramientas de transformación y normalización de
datos
Los dos programas siguientes están disponibles gratuitamente.
Los mismos se especializan en el análisis de imágenes y la
normalización de datos.
Arrayplot
(www.biologie.ens.fr/fr/genetiqu/puces/publications/arrayplot/index.ht
SNOMAD
(http://pevsnerlab.kennedykrieger.org/snomadinput.html)
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
38 / 56
Enfoque basado en micro-arrays
Análisis estadístico
Análisis estadístico
La única manera de asegurar que un gen que parece estar
expresado diferencialmente lo está realmente es llevando a cabo
múltiples experimentos replicados y pruebas estadísticas.
Los experimentos repetidos proporcionan puntos de datos
replicados que ofrecen información sobre la variabilidad de los
datos de expresión en una condición particular.
Para estas pruebas, es común el uso de un nivel de confianza del
95 % para distinguir los grupos de datos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
39 / 56
Enfoque basado en micro-arrays
Análisis estadístico
Análisis estadístico
El principal obstáculo para la obtención de múltiples conjuntos de
datos replicados es el costo: los experimentos de micro-arrays
son extremadamente caros para los laboratorios de investigación
regulares.
Si los conjuntos de datos replicados están disponibles, las
pruebas estadísticas rigurosas como ast-test y el análisis de la
varianza (ANOVA) pueden llevarse a cabo para probar la hipótesis
nula de que un punto de datos dado no es significativamente
diferente de la media de la distribución de los datos.
La información sobre la distribución de los puntos de datos en
condiciones particulares puede ayudar a responder a la cuestión
de si la diferencia es significativa.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
40 / 56
Enfoque basado en micro-arrays
Análisis estadístico
Herramientas para el análisis estadístico
MA-ANOVA (www.jax.org/staff/churchill/labsite/software/anova/)
Cyber-T (http://visitor.ics.uci.edu/genex/cybert/)v
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
41 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Clasificación de datos de micro-arrays
Una de las características clave del análisis de micro-arrays de
ADN es el estudio de la expresión de muchos genes en paralelo y
la identificación de grupos de genes que exhiben patrones de
expresión similares.
Los patrones de expresión similares son a menudo un resultado
del hecho de que los genes implicados están en la misma vía
metabólica y tienen funciones similares.
Para descubrir los genes con patrones de expresión similares se
requiere dividir los datos en subconjuntos de acuerdo a su
similitud.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
42 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Medidas de distancia
El primer paso hacia la clasificación de genes es definir una
medida de la distancia o diferencia entre los genes.
Esto requiere la conversión de la matriz de la expresión génica en
una matriz de distancia.
La distancia puede ser expresada como la distancia euclidiana o
el coeficiente de correlación de Pearson.
La distancia euclidiana está dada por la siguiente fórmula
qP
n
2
d=
i=1 (xi − yi )
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
43 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Medidas de distancia
Las distancias euclidianas son ampliamente utilizadas pero
cuando las variaciones entre los genes son muy pequeñas, los
perfiles de genes pueden ser muy difíciles de diferenciar.
Como alternativa, se puede utilizar un coeficiente de correlación
de Pearson entre dos grupos de puntos de datos.
Éste mide la similitud general entre las tendencias o formas de los
dos conjuntos de datos.
En esta medida, una correlación positiva perfecta es 1 y una
correlación negativa perfecta es -1.
P
d = 1/n ni=1 ((xi − x̄)/(sdi ))((yi − ȳ )/(sdi ))
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
44 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Clasificación supervisada y no supervisada
En base a las distancias calculadas entre los genes en un perfil
de expresión, los genes con patrones de expresión similares
pueden ser agrupados.
El análisis de clasificación puede ser con o sin supervisión.
Un análisis supervisado se refiere a la clasificación de los datos
en un conjunto de categorías predefinidas.
Un análisis no supervisado no asume categorías predefinidas,
pero identifica las categorías de datos de acuerdo a la similitud de
los patrones reales.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
45 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Clasificación supervisada y no supervisada
Los algoritmos de agrupamiento se pueden dividir en dos tipos,
aglomerantes y divisivos.
Un método de aglomeración comienza agrupando dos puntos y
va fusionando sucesivamente los grupos de datos de acuerdo a
su similitud, hasta que se combinan todos los grupos.
Un método de división funciona al revés, agrupando todos los
puntos de datos en un solo grupo y dividiendo sucesivamente los
datos en grupos más pequeños según su diversidad, hasta que
se resuelvan todos los niveles jerárquicos.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
46 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Método de agrupación jerárquico
En un método de agrupación jerárquico se produce una
estructura arbórea que representa una jerarquía.
En las hojas de los árboles se colocan los perfiles de expresión
de genes que están más cerca entre sí.
El patrón de ramificación del árbol ilustra el grado de relación
entre los grupos de genes relacionados.
Es importante señalar que a pesar de que se produce una
estructura de árbol como resultado final, éste no tiene sentido
evolutivo, sino que simplemente representa las agrupaciones de
patrones de similitud en la expresión génica.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
47 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Método de agrupación k-means
En contraste con los algoritmos de agrupación jerárquica, la
agrupación k-means no produce un dendrograma, en su lugar
clasifica los datos particionándolos en cada paso. Por lo tanto, es
un enfoque de división.
En este método, los datos se dividen en k grupos. El valor de k se
define normalmente al azar, pero se puede ajustar si los
resultados son insatisfactorios.
El patrón de ramificación del árbol ilustra el grado de relación
entre los grupos de genes relacionados.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
48 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Método de agrupación k-means
En cada paso del algoritmo los puntos se asignan al azar a cada
grupo y se calcula la media del grupo (centroide). También se
calculan las distancia desde cada punto hacia el centroide.
Si se encuentra un punto de datos más cerca del centroide de un
grupo determinado que de cualquier otro centroide, se retiene en
la partición. De lo contrario, está sujeto a reasignación en la
siguiente iteración.
Este proceso se repite hasta que las distancias entre los puntos
de datos y los nuevos centroides ya no disminuyan.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
49 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Método de agrupación k-means
El método de k-means puede no ser tan preciso como la
agrupación jerárquica, dado que es sensible a la selección del
número arbitrario inicial de clústeres.
Si no se consideran todas las particiones iniciales posibles, se
puede alcanzar una solución subóptima.
Sin embargo, computacionalmente hablando, es más rápido que
la agrupación jerárquica y sigue siendo ampliamente utilizado.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
50 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Mapas de auto-organización
Este método es en principio similar al método de k-means. Es un
algoritmo de reconocimiento de patrones que emplea redes
neuronales.
Se inicia mediante la definición de un número de nodos. Los
puntos de datos se asignan inicialmente a los nodos al azar. Se
calcula la distancia entre los puntos de datos de entrada y los
centroides.
Después de muchas iteraciones, se alcanza un patrón de
agrupamiento estabilizado con distancias mínimas de los puntos
de datos a los centroides.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
51 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Mapas de auto-organización
Las diferencias entre SOM (self-organizing mappings) y k-means
es que en SOM los nodos no son tratados como entidades
aisladas, sino que considera las conexiones a otros nodos.
El cálculo de los valores de los centroides de SOM tiene en
cuenta no sólo la información dentro de cada grupo, sino también
la información de grupos adyacentes. Esto permite que el análisis
sea mejor en el manejo de datos ruidosos.
Este tipo de algoritmo también es mucho más lento que el método
de k-means.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
52 / 56
Enfoque basado en micro-arrays
Clasificación de datos de micro-arrays
Programas de agrupamiento
Cluster (http://rana.lbl.gov/EisenSoftware.htm)
EPCLUST (www.ebi.ac.uk/EP/EPCLIST)
TIGR TM4 (www.tigr.org/tm4)
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
53 / 56
Conclusiones
Conclusiones
El análisis de transcriptoma utilizando EST, SAGE y micro-arrays
de ADN constituye el núcleo de la genómica funcional y es clave
para la comprensión de las interacciones de los genes y su
regulación a nivel de todo el genoma.
El muestreo EST, aunque ampliamente utilizado, tiene una serie
de inconvenientes en cuanto a las tasas de errores, la eficiencia y
el costo.
El alto rendimiento de SAGE y los enfoques de micro-arrays de
ADN proporcionan una medida más cuantitativa de la expresión
génica global.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
54 / 56
Conclusiones
Conclusiones
SAGE mide los niveles de expresión de ARNm absolutos,
mientras que los micro-arrays indican los niveles de expresión
relativos del ARNm.
Los micro-arrays de ADN actualmente gozan de mayor
popularidad debido a la relativa facilidad de la experimentación.
Las técnicas de agrupación de datos de micro-arrays más
populares incluyen la agrupación jerárquica, SOM, y k-means.
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
55 / 56
Conclusiones
Conclusiones
En conclusión, entre las tres técnicas para el estudio de la
expresión génica global, la más popular es micro-arrays de ADN,
el cual tiene la capacidad de proporcionar información que no es
posible con las técnicas tradicionales.
Sin embargo, también hay que ser conscientes de sus
limitaciones.
Esta técnica es un procedimiento de múltiples etapas en que
errores y sesgos se pueden introducir en cada paso
(secuenciación, procesamiento de imágenes, normalización, y
elección del método de clasificación).
Adanay M ARTÍN P. (C INVESTAV)
Genómica funcional
1 de agosto del 2013
56 / 56
Descargar