MOM para la prediccion de genes

Anuncio
'
$
Modelos de Markov ocultos
Predicción de genes
Alex Sánchez i Mireia Vilardell
Departament d’Estadı́stica U.B.
Estadı́stica i Bioinformàtica
&
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Esquema del tema
Introducción: Genes y predicción de genes
Predicción con modelos tradicionales: Glimmer, geneid
Predicción con HMM (1): Conceptos básicos
Extensiones del modelo: SemiHMM y Genscan
Comparación de programas de predicción
&
Departament d’Estadı́stica U.B.
%
1
MMO en Biologia Computacional
'
1.
Alex Sánchez
$
Introducción
1.1.
El problema de la identificación de genes
El problema de la identificación de los genes se puede describir
como el problema de deducir la secuencia de aminoácidos
codificada por una determinada región de ADN
Es un problema difı́cil pero muy relevante puesto que ...
• Es necesario para anotar los datos procedentes de los
proyectos de secuenciación
• Ayuda a entender los mecanismos implicados en la
codificación–decodificación de la información biológica
El problema es más simple en organismos inferiores
(procariotas) que en los superiores (eucariotas) cuya estructura
genómica es más compleja
&
Departament d’Estadı́stica U.B.
2
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Figura 1: Modelos de transcripción y traslación en procariotas y
eucariotas
&
Departament d’Estadı́stica U.B.
%
3
MMO en Biologia Computacional
'
1.2.
Alex Sánchez
$
Estructura de los genes en procariotas
El genoma de los procariotas (“sin nucleo celular”) suele ser
rico en genes: El 80 %–90 % de la secuencia es codificante
De forma simplificada un gen procariota es una secuencia de
codones que
• Empieza con un codon de inicio, (ATG),
• Continua con un número múltiplo de tres de nucleótidos
• Acaba con un codon de stop (TAA / TAG / TGA)
&
%
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
4
Alex Sánchez
$
Figura 2: Un gen procariota
&
Departament d’Estadı́stica U.B.
%
5
MMO en Biologia Computacional
'
1.3.
Alex Sánchez
$
Estructura de los genes en eucariotas
En los organismos superiores los genes no son ni contı́nuos ni
contiguos
Los genes suelen estar fragmentados en cierto número de
fragmentos codificantes conocidos como exones separados por
grandes fragmentos no codificantes conocidos como intrones.
Existen una diversidad de señales, algunas más claras que
otras, que es preciso localizar e identificar para la predicción de
los genes
&
%
6
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 3: Estructura de un gen eucariota
&
Departament d’Estadı́stica U.B.
%
7
MMO en Biologia Computacional
'
1.4.
Alex Sánchez
$
Las señales de especificación de los genes
Durante el camino del ADN a la secuencia de aminoácidos los
genes son ensamblados por un proceso en tres etapas conocido
como splicing
Durante este proceso se eliminan los intrones antes de traducir
el ADN a proteı́nas
Distintas señales que indican como debe actuar la maquinaria
celular que regula el proceso se hallan codificadas en la
secuencia original del ADN
1.
En la transcripcion intervienen elementos promotores y
señales de fin de transcripción
2.
En el splicing participan los sitios dadores y aceptores
3.
En la traducción intervienen los codones de iniciación o de
parada
&
%
8
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 4: De la secuencia de ADN a la de Aminoácidos
&
Departament d’Estadı́stica U.B.
%
9
MMO en Biologia Computacional
'
2.
Alex Sánchez
$
Predicción de genes (1)
2.1.
Predicción en procariotas
El problema principal suele ser identificar cual de dos o más
pautas abiertas de lectura contiene un gen (se supone que sólo
una)
Una pauta abierta de lectura es una secuencia de codones que
empieza con un codon de inicio (ATG) y acaba en un codon de
stop (TAA / TAG / TGA) sin que haya ningún otro codon de
stop entre ellos
Existen señales de inicio y final que es preciso identificar y
distinguir del “ruido de fondo”
&
%
10
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.2.
Alex Sánchez
$
Predicción con modelos de markov
El programa GeneMark, (Borodovsky et al., 1993) utiliza
cadenas de Markov de orden 5 para identificar genes
microbianos.
Esto representa analizar 2 codones cada vez
Los genomas bacterianos suelen ser lo bastante largos como
para proporcionar buenos estimadores de 46 = 4096
probabilidades de transición necesarias
Un modelo de orden ocho seria preferible, pero el número de
probabilidades a estimar es excesivo
&
Departament d’Estadı́stica U.B.
%
11
MMO en Biologia Computacional
'
Alex Sánchez
$
ALgoritmo simplificado de GenMark
De forma simplificada el algoritmo que utiliza GeneMark es el
siguiente:
1.
Entrenar un modelo de orden 5 con genes conocidos
(=pautas de lectura largas, “hits” en bases de datos)
2.
Entrenar un modelo de orden 0 como modelo nulo
3.
Puntuar cada pauta abierta de lectura siguiendo las 6
posibles pautas de lectura (3 forward, 3 backward )
4.
Si la pauta de lectura con mayor puntuación es la pauta
abierta, llamésele “un gen”
5.
Si hay pautas abiertas superpuestas puntúese las regiones
superpuestas separadamente.
&
%
12
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.3.
Alex Sánchez
$
Predicción en eucariotas (1)
Identificacion de genes mediante señales
Un método habitual de predicción consiste en:
• Construir un conjunto de exones potenciales, identificados a
traves de señales de inicio/aceptores y de donores/stop
• Puntuarlos mediante un modelo estadı́stico apropiado
• Ensamblar los genes mediante programación dinámica
Se elegirán como candidatos aquellos genes cuya puntuación
total sea más elevada
&
Departament d’Estadı́stica U.B.
%
13
MMO en Biologia Computacional
'
2.4.
Alex Sánchez
$
Modelos estadı́sticos de puntuación
En análisis de secuencias biológicas son comunes los sistemas
de puntuación en donde se compara la puntuación que se
asigna a una secuencia bajo un modelo concreto con la que le
asigna un modelo nulo o “background”.
Por motivos computacionales dichas puntuaciones suelen
expresarse como logaritmos de razones de verosimilitudes
(“log-likelihood ratios scores”, “LLR scores” o “LODs”)
Aparecen sistemas de puntuación basados en LLRs en:
• Matrices PAM o BLOSUM
• Identificación de islas CpG
• Identificación de motivos mediante matrices de pesos
posicionales (PWM)
&
%
14
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
El sistema de puntuación de geneid
2.5.
El programa de predicción de genes geneid utiliza LLRs en la
puntuación de los exones potenciales
Un gen, concebido como una sucesión de exones e intrones
alternados, puede representarse de forma simplificada como:
S = e1 i1 e2 i2 e3 i3 e4 i4 ....eN
Sea ei = si1 si2 si3 ...sini un exon potencial que consta de tres
partes diferenciadas:
−−−
eia :Inicio/Aceptor
− − − − − − − − − − − − −−
eiM :P arte codif icante
−−−
eid :Stop/Donor
geneid puntua cada parte separadamente utilizando un modelo
para los extremos y otro para la parte codificante.
&
Departament d’Estadı́stica U.B.
%
15
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelo de puntuación de un exon
Sea eia el punto de inicio o un “acceptor site” y eid el punto de
stop o un “donor site”. El exon potencial se puntua:
LE (ei ) = LA (eia ) + LD (eid ) + LM (ei )


nA
nD
n
i −5
Asij j +
Dsij j + LI l ei1..,5 +
LF l eij...j+5  ,
=
j=1
j=1
j=1
LA (eia ) y LD (eid ) son las puntuaciones de los extremos del
exon, que se obtienen mediante LLRs basados en matrices de
pesos posicionales para los sitios dadores o aceptores
LM (ei ) es el potencial de codificación, que se calcula mediante
un modelo de Markov de orden 5
&
%
16
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.6.
Alex Sánchez
$
Modelo de puntuación (1) Sitios aceptores y
donores
El calculo LA (eia ) y LD (eid ) esta basado en matrices de pesos
posicionales
Asij j , Dsij j son elementos de esta PWM, determinadas a partir
de secuencias en las que se conocen las posiciones de los genes
(y por tanto de los aceptores, donores, y sitios de start y stop).
Se definen como:
Aij = log
PijA
, (respectivament, Dij , Bij )
QA
ij
&
Departament d’Estadı́stica U.B.
%
17
MMO en Biologia Computacional
'
Alex Sánchez
$
Matrices de pesos posicionales
PijA (respectivamente, PijD , PijB ) representan la probabilidad
de observar el nucleótido i (i ∈ A, C, T, G) en la posición j
(j ∈ −3, −2, ..., 5) en un acceptor site (respectivament, donor o
start), y por tanto se estima a partir de la frecuencia relativa
de nucleótids i que ocupen la posición j en los acceptor sites
“reales”, es decir conocidos (respectivament, donor o start).
D
S
QA
ij (respectivamente, Qij , Qij ) representan la probabilidad
de observar el nucleótido i (i ∈ A, C, T, G) en la posición j
(j ∈ −3, −2, ..., 5) entorno de cualquier dinucleótido AG
(respectivament GT para los donors o AT G para los start
codons). Representa pues el modelo nulo, o más exactamente
“background”.
&
%
18
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 5: Matrices de pesos posicionales
&
Departament d’Estadı́stica U.B.
%
19
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelo de puntuación (2) Potencial de codificación
El potencial de codificación consta de dos componentes:
F j (h) = F j (s1 s2 s3 s4 s5 s6 ) es la probabilidad (de transición) de
observar dentro de un exon el hexámero h = s1 s2 s3 s4 s5 s6
con el nucleótido s1 en la posición j (j = 1, 2, 3 correspondiente
a las tres posibles pautas de lectura) suponiendo que s1 se
encuentre en la posición j en el pentámero s1 s2 s3 s4 s5 .
I j (p) es la probabilidad inicial para cada pentámero p en cada
posición dentro de los exones para las pautas de lectura 1,2,3.
F 0 (h) i I 0 (p) son las probabilidades de transición iniciales
correspondientes a los intrones
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
%
20
Alex Sánchez
$
Ensamblado de los genes
El modelo anterior permite puntuar cada uno de los posibles
exones de un gen
Como las señales son muy débiles el número de exones
potenciales es muy alto, la mayoria de ellos superpuestos entre
si
Para escoger un conjunto “óptimo” que configura un gen se
utiliza un algoritmo de programación dinámica que realiza el
ensamblado maximizando la suma de las puntuaciones de
conjuntos de exones compatibles con un gen (i.e. sin
superposición, sin stop codons en medio etc...)
&
Departament d’Estadı́stica U.B.
%
21
MMO en Biologia Computacional
'
Alex Sánchez
$
&
%
22
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
&Figura 6: El número de exones potenciales es muy alto
Departament d’Estadı́stica U.B.
%
23
MMO en Biologia Computacional
'
3.
Alex Sánchez
$
Predicción de genes con MOM
Los MOM resultan especialmente adecuados para la predicción
de genes por su capacidad para modelizar estructuras
gramaticales, es decir, estructuras en las que aparecen
restricciones relativas
• al tipo de elementos que las constituyen
• al orden en que aparecen estos elementos
Los genes tienen una estructura gramatical sencilla: No se trata
tan sólo de conjuntos de caracteres (nucleótidos), palabras
(exones /intrones) o frases (genes): Hay una estructura en el
sentido que ciertas expresiones no tienen sentido, no son
posibles. Por ejemplo, en genes eucariotas
1.
Las frases nunca acaban en un intron
2. Un exon nunca sigue a otro exon
&
%
24
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.1.
Alex Sánchez
$
MOM para predicción de genes procariotas
Los genes procariotas tienen una gramática particularmente
sencilla
• Codon de inicio
• Region codificante
• Codon de parada
Un MOM para predecir genes de tal tipo deberá contemplar
estados para los tres tipos de regiones
&
Departament d’Estadı́stica U.B.
%
25
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 7: Un MMO para genes procariotas
&
%
26
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.2.
Alex Sánchez
$
MOM para predicción de genes eucariotas
La estructura de los genes eucariotas es compleja. De forma
simplificada contempla
• Codon de inicio
• Region codificante: Un cierto número de exones (≥ 1) e
intrones (≥ 0) terminados por un exón
• Codon de parada
Los MOM desarrollados para genes eucariotas suelen constar
de varios modelos encadenados, unos para modelizar las señales
de inicio o finalización y otros para la región codificante.
&
Departament d’Estadı́stica U.B.
%
27
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 8: Para los sitios aceptores se construye un MMO sencillo.
Excepto en casos raros el intron acaba con un AG, sombreado. El
modelo contemplará no tan sólo estos dos nucleótidos con probabilidades de emisión 1, sino 16 bases anteriores y tres bases siguientes.
Puesto que no hay huecos el modelo será equivalente a una matriz
de pesos.
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
%
28
Alex Sánchez
$
&
Departament d’Estadı́stica U.B.
%
29
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 9: Para las regiones codificantes se construye otro MMO. Los
estados uno, dos y tres del modelo representan respectivamente el
primer, segundo y tercer codon Cualquier región codificante puede
ser representada por este modelo porque del estado tres se puede
volver al uno En la parte inferior se muestra un modelo sencillo en
el que los tres primeros estados coinciden con un codon de inicio,
los tres siguientes con el modelo de región codificante de la parte
superior y los tres últimos con un codon de parada (solo se muestra
uno de los tres posibles estados de parada)
&
Departament d’Estadı́stica U.B.
30
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Figura 10: Los modelos se encadenan en un modelo general. Una “x”
indica un estado para DNA no codificante y una “c” un estado para
DNA codificante (solo se muestra uno de los tres posibles estados de
parada)
&
Departament d’Estadı́stica U.B.
%
31
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 11: Un modelo combinado que contempla el splicing
&
%
32
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.3.
Alex Sánchez
$
Identificación de genes con MMO
Los MMO como los anteriores implican una estructura
determinada para el gen
Una secuencia que no cumpla las restricciones impuestas
recibirá probabilidad cero bajo este modelo
Si se desea localizar los genes en un fragmento de genoma
• Aplicar el algoritmo de Viterbi a la secuencia
• Identificar como genes aquellas sucesiones de observaciones
del camino más probable que cumplan las reglas
gramaticales impuestas por el modelo:
ATG→ Ex → Int → Ex → Int ...→ TAA → Fin
&
Departament d’Estadı́stica U.B.
%
33
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 12: Predicción de genes: Dada una secuencia observada la
predicción del gen se obtiene aplicaandole el Algoritmo de Viterbi
&
%
34
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
En la practica
Los MMO que se utilizan en los programas “reales” de
predicción de genes son mucho más complejos que el ejemplo
anterior.
1.
VEIL utiliza un modelo simple con muchos estados
2.
HMMGene Utiliza CHMM: MMO con clases
3.
Genie usa GHMM: MMO generalizados: Los estados del
modelo general son, a su vez MMO completos
4.
GENSCAN (Burge & Karlin) usa SHMM: MMO con
capacidad de incluir la longitud de los exones e intrones...
&
Departament d’Estadı́stica U.B.
%
35
Descargar