Lección 4. Métodos filogenéticos Básico Propiedades deseables

Anuncio
Métodos filogenéticos
Básico
•
La inferencia filogenética es un campo per se del estudio de la
evolución, en continuo movimiento y expansión.
•
La inferencia filogenética es un procedimiento de estimación
estadística.
•
Disponemos de información actual sobre las moléculas (u otros
caracteres) e intentamos hipotetizar sobre el pasado
•
La pregunta es: ¿cuál es la historia evolutiva de este grupo de
taxones?
Lección 4. Métodos filogenéticos
Curso “Análisis filogenético”
David Posada
Máster de Bioestadística 2006
Universidad de Santiago de Compostela
Marzo 2006
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Propiedades deseables
Poder: ¿cuántos datos se necesitan para producir un resultado
razonable?
MÉTODO COMPUTACIONAL
Criterio de optimalidad
•
Consistencia: ¿convergerá a la solución correcta si proporcionamos
suficientes datos?
•
Robustez: ¿si se violan algunas asunciones el método sigue
proporcionando soluciones razonables?
•
Falsabilidad: ¿nos indicará el método cuándo no lo deberíamos estar
utilizando?
•
No existe el método perfecto
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Caracteres
•
Distancias
Eficiencia: cuán rápido es el método?
TIPO DE DATOS
•
Tipos de métodos
Algoritmo de agrupamiento
Máxima Parsimonia (MP)
Máxima Verosimilitud (ML)
Inferencia Bayesiana (BY)
Evolución mínima (ME)
Mínimos cuadrados (LS)
Neighbor-joining (NJ)
UPGMA
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Caracteres y distancias
Algoritmos vs. Criterios de optimalidad
•
Los métodos algorítmicos definen una serie de pasos que conducen a
la determinación de un árbol
•
Los métodos de optimalidad definen un criterio que permiten comparar
diferentes árboles y decidir cúal es mejor (o igual).
Métodos que usan caracteres nos indican cuáles cambian y nos permiten
reconstruir estados ancestrales
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Son bastante “atractivos”
•
Dos pasos:
1. Definir el criterio de optimalidad (parsimonia, mínimos cuadrados,
verosimilitud, probabilidad posterior)
2. Buscar el árbol óptimo bajo el criterio en question
Tienen limitaciones
•
Proporcionan una forma de establecer un rango de bondad de las
diferente soluciones posibles
•
Estos métodos son mucho más lentos que los métodos algorítmicos,
ya que hay que buscar entre varias soluciones posibles
•
Máxima parsimonia (MP), Mínima evolución (ME), Máxima
verosimilitud (ML), Inferencia Bayesiana (Bayes)
– Pueden depender del orden en el que se añaden los taxones
– No permiten comparar diferentes árboles
•
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos de optimalidad
– Son métodos fáciles de implementar, incluso a mano.
– El tiempo de computación
– Suelen resultar en un único árbol
•
Optimalidad
Métodos filogenéticos
Métodos algorítmicos
•
Algoritmo
UPGMA (ya no se usa), Unión del vecino o “Neighbor-joining” (NJ)
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
¿Cuántos árboles hay?
Problema muy difícil
Taxa (n)
Enraízados
(2n-3)!/((n-2)! 2n-2)
No enraízados
(2n-5)!/((n-3)! 2n-3)
4
15
3
5
105
15
6
954
105
7
10,395
954
8
135,135
10,395
9
2,027,025
135,135
10
34,459,425
2,027,025
20
8.20!1021
2.22!1020
50
2.75!1076
2.84!1074
•
La inferencia filogenética es un problema NP (“non-deterministic
polinomial”): no se conocen algoritmos eficientes para sus solución.
•
Para un número razonable de secuencias (p.e., más de 20) es a
menudo imposible garantizar que se han encontrado el árbol óptimo.
•
A menudo hay que realizar búsquedas heurísticas, que pueden resultar
en árboles buenos, regulares, malos …
El número total de átomos en el cuerpo humano es 1028.
El número total de partículas en el universo es 1072 – 1087.
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Paisajes de árboles (“tree landscape”)
Islas de árboles (“tree islands”)
Árbol óptimo global
Un buen árbol
Árbol óptimo local
Y si la búsqueda
empezase aquí?
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Búsqueda de árboles
•
Búsqueda exhaustiva
Exacta: garantizan todos los óptimos globales (8-20 taxa)
– Exhaustiva: cuando se evaluan todos los árboles posibles
– Branch-and-Bound
•
Aproximada: se buscan una solución que sea óptima aunque sin
garantizar que sea la mejor (¿óptimo local o global?)
– Heurística: empezamos en un árbol dado y nos movemos a otros árboles
intentando mejorar su optimalidad. Cuando no podemos mejorar, paramos.
– Algoritmos genéticos
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Búsqueda Branch-and-Bound
Ejemplo Branch-and-Bound
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Búsqueda heurística
Adición secuencial (“stepwise addition”)
1.
Hay que empezar en algún sitio: adición secuencial o descomposición de
estrella
2.
Hay que buscar (“branch swapping”): TBR, SPR, NNI. Conviene hacer
varias réplicas de esta búsqueda con diferentes órdenes de adición
GLOBAL
MAXIMUM
Search
for global
maximum
GLOBAL
MAXIMUM
local
maximum
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Ejemplo adición secuencial (“stepwise addition”)
Descomposición de la estrella (“star decomposition”)
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Moviéndose en el bosque
•
•
•
•
A partir del árbol inicial, queremos explorar diferentes árboles
Se efectuan una serie de movimientos y nos quedamos con el mejor
árbol
El proceso se repite hasta que no se pueda mejorar
Existen varios tipos de movimientos:
NNI: Intercambio del vecino más cercano (“nearest
neighbor interchange”)
•
•
Intercambia ramas adyacentes del árbol
Se trata de reordenar los cuatro subárboles definidos por una rama
interna
– NNI: intercambio del vecino cercano
– SPR: poda y regrafo
– TBR: bisección y reconexión
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
SPR: poda y regrafo de subárboles (“subtree prunning
and regrafting”)
•
•
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
TBR: bisección y reconexión del árbol (“tree bisection
and reconnection”)
•
•
Se elimina una rama (interna o externa) del árbol
El subárbol resultante se “injerta” en otra de las ramas
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Se rompe una rama interna, obteniéndose dos árboles
Se exploran todas las conexiones entre todas las ramas de uno con
todas las del otro
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Árboles consenso
•
Tipos de consenso
A menudo encontramos varios árboles igualmente óptimos. Es posible
construir árboles consenso a partir de un conjunto de árboles:
–
–
–
–
Estricto: contiene los grupos (o nodos) que aparecen en todos los árboles
Adams: contiene los tripletes que aparecen en todos los árboles
Semi-estricto: contiene los grupos (o nodos) que no se contradicen
Regla de la mayoría (“majority rule”): contiene los grupos (que aparecen
más de la mitad de los árboles
Estricto
Adams
Cual es es consenso estricto?
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Métodos filogenéticos
Métodos filogenéticos
Métodos algorítmicos
•
Comparativa optimalidad-algoritmos
Los métodos algorítmicos combinan la inferencia del árbol y la
definición del árbol optimo en un único paso
•
No proporcionan una forma de establecer un rango de bondad de las
diferente soluciones posibles
•
Estos métodos son computacionalmente mucho más rápidos que los
métodos de optimalidad, ya que no hay que buscar entre varias
soluciones posibles
•
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Regla de la mayoría
Optimalidad
Algorítmicos
Ventajas
Permiten ordenar los
árboles
Rápidos
Desventajas
Lentos
Única respuesta
Utilizan distancias
Incluyen UPGMA y Neighbor-Joining (NJ)
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Lección 4. Métodos
Análisis filogenético 2006
David Posada
Descargar