Unidad 6: Árboles Filogenéticos Unidad 6: Árboles Filogenéticos BT7412, CC5702 – Bioinformática Diego Arroyuelo 2 de noviembre de 2010 Unidad 6: Árboles Filogenéticos Temario (Introduction to Computational Molecular Biology – Setubal y Meidanis – Capı́tulo 6) 1. Introducción 2. El problema de la filogenia perfecta 3. Caso de carácteres binarios 4. Caso de dos carácteres 5. Parsimonia y compatiblidad en filogenias 6. Algoritmos para matrices de distancia 7. Acuerdo entre filogenias Unidad 6: Árboles Filogenéticos Introducción Introducción I Todas las especies de organismos vivos terrestres llevan a cabo un proceso de transformacin a lo largo de los años I Ese proceso se conoce con el nombre de evolución I Uno de los problemas centrales de la biologı́a es explicar la historia evolucionaria de las especies actuales I En particular, cómo las especies se relacionan con otras en términos de sus ancestros comunes I Por ejemplo, cómo las ballenas se relacionan con algunos mamı́feros ungulados, como los hipopótamos, vacas, ciervos, etc. Unidad 6: Árboles Filogenéticos Introducción Árboles filogenéticos I Esto se hace usando árboles: las hojas representan las especies actuales, los nodos internos representan los ancestros hipotéticos Unidad 6: Árboles Filogenéticos Introducción Árboles filogenéticos Unidad 6: Árboles Filogenéticos Introducción Árboles filogenéticos I El principal problema es que no hay información suficiente de los ancestros distantes de las especies actuales I Y si la hubiese, no podrı́amos estar 100 % seguros que un fósil en particular corresponde a una especie que es ancestro de dos especies actuales I Por lo tanto se infiere la historia evolucionaria de los organismos actuales y se recrea su árbol filogenético I El árbol resultante no es necesariamente la verdad, es sólo una hipótesis I Usaremos el término objeto para las unidades taxonómicas sobre las que queremos reconstruir una filogenia Unidad 6: Árboles Filogenéticos Introducción Árboles filogenéticos I Usualmente las filogenias se reconstruyen usando comparaciones entre objetos actuales I Podemos clasificar los datos de entrada para la reconstrucción de filogenias en dos categorı́as principales 1. Carácteres discretos: ńumero de dedos, presencia o ausencia de un sitio de restricción molecular, etc. Cada carácter tiene un número finito de estados. La entrada viene dada por una matrı́z de estados de carácteres 2. Datos numéricos comparativos: distancia entre objetos. La entrada viene dada por una matrı́z de distancias I Estudiaremos estos métodos en el curso Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Asumiremos que los carácteres se heredan de forma independiente del resto I Asumiremos además que todos los estados observados de un carácter dado deberı́an haber evolucionado de un “estado original” del ancestro común más cercano de los objetos de estudio I Los carácteres que obedecen a esto se conocen como homólogos Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Definimos la matrı́z M de estados de carácteres con n filas (objetos) y m columnas (carácteres) I Mij denota el estado que el objeto i tiene para el carácter j I Puede haber a lo sumo r estados para cada carácter, los cuales se denotan con número enteros no negativos I Una fila dada de la matrı́z se conoce como el vector de estado de un objeto Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Ejemplo de matrı́z M de estados de carácteres: Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Asumiremos también que objetos que comparten un mismo estado para un carácter dado son genéticamente más cercanos que objetos que no lo comparten I Sin embargo, existe la posibilidad de que dos objetos compartan un estado pero no son genéticamente cercanos: I por ejemplo, la presencia de alas en los murciélagos y aves I Dicho fenómeno se conoce como convergencia o evolución paralela I Estos son casos muy raros en la naturaleza, asumiremos (para simplificar los algoritmos) que no sucede, o sucede raramente Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Otra dificultad tiene que ver con los diferentes estados de un mismo carácter I Por ejemplo, asumamos que los objetos A y B evolucionaron de un ancestro común X I Asumiendo que A tiene c1 = 1 y B tiene c1 = 0 I ¿Qué valor se le asigna al carácter c1 de X ? I Si c1 = 0, decimos que 0 es el estado ancestral y 1 el estado derivado Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Asumamos que hemos decidido que 0 es el estado ancestral y 1 el estado derivado I Supongamos que los objetos C y D tienen un ancestro común Y 6= X I Además, que el estado de c1 para Y es 1 I En este caso el objeto D representa una inversión para el carácter c1 I Esto se puede interpretar como ganancia o pérdida de algún carácter I Estos son también casos muy raros en la naturaleza, asumiremos que no suceden, o suceden raramente Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Si queremos evitar los eventos de convergencia e inversiones, se requiere que el árbol T deseado cumpla con la siguiente propiedad: Para casa estado s de cada carácter c, el conjunto de todos los nodos u (ya sean interiores u hojas) para el cual el estado de c es s deben formar un subárbol I Una filogenia con esta propiedad se conoce como filogenia perfecta I Cuando un conjunto de objetos definidos por una matrı́z de estados de carácteres admite una filogenia perfecta, decimos que esos carácteres son compatibles Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I El siguiente es el problema central en la reconstrucción de filogenias basadas en matrices de estados de carácteres Problema: Filogenia perfecta Instancia: Un conjunto O con n objetos, un conjunto C de m carácteres, cada uno con a lo sumo r estados (n,m,r son enteros positivos) Pregunta: ¿Hay una filogenia perfecta para O? Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I Para la siguiente matrı́z existe una filogenia perfecta Unidad 6: Árboles Filogenéticos El problema de la filogenia perfecta El problema de la filogenia perfecta I ¿Existen algoritmos eficientes para encontrar filogenias perfectas? I ¿Cuántos árboles no enraizados diferentes existen con n nodos? (recordar que los objetos deben ser las hojas) I Para 3 objetos hay un único árbol I Para 4 objetos hay 3 árboles Q Se puede probar que hay ni=3 (2i − 5) árboles distintos, lo cual crece más rápido que n! I Construir todos los árboles tratando de encontrar alguno que sea una filogenia perfecta no es una alternativa eficiente Unidad 6: Árboles Filogenéticos Caso de carácteres binarios El caso de carácteres binarios I El caso de carácteres binarios puede ser resuelto eficientemente: 1. Carácteres ordenados: sabemos cuál estado es ancestro y cuál es derivado 2. Carácteres desordenados: no se especifı́ca el orden entre los carácteres I En la próxima clase veremos un algoritmo de tiempo polinomial que trabaja en dos fases (en la primera decide si existe una filogenia perfecta, y en la segunda construye una posible filogenia perfecta)