Introducción a la Filogeografía 2009 - UNC Mariana Morando Centro Nacional Patagónico-CONICET Puerto Madryn. Chubut. Gustav Klimt. The tree of life (1907) Arboles genealógicos, teoría de coalescencia y el análisis de polimorfismos genéticos Filogeografía Estadística Introducción a la Filogeografía 2009 - UNC Fuentes utilizadas para preparar esta exposición: *Coalescent Theory. 2009. J. Wakeley *Population Genetics & Microevolutionary theory. 2006. A. Templeton. *Gene Genealogies, Variation and Evolution. 2005. Hein, Schierup & Wiuf. *Papers: Nordborg, Rosenberg, Knowles, Kunher, *Knowles & Maddison. 2002. Molecular Ecology *Kuhner. 2008. Trends is Ecology & Evolution *Sites & Morando. 2009. Enciclopedia of Life Sciences *Algunos gráficos de presentaciones de: Uruguay), -Dr. E. Lessa (Univ. de la Republica. -Dr. Peter Beerli (Washington Univ.) -Dr. Magnus Nordborg (Mendel Inst.) Introducción a la Filogeografía 2009 - UNC Estructura de la exposición polimorfismos moleculares modelo Coalescente *Historia El Coalescente básico -nivel 1-nivel 2-nivel 3-nivel 4-nivel 5- *Importancia *Ideas básicas 1- Matemática 2- “estado” separado de “descendencia” 3- genealogía *Estimación de parámetros *Aplicaciones ejercicios prácticos Introducción a la Filogeografía 2009 - UNC muchos datos muchos individuos muchos loci La Genética de Poblaciones nos puede ayudar a encontrar respuestas a preguntas en las que los biólogos evolutivos aun estamos interesados: ✓de donde venimos nosotros y las otras especies? ✓cuan grandes son las especies? ✓estas poblaciones son especies? ✓cual es la tasa de recombinación de la especie x? Introducción a la Filogeografía 2009 - UNC Cual es el objetivo de la Genética de Poblaciones? *deriva entender las fuerzas que producen y mantienen *mutación variación genética dentro de una especie *recombinación *selección natural *estructura poblaciones *transmisión al azar de material genético de parentales a descendencia la analizar los polimorfismos coleccionados de poblaciones naturales ¿Como? poner a prueba modelos sobre fuerzas evolutivas Parte de la Genética de Poblaciones teórica, considera estos factores en un marco matemático, incluyendo matemática, teoría de probabilidades y estadística Introducción a la Filogeografía 2009 - UNC Teoría del Coalescente historia larga en la Gen. Pobl. orientada al análisis de datos genéticos modernos interpretar las secuencias y darles un sentido *Malecot, varios trabajos de la década del ‘40 introdujo la idea de seguir un par de copias de un gen hasta su ancestro común y una medida de variación genética: identidad por descendencia Introducción a la Filogeografía 2009 - UNC la Genética de Poblaciones clásica tenia poco para decir * ’60 datos polimórficos moleculares hacia falta un modelo Kimura modelo neutral *Kingman, 1982 *Hudson, 1983 *Tajima, 1983 *Kreitman, 1983 tratamiento matemático definitivo recombinación El Coalescente proceso estocástico que representa un marco estadístico coherente para analizar datos de polimorfismos genéticos primera publicación de investigación con polimorfismo de secuencias de ADN Introducción a la Filogeografía 2009 - UNC Kingman, 1982a, 1982b, 1982c demostró la existencia matemática del proceso coalescente n-coalescent generalizo esta idea para k copias génicas Prob (k copias sean reducidas a k -1 copias) = k (k - 1) 4N y que el “n-coalescente” se mantiene para un amplio rango de poblaciones con diferentes estructuras de apareamiento Introducción a la Filogeografía 2009 - UNC El Coalescente básico -nivel 1- interpretar las secuencias y darles un sentido los modelos coalescentes siguen la genealogía (ancestría) de genes hacia atrás en el tiempo, comenzando por el presente Esto resulta ser una manera muy poderosa de pensar sobre los polimorfismos genéticos matemática elegante algoritmos de simulaciones poderosos cálculos de verosimilitud explícitos Introducción a la Filogeografía 2009 - UNC el Coalescente describe la ancestria genética de una muestra de secuencias bajo un modelo genealogía del gen grupo de relaciones ancestrales entre los miembros de la muestra y hace predicciones sobre los patrones de variación genética esto incluye tiempos a ancestros comunes, que son medidos desde el presente hasta el pasado Es importante, extremadamente valioso, incluso esencial, que cualquier persona que analiza datos de polimorfismos genéticos de poblaciones tenga un entendimiento básico de la teoría de coalescente ¿Cuanto? Introducción a la Filogeografía 2009 - UNC ¿Cuales son las ideas sobre las que se basa el modelo coalescente? 1-matemática sigan conectados que el -nivel 5- YA LLEGA ! ! ! 2-dos ideas conceptuales: 1- dado que las variantes selectivamente neutrales no afectan el éxito reproductivo, es posible separar el proceso de mutación neutral del proceso genealógico En términos clásicos “estado” se puede separar de “descendencia” Introducción a la Filogeografía 2009 - UNC En términos clásicos “estado” se puede separar de “descendencia” población clonal = N = 10 repr. modelo W-F: gen. discretas cada gen. se forma muestreando al azar N parentales con reemplazo de la gen actual numero de descendientes contribuido por un individuo en particular tiene una distribución binomial, con parámetros: N = numero de pruebas “trials” 1 / N = prob. de ser elegido relaciones genealógicas en una realización particular de 10 generaciones del modelo neutral W-F (N=10) estados alelicos superpuestos (“gene-dropping”) la distribución conjunta de los números de descendientes producidos por todos los individuos N es multinomial simétrica Nordborg 2000 ¿cuales son las relaciones genealógicas que surgen de esto? NADA de esto es influenciado por diferencias genéticas neutras entre los individuos la dinámica evolutiva de las variantes neutrales se pueden modelar por “mutation dropping” Introducción a la Filogeografía 2009 - UNC En términos clásicos “estado” se puede separar de “descendencia” dada la realización de un proceso genealógico los estados alelicos se asignan a la gen. original las lineas de descendencia se siguen hacia adelante, usando la regla de que los descendientes heredan heredan el estado alelico de sus parentales a menos que haya una mutación (que ocurre con una prob. en cada gen.) relaciones genealógicas en una realización particular de 10 generaciones del modelo neutral W-F (N=10) NADA de esto es influenciado por diferencias genéticas neutras entre los individuos estados alelicos superpuestos (“gene-dropping”) Nordborg 2000 los estados alelicos de un grupo de individuos se pueden generar asignando un estado alelico a su MRCA y luego “dropping” mutaciones en las ramas del árbol genealógico que lleva hacia ellos la mayoría de la historia genealógica de la población es irrelevante la dinámica evolutiva de las variantes neutrales se pueden modelar por “mutation dropping” Introducción a la Filogeografía 2009 - UNC El Coalescente básico -nivel 2- idea básica que subyace al coalescente: en la ausencia de selección, los linajes muestreados se pueden ver como una “elección” al azar sus parentales, a medida que vamos hacia atrás en el tiempo Genealogía de organismos vs. genealogía de alelos Introducción a la Filogeografía 2009 - UNC 2- es posible modelar la genealogía de un grupo de individuos hacia atrás en el tiempo sin preocuparse sobre el resto de la población. Esto es consecuencia de la “elección” al azar sus parentales en la generación anterior. la genealogía de un grupo de individuos se puede generar simplemente siguiendo los linajes hacia atrás en el tiempo, generación por generación, marcando las coalescencias entre los linajes, hasta que eventualmente se encuentra el MRCA las propiedades de una muestra de dependen SOLO de su genealogía, que se puede modelar hacia atrás en el tiempo Introducción a la Filogeografía 2009 - UNC los efectos conjuntos de: 1-reproducción al azar (que causa “deriva genética”) y 2-mutaciones neutrales al azar en determinar la composición genética de una muestra se puede modelar: 1-generando una genealogía de los individuos al azar hacia atrás en el tiempo y luego 2-superponiendo las mutaciones hacia adelante en el tiempo esto lleva a: 1-algoritmos computacionales extremadamente eficientes -nivel 6- LLEGAREMOS ? 2-matemáticamente elegante, pero sobre todo -nivel 5- YA LLEGA ! ! ! 3-gran valor heurístico: El Coalescente básico Introducción a la Filogeografía 2009 - UNC -nivel 3- La visión de que el PATRON DE VARIACION NEUTRAL OBSERVADO EN LA POBLACION se puede ver como el resultado de: MUTACIONES AL AZAR sobre ARBOL AL AZAR afecta profundamente en COMO PENSAMOS sobre nuestros datos casi siempre estamos interesados en fenómenos biológicos que afectan el proceso genealógico, pero que NO afectan el proceso mutacional (subdivisión poblacional) desde el punto de vista de inferencia de estos fenómenos.... Introducción a la Filogeografía 2009 - UNC desde el punto de vista de inferencia de estos fenómenos.... contienen información sobre la 3 PROCESOS EVOLUTIVOS 6 contiene información sobre los 2 solo son de interés porque 1 REALIZACIONES DE POLIMORFISMOS SUBYACENTEPROCESOS OBSERVADOS NO OBSERVADA ESTOCASTICOS GENEALOGIA 4 5 solo es de interés porque Dr. Lessa Introducción a la Filogeografía 2009 - UNC NO IMPORTA CUANTOS INDIVIDUOS TENGA NUESTRA MUESTRA HAY SOLO UNA GENEALOGIA SUBYACENTE PARA ESTIMAR Esa sola genealogía puede contener mucha información sobre el aspecto interesante del proceso evolutivo, pero si no es el caso, entonces nuestras inferencias serán tan buenas como una muestra de uno! Otra consecuencia de esto es que es usualmente posible entender como los parámetros del modelo afectan los datos de polimorfismos, si entendemos como afectan las genealogías. por esto primero hay que entender el proceso genealógico y luego una breve discusión sobre el proceso de mutación neutral Introducción a la Filogeografía 2009 - UNC El aspecto mas importante en spp. de reproducción sexual o con algún intercambio genético , es que los tiempos a ancestros comunes varían mucho en el genoma Tabla 3 The International SNP Map Working Group (2001) # SNPs Poisson 0 1 2 3 4 8256 3040 617 99 16 Coalescente Observados 8767 2332 663 200 66 8796 2247 668 214 102 ¿Por que el Coalescente explica mejor los datos? proceso estocástico: descripción matemática de la evolución al azar de una cantidad en el tiempo Introducción a la Filogeografía 2009 - UNC Porque captura los procesos poblacionales que causan que los tiempos de ancestría difieran entre los loci este cambio a una visión restrospectiva del coalescente Dado el presente: Que podría haber pasado? ha reemplazado bastante la perspectiva de la Genética de Poblaciones clásica “hacia adelante” sin embargo, la Genética de Poblaciones, resulta mas útil en algunos casos; pero, la estrecha conexión del coalescente con la muestra es un marco mas intuitivo y eficiente que la teoría clásica para hacer inferencias sobre la genética y demografía de las poblaciones Numero de generaciones antes del presente Introducción a la Filogeografía 2009 - UNC Ejemplo 1 1 2 AB DD BB CD 4 3 4 5 6 BB CD AB DD AB CD AB CD 7 8 9 10 11 BB CD AB DD BB CD AB CD AA CC 12 13 14 15 AB CD AB CD AB CD AA CC 16 17 18 19 20 AA CC AA CC AA CC AA CC AA CC únicos 5 sobrevivientes 3 2 1 cuello de botella extremo 0 no mutación en las ultimas generaciones Genealogía de una población mamífero diploide. Números en centros de círculos (hembras) y cuadrados (machos) son identificadores de individuos. Locus autosómico 1 tiene alelos A y B; locus autosómico 2 tiene alelos C y D Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) genoma mitocondrial (♀) aut 1 aut 2 diferentes cromosomas Numero de generaciones antes del presente Introducción a la Filogeografía 2009 - UNC Ejemplo 1 1 2 AB DD BB CD 4 3 4 5 6 BB CD AB DD AB CD AB CD 7 8 9 10 11 BB CD AB DD BB CD AB CD AA CC 3 2 TMRCA (Y) = 1 gen 12 13 14 15 AB CD AB CD AB CD AA CC 16 17 18 19 20 AA CC AA CC AA CC AA CC AA CC únicos 5 sobrevivientes 1 cuello de botella extremo 0 no mutación en las ultimas generaciones Genealogía de una población mamífero diploide. Números en centros de círculos (hembras) y cuadrados (machos) son identificadores de individuos. Locus autosómico 1 tiene alelos A y B; locus autosómico 2 tiene alelos C y D Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) genoma mitocondrial (♀) aut 1 aut 2 diferentes cromosomas TMRCA (Y) = 1 gen Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) genoma mitocondrial (♀) aut 1 aut 2 diferentes cromosomas TMRCA (Y) = 1 gen Numero de generaciones antes del presente Introducción a la Filogeografía 2009 - UNC Ejemplo 1 1 2 AB DD BB CD 4 3 4 5 6 BB CD AB DD AB CD AB CD 3 TMRCA (mt) = 2 gen 7 8 9 10 11 BB CD AB DD BB CD AB CD AA CC 12 13 14 15 AB CD AB CD AB CD AA CC 16 17 18 19 20 AA CC AA CC AA CC AA CC AA CC únicos 5 sobrevivientes 2 1 cuello de botella extremo 0 no mutación en las ultimas generaciones Genealogía de una población mamífero diploide. Números en centros de círculos (hembras) y cuadrados (machos) son identificadores de individuos. Locus autosómico 1 tiene alelos A y B; locus autosómico 2 tiene alelos C y D Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) TMRCA (Y) = 1 gen genoma mitocondrial (♀) TMRCA (mt) = 2 gen aut 1 aut 2 diferentes cromosomas Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) TMRCA (Y) = 1 gen genoma mitocondrial (♀) TMRCA (mt) = 2 gen aut 1 (A B) diferentes cromosomas aut 2 Numero de generaciones antes del presente Introducción a la Filogeografía 2009 - UNC Ejemplo 1 1 2 AB DD BB CD 4 3 4 5 6 BB CD AB DD AB CD AB CD 3 TMRCA (a1) = 2 gen 7 8 9 10 11 BB CD AB DD BB CD AB CD AA CC 12 13 14 15 AB CD AB CD AB CD AA CC 16 17 18 19 20 AA CC AA CC AA CC AA CC AA CC únicos 5 sobrevivientes 2 1 cuello de botella extremo 0 no mutación en las ultimas generaciones Genealogía de una población mamífero diploide. Números en centros de círculos (hembras) y cuadrados (machos) son identificadores de individuos. Locus autosómico 1 tiene alelos A y B; locus autosómico 2 tiene alelos C y D Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) TMRCA (Y) = 1 gen genoma mitocondrial (♀) TMRCA (mt) = 2 gen aut 1 (A B) TMRCA (a1) = 2 gen aut 2 diferentes cromosomas Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) TMRCA (Y) = 1 gen genoma mitocondrial (♀) TMRCA (mt) = 2 gen aut 1 (A B) TMRCA (a1) = 2 gen diferentes cromosomas aut 2 (C D) Numero de generaciones antes del presente Introducción a la Filogeografía 2009 - UNC Ejemplo 1 1 2 AB DD BB CD 4 TMRCA (a2) = 3 gen 3 4 5 6 BB CD AB DD AB CD AB CD 7 8 9 10 11 BB CD AB DD BB CD AB CD AA CC 12 13 14 15 AB CD AB CD AB CD AA CC 16 17 18 19 20 AA CC AA CC AA CC AA CC AA CC únicos 5 sobrevivientes 3 2 1 cuello de botella extremo 0 no mutación en las ultimas generaciones Genealogía de una población mamífero diploide. Números en centros de círculos (hembras) y cuadrados (machos) son identificadores de individuos. Locus autosómico 1 tiene alelos A y B; locus autosómico 2 tiene alelos C y D Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 1 cuello de botella extremo tiempo de coalescencia para 4 loci: cromosoma Y (♂) TMRCA (Y) = 1 gen genoma mitocondrial (♀) TMRCA (mt) = 2 gen aut 1 (A B) TMRCA (a1) = 2 gen diferentes cromosomas aut 2 (C D) TMRCA (a2) = 3 gen Debido a la naturaleza estocastica de la transmisión alelica de parentales a descendientes, los diferentes loci tiene diferentes tiempos de coalescencia En este ejemplo sabíamos los genotipos de todos los individuos en la población raramente el caso generalmente tenemos una MUESTRA de individuos no recombinación no transferencia horizontal Introducción a la Filogeografía 2009 - UNC Ejemplo 2 20 18 16 14 numero 12 de generaciones antes 10 del presente 8 6 4 2 0 1 Genealogía de una población mamífero diploide. Identificadores de individuos en las terminales 2 3 4 5 6 7 8 Re-dibujado de Rosenberg & Feldman, 2002 Introducción a la Filogeografía 2009 - UNC Ejemplo 2 seleccionamos una muestra de 2 individuos: 1y2 TMRCA (1,2) = 4 gen 1y4 TMRCA (1,4) = 12 gen 1y8 TMRCA (1,8) = 20 gen El tiempo de coalescencia para una muestra como máxima es el tiempo de coalescencia de toda la población. Mientras mas individuos se agregan a la muestra, el tiempo de coalescencia de la muestra se aproxima al tiempo de coalescencia de la población Debido a la naturaleza estocástica de la muestra, los tiempos de coalescencia para un locus varían entre muestras Introducción a la Filogeografía 2009 - UNC realísticamente, en estudios de poblaciones diploides, los tiempos de coalescencia varían entre loci y entre muestras variación de tiempos de coalescencia entre loci varianza en base a muchos loci independientes, pop. sexual de N cte. = 1.16 N2 >>>> variación de tiempos de coalescencia entre muestras prob. tiempo coalescencia para una muestra de tamaño n = al tiempo de coalescencia para toda la población ~ (n - 1) / (n+1) Introducción a la Filogeografía 2009 - UNC se necesitan muchos loci para obtener valores precisos de El Coalescente básico -nivel 4- estadísticos de distribución de tiempos de coalescencia de una población para un locus una muestra pequeña es suficiente, en principio, para obtener el tiempo de coalescencia de una población Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC para un locus una muestra pequeña es suficiente, en principio, para obtener el tiempo de coalescencia de una población Introducción a la Filogeografía 2009 - UNC Precalentamiento para llegar a... El Coalescente básico -nivel 5- Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Los estudios teóricos en Gen Pobl, se basan en nuestra habilidad de construir modelos que capturen las características biológicas esenciales de las poblaciones, pero que son lo suficientemente idealizados como para seguirlos matemáticamente dos modelos comúnmente usados en Genética de Poblaciones Wright-Fisher & Moran generaciones que NO se solapan generaciones que se solapan poblaciones reales el coalescente es una aproximación al proceso ancestral de una muestra bajo estos modelos cuando el tamaño poblacional es grande, aunque algunas características del modelo son exactas a la de Moran Introducción a la Filogeografía 2009 - UNC Wright-Fisher -tamaño constante (2N alelos) y finita -ausencia de selección y migración reproducción azar algunos indiv. pueden NO contribuir descendencia a la generación siguiente perdida de linajes genéticos “mirada hacia adelante” “mirada hacia atrás” deriva génica fuente del proceso coalescente Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher pasado presente Todos los individuos liberan muchas gametas y a partir de estos, se forman al azar nuevos individuos para la próxima generación. Introducción a la Filogeografía 2009 - UNC Modelo demográfico de Wright-Fisher ☀El tamaño poblacional es constante ☀Cada individuo es reemplazado en la generación siguiente ☀La siguiente generación se forma al azar a partir de un pool grande de gamentas ☀Solo opera la deriva genética en las frecuencias de los alelos Estadísticos F F = probabilidad de que dos alelos muestreados sean idénticos por descendencia H = heterocigocidad esperada u observada los estadísticos F aun son el método mas comúnmente utilizado para estimar parámetros genéticos de datos de frecuencias de alelos Introducción a la Filogeografía 2009 - UNC Sewall Wright demostró que la probabilidad de que las dos copias de un gen, provengan de la misma copia de la generación precedente es: población finita Prob (2 genes compartan el parental) = P= 1 2Ne Hay una chance de que dos 2 alelos en generación t sean copias del mismo alelo en t SI Ne es cte., el nro. de alelos es cte. -1 Hay una chance que algunos alelos en gen. t NO tengan descendientes en gen. t Si seguimos la ancestría de los alelos en la muestra lo suficiente hacia atrás, TODOS van a descender de un ancestro en común. -1 Introducción a la Filogeografía 2009 - UNC En cada generación hay una probabilidad P= 1 2Ne *Cuanto tiempo hacia atrás hay que ir hasta que todos los alelos sean descendientes de un solo ancestro en común *Cuan frecuentemente dos (o mas) alelos son descendientes del mismo alelo en la gen. precedente de que dos alelos coalescan dependen del Ne Introducción a la Filogeografía 2009 - UNC Kingman, 1982a, 1982b, 1982c desarrolló un método poderoso para describir COMO el tiempo hasta el ancestro común esta relacionado con Ne coalescente basado en describir la PROBABILIDAD de eventos coalescentes Introducción a la Filogeografía 2009 - UNC pasado tiempo presente Introducción a la Filogeografía 2009 - UNC supuesto: las poblaciones son lo suficientemente grandes que se puede ignorar la posibilidad que haya mas de un evento coalescente en una generación [ n<<N ] pasado tiempo presente Hacia adelante: una molécula de ADN se vuelve 2 o más. Hacia atrás: dos o mas moléculas de ADN coalescen en una sola copia en el pasado. Introducción a la Filogeografía 2009 - UNC Debido a la deriva, el coalescente es un proceso estocástico que incluye una estructura discreta tipo árbol y n-1 intervalos de tiempo pasado ancestro común mas reciente (MRCA) u2 tiempo Coalescencia presente La distribución de los intervalos de tiempo uk sigue una distribución exponencial con: u3 u4 u5 Los tiempos Ti son los tiempos durante los cuales hay exactamente i linajes ancestrales a la muestra Introducción a la Filogeografía 2009 - UNC lo que si nos interesa... 1. Solamente los linajes que dieron descendencia. 2. Una muestra de secuencias y no la genealogía de la población entera. el coalescente realización de un proceso - Topología - Tiempos entre eventos de coalescencia {Ti} - Patrón de variación (mutaciones) en los alelos. Pueden o NO ocurrir. Introducción a la Filogeografía 2009 - UNC un poco de matemática + probabilidades... antigüedad media del ancestro común a todos los alelos Var(TMRCA) = 16/2N2(π2-9) la varianza de MRCA es muy grande! duración media de intervalos de tiempo entre eventos de coalescencia Introducción a la Filogeografía 2009 - UNC variables discretas: distribución binomial describen y numero de eventos que ocurren en un periodo fijo de tiempo geométrica tiempo entre eventos variables continuas: distribución Poisson y exponencial columna vertebral del coalescente neutral Introducción a la Filogeografía 2009 - UNC un proceso Poisson es un proceso de conteo K(t) registra eventos que ocurren a tasa constante, λ, por unidad de tiempo el numero de eventos en cualquier periodo de tiempo de longitud t, sigue la distribución de Poisson con parámetro λt el tiempo de espera para el primer evento esta distribuido exponencialmente... y los subsiguientes también (procesos sin memoria) los tiempos de espera entre eventos sucesivos son independientes e idénticamente distribuidos en procesos de Poisson, los tiempos de espera son variables al azar exponenciales. Introducción a la Filogeografía 2009 - UNC El coalescente esta bien enmarcado en la teoría de procesos de Posisson, porque considera que cada uno de los tiempos y tipos de eventos, tiene una pequeña probabilidad de ocurrir en una sola generación. pero para el coalescente son varios procesos de Poisson! suma de Poissones independientes y algo mas! Tomar un curso de Coalescencia de 1 semana! Introducción a la Filogeografía 2009 - UNC seguimos los linajes ancestrales, que son una serie de ancestros genéticos de las muestras del locus, hacia atrás en el tiempo. la historia de una muestra de tamaño n comprende n - 1 eventos de coalescencia cada evento de coalescencia decrece el numero de linajes ancestrales por 1 muestra actual: hay n linajes que a través de una serie de pasos, el numero de linajes decrece de n a n - 1, luego de n - 1 a n - 2 y así, hasta que llega desde 2 a 1 en cada evento coalescente, dos de los linajes se fusionan en un linaje común ancestral; el resultado es un árbol que se bifurca el único linaje que resta en el evento coalescente final es el Most Recent Common Ancestor (MRCA) de toda la muestra Introducción a la Filogeografía 2009 - UNC Dos alelos nivel de ploidia 1 2Ne Prob (2 alelos tomados al azar sean i.d. con respecto a la gen. inmediatamente precedente) = Prob (2 alelos tomados al azar NO sean i.d. con respecto a la gen. inmediatamente precedente) = 1 2Ne inbreeding effective size 1 2Ne Queremos calcular la probabilidad de que un evento de coalescencia pasó en un tiempo particular t para descubrir cuanto tenemos que ir hacia atrás en la ancestria de estos dos alelos hasta encontrar el ancestro común esto es: queremos ver la distribución de las longitudes de rama Como lo hacemos? Introducción a la Filogeografía 2009 - UNC Para que ocurra un evento de coalescencia en un tiempo particular t los dos alelos NO tienen que haber coalescido en la generación que le precede I-la probabilidad de que NO coalescan en la primera t - 1 generación: 1 2Ne 1 t-1 II-la probabilidad de que SI coalescan en la generación t: 1 2Ne La probabilidad de que dos alelos elegidos al azar coalescan t generaciones atrás: distribución geométrica 1 1 2Ne t-1 1 2Ne Una vez que tenemos la distribución de la probabilidad, el tiempo promedio de coalescencia para dos alelos elegidos al azar es: 2Ne Introducción a la Filogeografía 2009 - UNC Multiples alelos Queremos saber cuanto tiempo atrás tenemos que ir hasta que TODOS los alelos desciendan de un solo ancestro en común. n alelos en la muestra I- probabilidad de que dos alelos de la muestra sean i.d. de la generación inmediatamente precedente n para dos alelos: 1 2Ne pero hay (2) = n! (n - 2)!2! n (n-1) diferentes pares de alelos 2 probabilidad de que un par de estos alelos este involucrado en un evento de coalescencia en la generación inmediatamente precedente: 1 2Ne n (n-1) 2 II-probabilidad de que el primer evento de coalescencia de esta muestra de alelos ocurra t generaciones atrás: probabilidad que NO 1 1 2Ne n (n-1) 2 probabilidad que SI t-1 1 2Ne n (n-1) 2 Introducción a la Filogeografía 2009 - UNC -nivel 5- para principiantes Tiempo promedio para el primer evento de coalescencia coalescencia: Queremos saber cuanto tiempo atrás tenemos que ir 4Ne generaciones n (n-1) hasta que TODOS los alelos desciendan de un solo ancestro en común. Y aquí aparece el “truco” de Kingman... Después del primer evento de coalescencia, tenemos n-1 alelos en lugar de n Todo el proceso se repite de nuevo con n-1 alelos en lugar de n Debido a que el tiempo para la primera coalescencia depende SOLO del numero de alelos en la muestras y NO de cuanto tiempo tomo, podemos calcular el tiempo promedio hasta que todas las coalescencias ocurrieron: n t= tk ∑ k=2 n t= ∑ k=2 4Ne k (k-1) Si n es grande diploide = 4Ne 1-1 n ≈ E(T) = 4Ne haploide 2Ne y NO vamos a ver como se calcula la varianza ! El Coalescente es un proceso Markov de tiempo continuo, que modela la genealogía de una muestra d n individuos (genes), como un árbol que se bifurca al azar, donde los n - 1 tiempos de coalescencia: T (n), T (n-1), ....T(2), son variables al azar, mutuamente independientes, con distribución exponencial Cada par de linajes coalesce independientemente, a una tasa de 1, por lo tanto, la tasa total cuando hay k linajes es “k elige 2” Introducción a la Filogeografía 2009 - UNC Los tiempos de coalescencia aumentan de manera exponencial en el pasado En una población de tamaño constante, se espera que la mayoría de los eventos de coalescencia ocurran en... un pasado reciente diploide E(T) = 4Ne 100 E(T) 75 50 25 0 N =100 10 9 8 7 6 5 4 3 2 n El tiempo esperado durante el cual hay solamente dos ramas es mayor que la mitad de la altura esperada total del árbol! Introducción a la Filogeografía 2009 - UNC variabilidad del proceso coalescente Introducción a la Filogeografía 2009 - UNC Como se ven los típicos arboles coalescentes? *extrema variabilidad en todo espectro *frecuentemente dominados por ramas profundas incrementar el tamaño de la muestra... solo agrega extremos al árbol aumentar el tamaño de la muestra frecuentemente es sorprendentemente inefectivo Introducción a la Filogeografía 2009 - UNC ¿Cuan grande tiene que ser ser la muestra para que incluya el MRCA? ¿Cual es la probabilidad de que el MRCA de una muestra de n, sea el mismo que el MRCA de toda la población? n - 1 n +1 Introducción a la Filogeografía 2009 - UNC El modelo coalescente surge como una aproximación al modelo poblacional de W-F si queremos modelar fenómenos biológicos como solapamiento de generaciones, sistemas de apareamiento, etc se pueden tratar como un cambio linear simple en la escala de tiempo del coalescene TODOS los parámetros estimados están “escalados” y si queremos tener medidas absolutas, necesitamos información externa números poblacionales edades en años o generaciones pero se puede hacer ! Ne es un factor escalado ! es siempre una función de parámetros demográficos reales, pero NO HAY relación directa con el tamaño poblacional total; puede variar entre regiones cromosómicas de un mismo organismo! Introducción a la Filogeografía 2009 - UNC pero se puede hacer ! por ejemplo: una fuente externa de información es una estimación de la probabilidad de mutación neutral por generación de manera simple: esta estimación se obtiene midiendo la divergencia de secuencias entre especies dividiendo por el tiempo estimado de divergencia de especies, que a su vez se obtiene de registro fósil y una buena adivinanza del tiempo generacional PERO, muchas conclusiones se pueden realizar directamente de los parámetros escalados y son mas robustos! Introducción a la Filogeografía 2009 - UNC cualquier genealogía en particular, o realización del proceso coalescente va a especificar el patrón de ramificación de las relaciones entre los miembros de la muestra y los tiempos de coalescencia provee información sobre la población de la cual se tomo la muestra, que como no se puede observar, se infiere de los patrones de polimorfismos de la muestra, que a su vez resulta de otro proceso al azar: mutación presupuestos sobre la población para describir las distribuciones de probabilidades de los arboles genealógicos y de los tiempos de coalescencia: 1-las diferencias genéticas no tienen consecuencias en la adecuación. 2-la población no esta subdividida, geográficamente o de cualquier otra forma. 3-el tamaño poblacional es constante en el tiempo. Introducción a la Filogeografía 2009 - UNC la mutación es el puente entre genealogías y datos genéticos la estructura en la genealogía, en la cual cada rama divide la muestra en dos grupos, solo se revela si hay polimorfismos en las secuencias muestreadas los polimorfismos de un solo sitio (SNPs), parecen ser el tipo mas común de variación genética, pero son frecuentes las inserciones, deleciones y variaciones en longitud de repeticiones de microsatélites para cada tipo de dato genético hay un modelo mutacional, dos grandes tipos: -modelos basados en alelos: no tienen información sobre las relaciones históricas entre los alelos de la muestra: Modelo de alelos infinitos -modelos basados en secuencias: generan esa información en los patrones de polimorfismos entre los sitios de la muestra: modelo de sitios infinitos cualquier Modelo mutacional se puede acomodar bajo coalescencia Introducción a la Filogeografía 2009 - UNC el presupuesto simplificador al modelar mutaciones dentro del coalescente es que toda la variación es neutral (pero se puede modelar variación no neutral) Modelo de alelos infinitos: asume que cada vez que ocurre una mutación introduce un alelo nuevo a la población secuencias en un locus = haplotipo Modelo de sitios infinitos: asume que cada mutación ocurre en un sitio previamente no mutado Por ahora asumimos no recombinación (pero Kimura propuso un modelo de sitios infinitos con recombinación) este modelo imagina una gran cantidad de posiciones posibles con una tasa muy baja de mutación, lo cual es adecuado para secuencias de ADN, la tasa es del orden de 10-8 a 10-9 por generación en varios taxa “superiores” Pero el periodo de tiempo y la longitud de la genealogía (tamaño de la muestra y tamaño poblacional efvo.) también determinan el modelo Introducción a la Filogeografía 2009 - UNC Mutaciones sobre el modelo de coalescencia Presupuesto: tasa de mutación u constante por secuencia y por generación Pasado n=2 n=3 Tiempo n=4 n=5 Presente El número promedio de mutaciones aumenta proporcionalmente al largo de las ramas RELOJ MOLECULAR Introducción a la Filogeografía 2009 - UNC ¿Cuan diferentes esperamos que sean 2 secuencias de ADN (d)? Si 2N y µ = tasa de mutación entonces E(d)=4Nµ Introducción a la Filogeografía 2009 - UNC NO podemos co-estimar N y µ!! se confunden porque ambos controlan la cantidad de polimorfismo i.e. un valor de d puede ser causado por un N grande y un µ pequeño o N pequeño y µ grande por lo tanto solo estimamos su producto: θ=4Nµ y se escala la G con µ Introducción a la Filogeografía 2009 - UNC Dos alelos *coalescer *mutar *ninguno en cualquier generación probabilidad por generación de que un alelo mute a otro alelo: μ usando la misma lógica anterior, la probabilidad de NO mutación en t unidades de tiempo escalado: probabilidad de NO mutación τ generaciones atrás: μ = θ 2N θ = tasa de mutación calculamos la probabilidad (mutación ANTES coalescencia/muto o coalescio) = tiene sentido pues los dos linajes de genes comparados deben ser alelos diferentes (modelo de alelos infinitos) θ θ+1 esta probabilidad es = a heterocigocidad bajo ap. al azar para un locus autosómico en sentido “hacia adelante” o “hacia atrás” obtenemos el mismo resultado del impacto conjunto de deriva y mutación sobre el nivel de variación genética presente en la población Introducción a la Filogeografía 2009 - UNC generalizando y formalizando esto tenemos.... MAS MATEMATICA + PROBABILIDADES ¿Número esperado de mutaciones entre dos secuencias? ¿Número total esperado de mutaciones? Introducción a la Filogeografía 2009 - UNC PROBLEMA: hay que integrar TODAS las genealogías: topologías Y longitudes de ramas ¿podemos calcular la suma de todas las genealogías? Tips Topologías 3 4 5 6 7 8 9 10 15 20 50 3 18 180 2700 56700 1587600 57153600 2571912000 6958057668962400000 564480989588730591336960000000 1.37416 x 10284 Introducción a la Filogeografía 2009 - UNC SOLUCION máxima verosimilitud inferencia Bayesiana + Markov chain Monte Carlo MCMCMC Introducción a la Filogeografía 2009 - UNC 1-Método matemático para calcular las probabilidades de genealogías en una población. 2-El coalescente es una distribución con mucho ruido de tiempos en un árbol. 3-La variabilidad debida a la mutación incrementa la incertidumbre de estos tiempos. 4-El tamaño poblacional esta correlacionado con la profundidad del árbol. 5-Estimaciones del tamaño poblacional o del MRCA a partir de un solo árbol pueden ser erróneas. Introducción a la Filogeografía 2009 - UNC la formulación original del coalescente solo se aplica a una población de tamaño constante. se ha extendido el coalescente para tener en cuenta: crecimiento poblacional subdivisión poblacional recombinación genética selección natural aproximar fechas de mutaciones aproximar divergencias de poblaciones Curso de coalescencia de 8 semanas! Introducción a la Filogeografía 2009 - UNC extensiones al coalescente básico flujo genico Introducción a la Filogeografía 2009 - UNC como herramienta de análisis el coalescente tiene muchas aplicaciones, algunas: -herramienta matemática de modelado, -herramienta de simulación para poner a prueba hipótesis -análisis exploratorios de datos -base de una inferencia de verosimilitud completa ¡Suena MUY Lindo! Pero… ¿De que sirve? Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Lo podemos usar para calcular la verosimilitud de los datos dados varios parámetros y modelos demográficos específicos (para inferencia) Consecuencias de los cambios de tamaño poblacional sobre el modelo de coalescencia N° individuos Crecimiento poblacional Cuello de botella (Bottleneck) tiempo Introducción a la Filogeografía 2009 - UNC Lo podemos usar para diseñar estadísticos resumen informativos que tengan comportamientos estadísticos controlables dados varios parámetros y modelos demográficos específicos (i.e. Fu, Tajima) (para estimar parámetros) Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Quiebre en inferencia demográfica ocurrió a fines de los ’80 y principios de los ‘90 observación de que la probabilidad de los datos se podían calcular combinando métodos computacionales de la filogenética con modelos de coalescencia (Felsenstein 1988, 1992) la teoría de coalescencia proveyó el método matemático para conectar modelos demográficos o ecológicos con un árbol la función de verosimilitud se podía calcular considerando todos los arboles posibles y multiplicando la probabilidad de los datos dado el árbol con la prob. del árbol dado los parámetros demográficos suma de todos los posibles arboles (T) integral múltiple de todas los posibles largos de ramas probabilidad del árbol / parámetros del modelo demográfico grupo de todos los posibles arboles probabilidad de los datos / árbol se calcula usando teoría de coalescencia se calcula usando métodos de filogenetica cuando se conoce el árbol, la probabilidad del árbol se puede calcular sin conocimiento del modelo matemático, pero esta integral, en general no se puede resolver por ningún método conocido Introducción a la Filogeografía 2009 - UNC Es imposible considerar todas las posibles relaciones ancestrales entre las muestras de secuencias aproximaciones que exploran muchos patrones ancestrales posibles o genealogías coalescent genealogy samplers -CGS- 2008 Introducción a la Filogeografía 2009 - UNC conjunto de métodos mayoría implementados en programas difieren en: como exploran las genealogías, en los atributos en sistemas biológicos que pueden modelar para muchos sistemas biológicos, CGS, proveen estimaciones mas realistas que los estadísticos resumen como el Fst Introducción a la Filogeografía 2009 - UNC diferentes métodos de aproximaciones numéricas y basadas en simulaciones -métodos basados en verosimilitud completa simulaciones de un numero alto de arboles *-Importance Sampling (IS), cambien usan MCMC *-Markov Chain Monte Carlo (MCMC)correlacion methods CS datos muy polimorficos verosimilitud bayesianos SI se construyen bien se aproximan bastante bien a la función de verosimilitud estas técnicas -desarrolladas en paralelo con NCPAson complicadas de programar, pobre convergencia de MCMC, lo que requiere muchos recursos computacionales e ingenio del investigador estimulo el desarrollo de nuevas aproximaciones al problema i.e. IM Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC formalizaron el estudio de patrones geográficos de variación genética vía arboles génicos, resaltando la importancia de definir hipótesis filogeográficas a ser contrastadas a nivel poblacional, en lugar de a nivel de arboles génicos. aproximación basada en métodos que permiten estimar: -relaciones estadísticas explícitas entre procesos, -predicciones y pruebas que incorporan un diversidad de procesos e historias. Introducción a la Filogeografía 2009 - UNC Inferencias filogeograficas se derivaban reconstruyendo historias genealógicas de los genes individuales (arboles genicos) muestreados de diferentes poblaciones muchos eventos pudieron haber ocurrido linajes de genes se pudieron haber perdido puede NO ser fácil inferir la historia de una especie a partir de una genealogía de genes sin embargo la Filogeografia sigue creciendo con muchas interpretaciones de eventos pasados basadas en patrones de variación genética Introducción a la Filogeografía 2009 - UNC ¿Como se pueden hacer mejores interpretaciones sobre la historia de la población? hay que incluir un nivel mayor de cuidado al momento de realizar inferencias había una tendencia a formalizar pruebas de escenarios filogeograficos alternativos Stone, 2000; Emerson et al 2001; Wakeley, 2002 pero las inferencias van desde: post hoc, cualitativas (Avise, 1994) pruebas de estructura poblacional significativa (Excoffier et al., 1992) pruebas de hipótesis especificas, basadas en coalescencia, sobre pasado demografico y biogeografico (Edwards, 1993; Knowles et al., 1999; Kliman et al 2000, Knowles 2000; Milot, et al., 2000 Emerson et al 2001; Hare, 2001 lMPORTANTE considerar explícitamente las limitaciones de cada aproximación evitar sobre interpretaciones Introducción a la Filogeografía 2009 - UNC -identificar fuentes de error -considerar hipótesis alternativas que se adecuan igualmente bien a los datos -los presupuestos que se hicieron sobre la historia de la especie son precisos? -modelos genéticos poblacionales desarrollados desde el ‘ 82 -proveen marco estadístico para estimar parámetros demográficos: Ne tasas de migración tiempos de divergencia crecimiento poblacional decrecimiento poblacional poner a prueba hipótesis Introducción a la Filogeografía 2009 - UNC SIN embargo... a pesar del poder estadístico y la sofisticación computacional de estos modelos para estimación de parámetros poblacionales (e.g. estimación conjunta de verosimilitud de tiempos de divergencia y tasas de migración) se asume una historia poblacional subyacente simple e.g. divergencia simple entre dos poblaciones no divididas de tamaño constante la posibilidad de historias mas complejas, serie de poblaciones que divergen con tasas de migración variables la genética de poblaciones clásica tiene poco para ofrecer necesitan nuevos métodos NCPA intenta distinguir entre varios procesos históricos y demográficos no hay significancia estadística asociada a la clave de inferencia no hay hipótesis alternativas contrastadas explícitamente con un valor estadístico asociado s Introducción a la Filogeografía 2009 - UNC avocan el uso y desarrollo de métodos filogeograficos que relacionan de manera explícita y estadística los procesos, predicciones y pruebas (modelos genéticos poblaciones basados en coalescencia) y consideran un conjunto de procesos e historias alternativas (como NCPA). proponer historias filogeograficas explícitas derivar los valores esperados estocásticos FILOGEOGRAFIA ESTADISTICA comparar con los datos en pruebas estadísticas formales poder asociar errores con hipótesis especificas evaluar el soporte para explicaciones alternativas Introducción a la Filogeografía 2009 - UNC poblaciones contemporáneas de langostas Melanoplus oregonensis árbol mtDNA estructura filogeográfica de los haplotipos ninguno de los grupos filogeográficos regionales era monofiletico H1 = colonización desde refugios ancestrales H2 = ancestro ampliamente distribuido y fragmentación habitan sky islands en los picos de montañas Introducción a la Filogeografía 2009 - UNC aproximación coalescente para evaluar la probabilidad de n linajes de genes fallarían en coalescer dentro de linajes de poblaciones que representan fuentes de supuestos refugios ancestrales, produciendo una discordancia entre gene tree-population tree Introducción a la Filogeografía 2009 - UNC estimación de tiempos de divergencia tasas de mutación el grado de coincidencia de T y τ depende: complejo ! reloj taxa especifico métodos para tasas variables Ne tiempo transcurrido H0 = comparar τ Introducción a la Filogeografía 2009 - UNC solamente considerando modelos demográficos explícitos será posible determinar que historias poblacionales son compatibles o no con los datos Introducción a la Filogeografía 2009 - UNC extraer información de los datos para distinguir entre escenarios históricos alternativos: derivar de manera teórica lo esperado por simulación o cálculos analíticos comparar esto cuantitativamente con lo observado hay que calcular un estadístico es importante elegir cual es adecuado para la pregunta en cuestión IMPORTANTISIMO revisar cada uno de los presupuestos fijos (parámetros) del modelo Introducción a la Filogeografía 2009 - UNC Método ideal proveer representación precisa sobre el pasado considerar varios procesos alternativos estimaciones de la historia con alguna medida de error asociada AUN NO EXISTE ! ! ! Introducción a la Filogeografía 2009 - UNC limitantes/problemas: MUCHOS tres áreas principales vitales para estudios filogeográficos que necesitan mas desarrollo: 1-parametrización de los modelos 2-estrategias de búsqueda a través de historias alternativas 3-criterios para juzgar la adecuación de las explicaciones de los datos Introducción a la Filogeografía 2009 - UNC Con la expansión de la teoría de la coalescencia, EF representan un cambio de la interpretación a posteriori de patrones para poner a prueba hipótesis basado en modelos que son definidos a priori, y estas presentan nuevos desafíos historias de especies pueden ser complejas y hay desafíos relaciones a los tres pasos claves en la FE: 1-como definir un grupo realista de hipótesis históricas alternativas, 2-como decidir sobre la complejidad de cualquier modelo, 3-como integrar la información desde datos externos. Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC Introducción a la Filogeografía 2009 - UNC