ESTRATEGIAS DE SELECCIÓN DEL MODELO DE SUSTITUCIÓN NUCLEOTÍDICA VERSUS EL NÚMERO DE TAXA Johana Alexandra Dulcey Ulloa, 2050183. Sistemática Filogenética, Universidad Industrial de Santander, 2009. INTRODUCCIÓN En la filogenética molecular los modelos de sustitución de nucleótidos tienen un papel primordial, especialmente en el contexto de distancia, máxima verosimilitud y estimación bayesiana (Posada y Buckley, 2004); estos modelos son utilizados para describir la tasa de cambio de un nucleótido a otro y van a tener gran influencia sobre los resultados del análisis filogenético (Posada y Crandall, 2001a), por consiguiente, usar el modelo adecuado es la base para confiar en los resultados de estos análisis (Posada y Buckley, 2004). De esta forma, para escoger el mejor modelo se pueden realizar pruebas estadísticas, en las que utilizando los valores de likelihood, se puede evaluar el ajuste de los datos a los diferentes modelos por medio de test jerárquicos o de criterios de información (Posada, 2003). Sin embargo, la precisión y el funcionamiento de estos procedimientos es desconocida (Posada y Crandall, 2001b), por esta razón este estudio busca evaluar el funcionamiento del criterio de información Akaike (AIC), el criterio de información Bayesiano (BIC) y diferentes test jerárquicos (LRTs), teniendo en cuenta el número de taxa utilizados en el análisis, para determinar si esta condición influye en los resultados. MATERIALES Y MÉTODOS Se seleccionaron dos genes nucleares (ITS y 18S), dos genes cloroplásticos (rbcL y rsp4) y dos genes mitocondriales (COI y matR) (Tabla1), cada uno fue analizado en grupos de 5, 25 y 50 taxa. Inicialmente se realizó el alineamiento múltiple en el programa MUSCLE 3.6 (Edgar, 2005). El análisis se llevo a cabo en el programa jModelTest 0.1.1 (Posada, 2008), en el que se calculó el likelihood para cada grupo, teniendo en cuenta las frecuencias y las tasas de variación (invariantes y gamma), con 3 esquemas de sustitución, para evaluar 24 modelos en total; posteriormente se realizó la selección del modelo mediante AIC y BIC; los LRTs se realizaron de forma manual, teniendo en cuenta los valores de likelihood obtenidos inicialmente en el programa jModelTest 0.1.1, la fórmula mencionada por Posada y Crandall (2001b) con un valor de P<0,05 y las cuatro jerarquías allí desarrollas (Tabla 2). RESULTADOS Y DISCUSIÓN En el análisis de test jerárquico, para las cuatro jerarquías utilizadas, no se observó un comportamiento generalizado, determinado por el número de taxa analizados, por el orden en el cual se prueban las hipótesis sobre los datos en el test jerárquico o por la secuencia de adición de los parámetros (Tabla3). Para los genes COI y rsp4, se obtuvo el mismo resultado en las cuatro jerarquías al tener 25 y 50 taxa, para los genes rbcL y 28S, el resultado cambió en relación al número de taxa, en el gen ITS, se obtuvo el mismo resultado en las cuatro jerarquías al tener 5 y 25 taxa y finalmente en el gen matR, se obtuvo el mismo resultado independiente del numero de taxa. Por otra parte, se ha sugerido que la elección de los modelos con mejor ajuste puede verse afectada por la secuencia de adición de los parámetros con respecto a iniciar con el modelo más simple o con el modelo más complejo (Cunningham et al., 1998); así mismo, se dice que el proceso de selección puede depender del orden en el que se prueban las hipótesis sobre los datos (Posada y Crandall, 2001b). Pero tampoco se observó un comportamiento generalizado, ya que en dos casos (28S y COI), las parejas de jerarquías (a y c, modelo simple; b y d, modelo complejo), obtuvieron los mismo resultados, mientras que en los otros casos, las jerarquías b, c y d obtuvieron el mismo resultado, excepto en dos de los análisis (COI25 y COI50), que se obtuvo el mismo resultado en las cuatro jerarquías. Las jerarquías que iniciaron con el modelo más complejo siempre obtuvieron el mismo resultado, independientemente del número de taxa y del orden de las hipótesis evaluadas; a diferencia de las jerarquías que iniciaron con el modelo más simple, que solo en dos ocasiones obtuvieron el mismo resultado, sugiriendo que puede existir cierta influencia de la adición de los parámetros como lo sugiere Pol (2004). Para el análisis basado en el AIC, tampoco se obtuvo una relación clara entre el número de taxa analizados y el modelo seleccionado (Tabla 3), ya que en tres ocasiones (rbcL, rsp4 y COI) los análisis con 25 y 50 taxa obtuvieron el mismo modelo, en una ocasión (ITS), los análisis con 5 y 25 taxa obtuvieron el mismo modelo; por otra parte, en uno de los análisis (28S), se obtuvieron modelos diferentes en relación al número de taxa, caso contrario ocurrió en otro de los análisis, donde se obtuvo el mismo modelo independientemente del número de taxa (matR). De la misma manera se comportó el análisis con BIC, donde se presentan una variedad de resultados sin mostrar un comportamiento general claro de relación con el número de taxa bajo estudio (Tabla 3); sin embargo, en este análisis se obtuvieron 3 casos (rsp4, ITS y 28S) en los que se llegó a un modelo diferente según el numero de taxa. Cabe destacar que en el análisis con AIC siempre se seleccionó el modelo más complejo de los seleccionados por los LRTs, a diferencia de lo ocurrido con el análisis con BIC, que solo en algunas ocasiones selecciono el modelo más complejo, habiendo otras en las que seleccionó modelos de menor complejidad. Por último, los resultados obtenidos tampoco mostraron una relación con la ubicación de los genes, ya sea núcleo, cloroplasto o mitocondria, ya que no se observo un mismo comportamiento en la elección de los modelos. CONCLUSIONES Para el test jerárquico, empezar con el modelo más simple o con el más complejo, así como el orden en el que se prueban las hipótesis, podría influir en la selección del modelo dependiendo de las características de los datos a analizar. Para todas las metodologías utilizadas, no está clara la influencia que puede tener un mayor número de taxa en el análisis filogenético. Se requerirían más pruebas para poder llegar a sugerir algo con certeza. No existe un método más adecuado o un mejor número de taxa para realizar un análisis filogenético, ya que existen muchas posibilidades en cuanto a los resultados que se van a obtener y comportamiento se vaya a observar en los resultados dependerá de cada set de datos. Por esta razón el escoger uno u otro método, así como las condiciones de los datos a analizar, va a sujeto al criterio del investigador. BIBLIOGRAFÍA Anderberg, A. A., Rydin, C., Kallersjo, M. 2002. Phylogenetic Relationships In The Order Ericales S.L.: Analyses Of Molecular Data From Five Genes From The Plastid And Mitochondrial Genomes. American Journal of Botany. 89(4): 677–687. Cameron, K. M., Chase, M. W., Anderson, W. R., Hills, H. G. 2001. Molecular Systematics of Malpighiaceae: Evidence from Plastid rbcL and matK Sequences. American Journal of Botany. 88 (10): 1847-1862. Cunningham, C. W., Zhu, H., Hillis, D. M. 1998. Best-Fit Maximum-Likelihood Models for Phylogenetic Inference: Empirical Tests with Known Phylogenies. Evolution. 52 (4): 978-987. Edgar, R.C. 2005. MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Research. 32: 1792-1797. Grant, T., Frost, D. R., Caldwell, J. P., Gagliardo, R., Haddad, C. F. B., Kok, F. J. R., Means, D. B., Noonan, B. P., Schargel, W. E., Wheeler, W. C. 2006. Phylogenetic Systematics Of Dart-Poison Frogs And Their Relatives (Amphibia: Athesphatanura: Dendrobatidae). American Museum of Natural History. 299, 262 pp. Muschner, V: C., Lorenz, A. P., Cervi, A. C., Bonatto, S. L., Souza-Chies, T. T., Salzano, F. M., Freitas, L. B. 2003. A First Molecular Phylogenetic Analysis of Passiflora (Passifloraceae). American Journal of Botany. 90 (8): 1229-1238. Pol, D. 2004. Empirical Problems of the Hierarchical Likelihood Ratio Test for Model Selection. Systematic Biology. 53 (6): 949-962. Posada, D. 2003. Selecting models of evolution. In The Phylogenetic Handbook. Vandemme AM, Salemi M (eds).Cambridge University press. pp. 256-282. Posada, D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution. 25: 1253-1256. Posada, D., Buckley, T. R. 2004. Model selection and model averaging in phylogenetics: advantages of the AIC and Bayesian approaches over likelihood ratio tests. Systematic Biology. 53: 793-808. Posada, D., Crandall, K. A. 2001a. Selecting models of nucleotide substitution: An application to the human immunodeficiency virus 1 (HIV-1). Molecular Biology and Evolution. 18(6): 897906. Posada, D., Crandall, K. A. 2001b. Selecting the best-fit model of nucleotide substitution. Systematic Biology. 50: 580-601 Reeves, G., Chase, M. W., Goldblatt, P., Rudall, P., Fay, M. F:, Cox, A. V., Lejeune, B., Souza-Chies, T. 2001. Molecular Systematics Of Iridaceae: Evidence From Four Plastid Dna Regions. American Journal of Botany. 88(11): 2074–2087. ANEXOS . Genes Cloroplásticos rbcl rsp4 Nucleares ITS 28S Mitocondriales matR COI Referencia Cameron et al., 2001 Reeves et al., 2001 Muschner et al., 2003 Grant et al., 2006 Anderberg et al., 2002 Grant et al., 2006 Tabla 1. Fuente de los genes utilizados en el análisis. LRTa LRTb LRTc LRTd (JC) π-κ-φ-Γ-I (GTR+I+G) π-φ-κ-Γ-I (JC) Γ-I-κ-φ-π (GTR+I+G) Γ-I-φ-κ-π Tabla 2. Jerarquías utilizadas. π: frecuencia de las bases; κ: transición/transverción; φ: tasas de sustitución entre nucleótidos; Γ: tasa de heterogeneidad entre sitios; I: proporción de sitios invariantes. Gen Grupos AIC BIC rbcl 5 25 HKY+G GTR+G HKY+G HKY+G 50 GTR+G 5 25 rsp4 ITS 28S matR COI LRTa LRTb LRTc LRTd JC+G JC+G HKY+G GTR+G HKY+G GTR+G HKY+G GTR+G GTR+G JC+I+G GTR+I+G GTR+I+G GTR+I+G HKY+G GTR+I+G HKY+G HKY+I+G JC+G JC+I+G HKY+G GTR+I+G HKY+G GTR+I+G HKY+G GTR+I+G 50 GTR+I+G GTR+I+G JC+I+G GTR+I+G GTR+I+G GTR+I+G 5 25 GTR+G GTR+G HKY+G GTR+G JC+G JC+G GTR+G GTR+G GTR+G GTR+G GTR+G GTR+G 50 GTR+I+G SYM+I+G JC+I+G GTR+I+G GTR+I+G GTR+I+G 5 HKY+I K80+I F81+I+G HKY+I F81+I+G HKY+I 25 HKY+I+G HKY+I+G GTR+I+G HKY+I+G HKY+I+G HKY+I+G 50 GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G 5 GTR+G JC+G JC+G GTR+G GTR+G GTR+G 25 GTR+G K80+G JC+G GTR+G GTR+G GTR+G 50 GTR+G K80+G JC+G GTR+G GTR+G GTR+G 5 GTR+I HKY+I F81+I GTR+I F81+I GTR+I 25 GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G 50 GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G Tabla 3. Modelos obtenidos en el análisis.