ESTRATEGIAS DE SELECCIÓN DEL MODELO DE SUSTITUCIÓN

Anuncio
ESTRATEGIAS DE SELECCIÓN DEL MODELO DE SUSTITUCIÓN NUCLEOTÍDICA
VERSUS EL NÚMERO DE TAXA
Johana Alexandra Dulcey Ulloa, 2050183.
Sistemática Filogenética, Universidad Industrial de Santander, 2009.
INTRODUCCIÓN
En la filogenética molecular los modelos de sustitución de nucleótidos tienen un papel
primordial, especialmente en el contexto de distancia, máxima verosimilitud y estimación
bayesiana (Posada y Buckley, 2004); estos modelos son utilizados para describir la tasa de
cambio de un nucleótido a otro y van a tener gran influencia sobre los resultados del análisis
filogenético (Posada y Crandall, 2001a), por consiguiente, usar el modelo adecuado es la
base para confiar en los resultados de estos análisis (Posada y Buckley, 2004). De esta
forma, para escoger el mejor modelo se pueden realizar pruebas estadísticas, en las que
utilizando los valores de likelihood, se puede evaluar el ajuste de los datos a los diferentes
modelos por medio de test jerárquicos o de criterios de información (Posada, 2003). Sin
embargo, la precisión y el funcionamiento de estos procedimientos es desconocida (Posada
y Crandall, 2001b), por esta razón este estudio busca evaluar el funcionamiento del criterio
de información Akaike (AIC), el criterio de información Bayesiano (BIC) y diferentes test
jerárquicos (LRTs), teniendo en cuenta el número de taxa utilizados en el análisis, para
determinar si esta condición influye en los resultados.
MATERIALES Y MÉTODOS
Se seleccionaron dos genes nucleares (ITS y 18S), dos genes cloroplásticos (rbcL y rsp4) y
dos genes mitocondriales (COI y matR) (Tabla1), cada uno fue analizado en grupos de 5, 25
y 50 taxa. Inicialmente se realizó el alineamiento múltiple en el programa MUSCLE 3.6
(Edgar, 2005). El análisis se llevo a cabo en el programa jModelTest 0.1.1 (Posada, 2008),
en el que se calculó el likelihood para cada grupo, teniendo en cuenta las frecuencias y las
tasas de variación (invariantes y gamma), con 3 esquemas de sustitución, para evaluar 24
modelos en total; posteriormente se realizó la selección del modelo mediante AIC y BIC; los
LRTs se realizaron de forma manual, teniendo en cuenta los valores de likelihood obtenidos
inicialmente en el programa jModelTest 0.1.1, la fórmula mencionada por Posada y Crandall
(2001b) con un valor de P<0,05 y las cuatro jerarquías allí desarrollas (Tabla 2).
RESULTADOS Y DISCUSIÓN
En el análisis de test jerárquico, para las cuatro jerarquías utilizadas, no se observó un
comportamiento generalizado, determinado por el número de taxa analizados, por el orden
en el cual se prueban las hipótesis sobre los datos en el test jerárquico o por la secuencia de
adición de los parámetros (Tabla3). Para los genes COI y rsp4, se obtuvo el mismo resultado
en las cuatro jerarquías al tener 25 y 50 taxa, para los genes rbcL y 28S, el resultado cambió
en relación al número de taxa, en el gen ITS, se obtuvo el mismo resultado en las cuatro
jerarquías al tener 5 y 25 taxa y finalmente en el gen matR, se obtuvo el mismo resultado
independiente del numero de taxa.
Por otra parte, se ha sugerido que la elección de los modelos con mejor ajuste puede verse
afectada por la secuencia de adición de los parámetros con respecto a iniciar con el modelo
más simple o con el modelo más complejo (Cunningham et al., 1998); así mismo, se dice
que el proceso de selección puede depender del orden en el que se prueban las hipótesis
sobre los datos (Posada y Crandall, 2001b). Pero tampoco se observó un comportamiento
generalizado, ya que en dos casos (28S y COI), las parejas de jerarquías (a y c, modelo
simple; b y d, modelo complejo), obtuvieron los mismo resultados, mientras que en los otros
casos, las jerarquías b, c y d obtuvieron el mismo resultado, excepto en dos de los análisis
(COI25 y COI50), que se obtuvo el mismo resultado en las cuatro jerarquías. Las jerarquías
que iniciaron con el modelo más complejo siempre obtuvieron el mismo resultado,
independientemente del número de taxa y del orden de las hipótesis evaluadas; a diferencia
de las jerarquías que iniciaron con el modelo más simple, que solo en dos ocasiones
obtuvieron el mismo resultado, sugiriendo que puede existir cierta influencia de la adición de
los parámetros como lo sugiere Pol (2004).
Para el análisis basado en el AIC, tampoco se obtuvo una relación clara entre el número de
taxa analizados y el modelo seleccionado (Tabla 3), ya que en tres ocasiones (rbcL, rsp4 y
COI) los análisis con 25 y 50 taxa obtuvieron el mismo modelo, en una ocasión (ITS), los
análisis con 5 y 25 taxa obtuvieron el mismo modelo; por otra parte, en uno de los análisis
(28S), se obtuvieron modelos diferentes en relación al número de taxa, caso contrario
ocurrió en otro de los análisis, donde se obtuvo el mismo modelo independientemente del
número de taxa (matR).
De la misma manera se comportó el análisis con BIC, donde se presentan una variedad de
resultados sin mostrar un comportamiento general claro de relación con el número de taxa
bajo estudio (Tabla 3); sin embargo, en este análisis se obtuvieron 3 casos (rsp4, ITS y 28S)
en los que se llegó a un modelo diferente según el numero de taxa. Cabe destacar que en el
análisis con AIC siempre se seleccionó el modelo más complejo de los seleccionados por los
LRTs, a diferencia de lo ocurrido con el análisis con BIC, que solo en algunas ocasiones
selecciono el modelo más complejo, habiendo otras en las que seleccionó modelos de
menor complejidad.
Por último, los resultados obtenidos tampoco mostraron una relación con la ubicación de los
genes, ya sea núcleo, cloroplasto o mitocondria, ya que no se observo un mismo
comportamiento en la elección de los modelos.
CONCLUSIONES
Para el test jerárquico, empezar con el modelo más simple o con el más complejo, así como
el orden en el que se prueban las hipótesis, podría influir en la selección del modelo
dependiendo de las características de los datos a analizar.
Para todas las metodologías utilizadas, no está clara la influencia que puede tener un mayor
número de taxa en el análisis filogenético. Se requerirían más pruebas para poder llegar a
sugerir algo con certeza.
No existe un método más adecuado o un mejor número de taxa para realizar un análisis
filogenético, ya que existen muchas posibilidades en cuanto a los resultados que se van a
obtener y comportamiento se vaya a observar en los resultados dependerá de cada set de
datos. Por esta razón el escoger uno u otro método, así como las condiciones de los datos a
analizar, va a sujeto al criterio del investigador.
BIBLIOGRAFÍA
Anderberg, A. A., Rydin, C., Kallersjo, M. 2002. Phylogenetic Relationships In The Order
Ericales S.L.: Analyses Of Molecular Data From Five Genes From The Plastid And
Mitochondrial Genomes. American Journal of Botany. 89(4): 677–687.
Cameron, K. M., Chase, M. W., Anderson, W. R., Hills, H. G. 2001. Molecular Systematics of
Malpighiaceae: Evidence from Plastid rbcL and matK Sequences. American Journal of
Botany. 88 (10): 1847-1862.
Cunningham, C. W., Zhu, H., Hillis, D. M. 1998. Best-Fit Maximum-Likelihood Models for
Phylogenetic Inference: Empirical Tests with Known Phylogenies. Evolution. 52 (4): 978-987.
Edgar, R.C. 2005. MUSCLE: multiple sequence alignment with high accuracy and high
throughput, Nucleic Acids Research. 32: 1792-1797.
Grant, T., Frost, D. R., Caldwell, J. P., Gagliardo, R., Haddad, C. F. B., Kok, F. J. R., Means,
D. B., Noonan, B. P., Schargel, W. E., Wheeler, W. C. 2006. Phylogenetic Systematics Of
Dart-Poison Frogs And Their Relatives (Amphibia: Athesphatanura: Dendrobatidae).
American Museum of Natural History. 299, 262 pp.
Muschner, V: C., Lorenz, A. P., Cervi, A. C., Bonatto, S. L., Souza-Chies, T. T., Salzano, F.
M., Freitas, L. B. 2003. A First Molecular Phylogenetic Analysis of Passiflora
(Passifloraceae). American Journal of Botany. 90 (8): 1229-1238.
Pol, D. 2004. Empirical Problems of the Hierarchical Likelihood Ratio Test for Model
Selection. Systematic Biology. 53 (6): 949-962.
Posada, D. 2003. Selecting models of evolution. In The Phylogenetic Handbook. Vandemme
AM, Salemi M (eds).Cambridge University press. pp. 256-282.
Posada, D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and
Evolution. 25: 1253-1256.
Posada, D., Buckley, T. R. 2004. Model selection and model averaging in phylogenetics:
advantages of the AIC and Bayesian approaches over likelihood ratio tests. Systematic
Biology. 53: 793-808.
Posada, D., Crandall, K. A. 2001a. Selecting models of nucleotide substitution: An application
to the human immunodeficiency virus 1 (HIV-1). Molecular Biology and Evolution. 18(6): 897906.
Posada, D., Crandall, K. A. 2001b. Selecting the best-fit model of nucleotide substitution.
Systematic Biology. 50: 580-601
Reeves, G., Chase, M. W., Goldblatt, P., Rudall, P., Fay, M. F:, Cox, A. V., Lejeune, B.,
Souza-Chies, T. 2001. Molecular Systematics Of Iridaceae: Evidence From Four Plastid Dna
Regions. American Journal of Botany. 88(11): 2074–2087.
ANEXOS
.
Genes
Cloroplásticos
rbcl
rsp4
Nucleares
ITS
28S
Mitocondriales
matR
COI
Referencia
Cameron et al., 2001
Reeves et al., 2001
Muschner et al., 2003
Grant et al., 2006
Anderberg et al., 2002
Grant et al., 2006
Tabla 1. Fuente de los genes utilizados en el análisis.
LRTa
LRTb
LRTc
LRTd
(JC) π-κ-φ-Γ-I
(GTR+I+G) π-φ-κ-Γ-I
(JC) Γ-I-κ-φ-π
(GTR+I+G) Γ-I-φ-κ-π
Tabla 2. Jerarquías utilizadas. π: frecuencia de las bases; κ: transición/transverción; φ:
tasas de sustitución entre nucleótidos; Γ: tasa de heterogeneidad entre sitios; I: proporción
de sitios invariantes.
Gen
Grupos
AIC
BIC
rbcl
5
25
HKY+G
GTR+G
HKY+G
HKY+G
50
GTR+G
5
25
rsp4
ITS
28S
matR
COI
LRTa
LRTb
LRTc
LRTd
JC+G
JC+G
HKY+G
GTR+G
HKY+G
GTR+G
HKY+G
GTR+G
GTR+G
JC+I+G
GTR+I+G
GTR+I+G
GTR+I+G
HKY+G
GTR+I+G
HKY+G
HKY+I+G
JC+G
JC+I+G
HKY+G
GTR+I+G
HKY+G
GTR+I+G
HKY+G
GTR+I+G
50
GTR+I+G
GTR+I+G
JC+I+G
GTR+I+G
GTR+I+G
GTR+I+G
5
25
GTR+G
GTR+G
HKY+G
GTR+G
JC+G
JC+G
GTR+G
GTR+G
GTR+G
GTR+G
GTR+G
GTR+G
50
GTR+I+G
SYM+I+G
JC+I+G
GTR+I+G
GTR+I+G
GTR+I+G
5
HKY+I
K80+I
F81+I+G
HKY+I
F81+I+G
HKY+I
25
HKY+I+G
HKY+I+G
GTR+I+G
HKY+I+G
HKY+I+G
HKY+I+G
50
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
5
GTR+G
JC+G
JC+G
GTR+G
GTR+G
GTR+G
25
GTR+G
K80+G
JC+G
GTR+G
GTR+G
GTR+G
50
GTR+G
K80+G
JC+G
GTR+G
GTR+G
GTR+G
5
GTR+I
HKY+I
F81+I
GTR+I
F81+I
GTR+I
25
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
50
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
Tabla 3. Modelos obtenidos en el análisis.
Descargar