Genética Evolutiva, 4º curso (2013-14) Prácticas de informática Nombre y apellidos del alumno:______________________________ Grupo:_________ Esta práctica ha sido preparada como un ejercicio complementario a los experimentos realizados en las prácticas de laboratorio del presente curso académico. Por tanto, el objetivo será el de investigar el acervo genético de la población (presente curso) mediante el estudio de 6 marcadores tipo Alu autosómicos (resultados obtenidos en las prácticas de laboratorio) y de su relación genética con otras poblaciones humanas de Europa y África. Para ello se les proporcionará un fichero Excel con la información de todos los alumnos del curso, con el fin de aumentar el tamaño muestral. Además, dedicaremos unos minutos a explorar la localización y anotación existente para alguno de los marcadores genéticos que utilizamos en el laboratorio con el fin de que se familiaricen con el uso de herramientas para el manejo y anotación de secuencias de ADN. 1. Utilización del UCSC Genome Browser para localizar regiones amplificadas y elementos repetitivos. La herramienta on-line UCSC Genome Browser se encuentra conectada con otras bases de datos primarias de secuencia de nucleótidos, como el GenBank mantenida por el NCBI ("National Center for Biotechnology Information") del "National Institutes of Health". En esta bases de datos podemos encontrar información de genes y proteínas, bases de genomas completos, incluido el humano, y herramientas de análisis. Además posee un interfaz que permite interrogar de modo intuitivo y sencillo con el fin de encontrar información sobre el objeto de estudio. Utilizaremos el explorador para obtener la información que nos brinda esta herramienta sobre HS3.23, uno de los marcadores genéticos que se ha utilizado en el laboratorio. Para ello entramos primero en la web http://genome.ucsc.edu. En el menú de la izquierda elegir “Genome Browser”. A continuación, en la parte superior de la página que se ha abierto, situar al cursor sobre “Tools” y esto abrirá un desplegable del que debemos elegir la herramienta “BLAT”. Ello, nos llevará a una ventana donde podemos elegir el organismo sobre el que queremos caracterizar una secuencia, así como la 1 construcción (“assembly”), etc. Elegiremos trabajar con Homo sapiens y con la última construcción disponible (hg19, 2009). Esta herramienta realizará una búsqueda por homología de secuencia en ese organismo de la secuencia de ADN que introduzcamos en la ventana de búsqueda. Nuestro objetivo es localizar el marcador HS3.23 y conocer algo más de este elemento y de los reactivos que utilizamos en el laboratorio. Por tanto, podemos utilizar las secuencias de los cebadores (F 5’- GGTGAAGTTTCCAACGCTGT-3’y R 5’-CCCTCCTCTCCCTTTAGCAG-3’) para localizarlo en el genoma humano pues esperamos que ambos flanqueen dicho elemento como se muestra en la figura: Idealmente, si los cebadores estuvieran adecuadamente diseñados para realizar PCR, esperaríamos que fueran complementarios a un solo lugar del genoma y que quedaran con sus 3’ enfrentados. Además, esperaríamos que no existieran diferencias de base (mismatches) entre la secuencia del cebador y las secuencias del ensamblaje (BLAT es capaz de localizar secuencias con cierto grado de homología aunque no alcance el 100%). Utilizando los parámetros por defecto, podemos hacer un BLAT con las dos secuencias de los cebadores para localizar este marcador. Para ello, basta con copiar y pegar, uno tras otro sin espacios en medio, las secuencias de los dos cebadores en la ventana de BLAT y pulsar “submit”. Se abrirá una nueva ventana que nos muestra que nuestra secuencia tiene un 80% de homología con 1 lugar del cromosoma 2 (lo descartamos) y con 2 lugares del cromosoma 7, uno de los fragmentos de nuestra secuencia es idéntico al 100% a una región de 21 bases de la cadena positiva, y otro fragmento es idéntico al 100% a una región de 20 bases de la cadena negativa. Si quisiéramos averiguar más detalles de la homología de secuencia pinchamos en “details” y nos mostrará el alineamiento de las secuencias de ambas fuentes. Si ahora seleccionamos “browser” de uno de los dos resultados, nos llevará a una nueva ventana donde se presenta información de la anotación 2 alrededor de esa secuencia (marcada como “YourSeq”). La información de esta representación puede configurarse según nuestras necesidades (controles en la parte inferior de la página). Hagamos “zoom out” pinchando en 3x hasta que tengamos representadas unas 700-800 pares de bases. En este momento veremos como aparece en la representación otra secuencia que también se encuentra marcada como “YourSeq”. Ambas constituyen los cebadores de HS3.23. Por tanto, de esta información podemos concluir que ambos cebadores se encuentran cerca y que sus cadenas son homologas a las hebras positivas y negativas, por lo que deben estar enfrentados sus 3’ tal cual esperábamos. Un poco más abajo en la página, bajo el epígrafe “Variation and Repeats”, elegir “full” en el desplegable de la herramienta “RepeatMasker” y luego seleccionar “refresh”, lo que desvelará si en esa región del genoma existen elementos repetitivos y de qué tipo. Veremos que ahora, en la representación, aparece un elemento SINE de unos 300 pares de bases a medio camino entre los 2 cebadores. Haciendo clic sobre ese elemento resaltado en el gráfico se puede obtener más información sobre él (tipo de elemento, subfamilia) e incluso su secuencia seleccionando “View DNA of this feature” y luego seleccionando “get DNA” de la siguiente ventana. Si se presta atención a la secuencia, será evidente la estructura en dímero por la aparición de las dos secuencias ricas en A. 3 2. Análisis estadístico de los resultados obtenidos en las prácticas de laboratorio Utilizaremos una "add-in" gratuita para Excel llamada GenAlEx (v.6.5), que permite el análisis básico de la variación genética en un entorno “amigable” interactuando con hojas de cálculo. Esta herramienta puede descargarse desde http://biology.anu.edu.au/GenAlEx/Welcome.html de forma gratuita. Este programa creará una o varias hojas de cálculo con nuestros resultados con cada una de las rutinas que se realicen, y a las cuales se les asignará un nombre. Estas hojas de resultados pueden borrarse si se desea, sin que ello afecte al desarrollo de la práctica o a los cálculos. En ningún caso eliminaremos la hoja denominada “practicas” que incluirá los datos genotípicos que utilizaremos para las comparativas. Es importante recordar que este programa permite el cálculo de múltiples métricas y diversos análisis, algunos de los cuales serán utilizados en la presente práctica. Al descargarlo y descomprimir el contenido del fichero, encontraremos un fichero llamado GenAlEx 6.501.xla. Si hacemos doble clic sobre él, se ejecutará el Excel con el complemento GenAlEx cargado (decir "Si" si pide la habilitación de macros) como se muestra en la figura: 4 Desde ese Excel abierto, ahora abrir el fichero de trabajo que hemos llamado “datos_GenAlEx_template.xls” donde se encuentran los genotipos de muestras de referencia y donde introduciremos los datos que se obtuvieron en el laboratorio. Los datos de referencia de otras muestras de poblaciones distintas, obtenidos para los 6 Alus polimórficos determinados en las prácticas de laboratorio, los utilizaremos para realizar comparativas. Esos datos, de poblaciones de referencia genéticamente relacionadas con la muestra, consisten en genotipos de 1040 individuos sin relación de parentesco de 10 poblaciones (alelos codificados como inserción=1/ deleción=2) de dos regiones distintas: a) España (n=587), incluyendo: canarios (364 muestras de las 7 islas), andaluces (67), catalanes (60), y vascos (96). b) Norte de África (n=453): marroquíes del norte (111), oeste (140), y sudeste (49), tunecinos (48), argelinos (47), y saharauis (58). IMPRTANTE: En el fichero “datos_GenAlEx_template.xls” solo deben modificar las casillas identificadas en color, añadir la información solicitada en la misma en la pestaña "Practicas". Pegar los datos genotípicos que obtuviste durante las prácticas de laboratorio entre las filas 3 y 4 de este fichero (OJO con sobre-escribir las celdas que ya existen). Llegados a este punto, podemos comenzar el análisis de los datos disponibles para la población del curso y las 10 poblaciones de comparativa. IMPORTANTE: Para todos los cálculos, salvo para el análisis de componentes principales, debemos de ejecutarlos teniendo activa la hoja con nombre “practicas”, que contiene los genotipos. Sólo para el análisis de componentes principales debemos tener activa la hoja que contiene los datos de distancias genéticas en forma de matriz triangular generados con el cálculo 3. Cálculo 1: Para cada locus por separado, y como media, calcularemos las frecuencias alélicas, heterocigosidad observada y esperada, índices de fijación (F), y coeficientes F (Fis, Fst, Fit), además de otras métricas que no explicaremos. Para ello, ejecutamos teniendo activa la hoja con nombre “practicas” y marcaremos solo los campos que muestran la figura a continuación: 5 Índice de fijación F. Los apareamientos no azarosos con respecto al genotipo pueden ocurrir en poblaciones donde el apareamiento es más frecuente entre individuos más relacionados que por azar en una población. Ello puede deberse a endogamia si se debe a preferencias de apareamiento entre parientes, es decir, que comparten un ancestro común, relativamente reciente. El índice de fijación F se deriva de las estimas de heterocigosidad y se define como la probabilidad de que dos alelos homólogos en un individuo sean idénticos por descendencia. Los valores cercanos a cero se esperan si existe apareamiento al azar, mientras que valores positivos sustanciales podrían indicar apareamientos positivos, como la endogamia. Valores negativos indican exceso de heterocigosidad (debido a preferencias de apareamiento negativos = selección heterótica). Sus valores pueden oscilar entre -1 y 1. Coeficientes F. Si una población tiene subpoblaciones localizadas en la que está ocurriendo, por ejemplo, un emparejamiento de individuos no al azar entre el conjunto de individuos de la misma, se considera que la población está estructurada. En ocasiones, la subestructuración poblacional no es obvia, y como resultado, una muestra puede consistir en un grupo de muestras heterogéneas de la 6 población. Si hay diferencias apreciables en las frecuencias alélicas de esas subpoblaciones, cuando las juntamos y las estudiamos como una sola, se encontrará una deficiencia de heterocigotos y un exceso de homocigotos incluso cuando se cumplen las proporciones de Hardy-Weinberg en cada subpoblación. A esto se le conoce como el efecto Wahlund. Los coeficientes F de Wright pueden derivarse de las estimas de heterocigosidad en los distintos niveles y son utilizados para describir tal estructura de la variación genética en una población subdividida. En el caso más frecuente, consisten en 3 coeficientes utilizados para situar la variación genética al nivel de la población total (T), subdivisiones (S) e individuos (I), dando lugar a los tres valores Fst, Fit, y Fis. De estas cuantificaciones se puede deducir que Fst constituye una medida de diferenciación genética entre subpoblaciones y es siempre positiva. Fis constituye una medida de la desviación de las proporciones de HardyWeinberg dentro de cada subpoblación. Y Fit nos mide ambos componentes conjuntamente. Cálculo 2: Para cada locus por separado calcularemos si está en equilibrio de Hardy-Weinberg utilizando una chi-cuadrado de Pearson y luego se discutirán los resultados en el contexto de las múltiples comparaciones efectuadas. Para ello, ejecutamos teniendo activa la hoja con nombre “practicas” y marcamos solo los campos que se muestran la figura a continuación: 7 Cálculo 3: Considerando los 6 marcadores genéticos a la vez, realizaremos un análisis de la varianza molecular (AMOVA) para averiguar si existe estructura poblacional. En esencia, este análisis permite incorporar la variación molecular (diferencias moleculares entre alelos) al cálculo de los coeficientes F. Al igual que éstos, el AMOVA permite subdividir jerárquicamente la varianza genética (la cual podríamos aproximar a la diversidad genética, y por tanto a la heterocigosidad) entre la que se encuentra en los individuos, en las poblaciones o en las regiones. Si las poblaciones comparadas se aparean al azar, entonces esperaremos que las diferencias entre ellas sean nulas (Fst=0). En ese caso, cualquier población será representante de la variación en cualquier otra población. AMOVA permite deducir si las diferencias que vemos en la variación genética entre poblaciones son fruto del azar (o el muestreo) o de diferencias reales entre las poblaciones comparadas. En nuestro caso, trataremos todas las diferencias entre los alelos por igual. En la práctica, además se pueden realizar distintas agrupaciones entre individuos o poblaciones en un intento de maximizar el Fst y, de esa forma, deducir a qué factor se debe la diferenciación principal de un conjunto de poblaciones (geografía, religión, etc). 8 Para ello, ejecutamos, teniendo activa la hoja con nombre “practicas”, y marcando sólo los campos que se muestran la figura (a continuación). Hay que indicarle que nuestros datos son crudos (raw data). Vamos a marcar cero permutaciones en el cálculo del AMOVA, de lo contrario la rutina no se ejecutará adecuadamente en estos PCs por el alto coste computacional. Con ello obtendríamos el nivel de significación, pero en la práctica solo prestaremos atención a la variación jerarquizada. Luego surgen 2 ventanas más de manera consecutiva, primero la de la izquierda y luego la de la derecha. En ellas debemos elegir lo que se muestra: 9 Cálculo 4: Considerando los 6 marcadores genéticos a la vez, realizaremos un análisis de componentes principales (PCoA). PCoA es un análisis multivariante, con una matemática subyacente compleja, que permite encontrar y representar los ejes principales de variación en un conjunto de datos con múltiples variables (multidimensional) sin imponer una estructura de árbol. En este caso, cada eje principal sucesivo encontrado explicará proporcionalmente menos variación del total, de modo que, cuando comparamos distintos grupos de población, típicamente los dos-tres primeros ejes capturan la mayoría de las separaciones entre las poblaciones. De esta manera, los PCoA permiten compendiar fácilmente la divergencia genética a partir de los datos de frecuencia alélicas en distintos loci (independientes), de modo que se puede obtener una representación de las diferencias entre todas las poblaciones analizadas. Utilizaremos este método para obtener las relaciones entre las poblaciones de estudio partiendo de una matriz de distancias genéticas (distancias por parejas de poblaciones). Para ello, ejecutamos teniendo activa la hoja con nombre “FstP” (matriz triangular de distancias entre poblaciones en forma de Fst) y marcaremos solo los campos que muestran la figura a continuación: 10 Conclusiones de la comparativa de la muestra del grupo con respecto al resto de poblaciones. 11