Prácticas de informática

Anuncio
Genética Evolutiva, 4º curso (2013-14)
Prácticas de informática
Nombre y apellidos del alumno:______________________________
Grupo:_________
Esta práctica ha sido preparada como un ejercicio complementario a los experimentos realizados en
las prácticas de laboratorio del presente curso académico. Por tanto, el objetivo será el de investigar
el acervo genético de la población (presente curso) mediante el estudio de 6 marcadores tipo Alu
autosómicos (resultados obtenidos en las prácticas de laboratorio) y de su relación genética con
otras poblaciones humanas de Europa y África. Para ello se les proporcionará un fichero Excel con la
información de todos los alumnos del curso, con el fin de aumentar el tamaño muestral.
Además, dedicaremos unos minutos a explorar la localización y anotación existente para alguno de
los marcadores genéticos que utilizamos en el laboratorio con el fin de que se familiaricen con el uso
de herramientas para el manejo y anotación de secuencias de ADN.
1. Utilización del UCSC Genome Browser para localizar regiones
amplificadas y elementos repetitivos.
La herramienta on-line UCSC Genome Browser se encuentra conectada con otras bases de datos
primarias de secuencia de nucleótidos, como el GenBank mantenida por el NCBI ("National Center
for Biotechnology Information") del "National Institutes of Health". En esta bases de datos podemos
encontrar información de genes y proteínas, bases de genomas completos, incluido el humano, y
herramientas de análisis. Además posee un interfaz que permite interrogar de modo intuitivo y
sencillo con el fin de encontrar información sobre el objeto de estudio.
Utilizaremos el explorador para obtener la información que nos brinda esta herramienta sobre
HS3.23, uno de los marcadores genéticos que se ha utilizado en el laboratorio. Para ello entramos
primero en la web http://genome.ucsc.edu. En el menú de la izquierda elegir “Genome Browser”. A
continuación, en la parte superior de la página que se ha abierto, situar al cursor sobre “Tools” y esto
abrirá un desplegable del que debemos elegir la herramienta “BLAT”. Ello, nos llevará a una ventana
donde podemos elegir el organismo sobre el que queremos caracterizar una secuencia, así como la
1
construcción (“assembly”), etc. Elegiremos trabajar con Homo sapiens y con la última construcción
disponible (hg19, 2009).
Esta herramienta realizará una búsqueda por homología de secuencia en ese organismo de la
secuencia de ADN que introduzcamos en la ventana de búsqueda. Nuestro objetivo es localizar el
marcador HS3.23 y conocer algo más de este elemento y de los reactivos que utilizamos en el
laboratorio.
Por
tanto,
podemos
utilizar
las
secuencias
de
los
cebadores
(F
5’-
GGTGAAGTTTCCAACGCTGT-3’y R 5’-CCCTCCTCTCCCTTTAGCAG-3’) para localizarlo en el genoma
humano pues esperamos que ambos flanqueen dicho elemento como se muestra en la figura:
Idealmente, si los cebadores estuvieran adecuadamente diseñados para realizar PCR, esperaríamos
que fueran complementarios a un solo lugar del genoma y que quedaran con sus 3’ enfrentados.
Además, esperaríamos que no existieran diferencias de base (mismatches) entre la secuencia del
cebador y las secuencias del ensamblaje (BLAT es capaz de localizar secuencias con cierto grado de
homología aunque no alcance el 100%). Utilizando los parámetros por defecto, podemos hacer un
BLAT con las dos secuencias de los cebadores para localizar este marcador. Para ello, basta con
copiar y pegar, uno tras otro sin espacios en medio, las secuencias de los dos cebadores en la
ventana de BLAT y pulsar “submit”.
Se abrirá una nueva ventana que nos muestra que nuestra secuencia tiene un 80% de homología con
1 lugar del cromosoma 2 (lo descartamos) y con 2 lugares del cromosoma 7, uno de los fragmentos
de nuestra secuencia es idéntico al 100% a una región de 21 bases de la cadena positiva, y otro
fragmento es idéntico al 100% a una región de 20 bases de la cadena negativa. Si quisiéramos
averiguar más detalles de la homología de secuencia pinchamos en “details” y nos mostrará el
alineamiento de las secuencias de ambas fuentes. Si ahora seleccionamos “browser” de uno de los
dos resultados, nos llevará a una nueva ventana donde se presenta información de la anotación
2
alrededor de esa secuencia (marcada como “YourSeq”). La información de esta representación puede
configurarse según nuestras necesidades (controles en la parte inferior de la página). Hagamos
“zoom out” pinchando en 3x hasta que tengamos representadas unas 700-800 pares de bases. En
este momento veremos como aparece en la representación otra secuencia que también se
encuentra marcada como “YourSeq”. Ambas constituyen los cebadores de HS3.23. Por tanto, de esta
información podemos concluir que ambos cebadores se encuentran cerca y que sus cadenas son
homologas a las hebras positivas y negativas, por lo que deben estar enfrentados sus 3’ tal cual
esperábamos.
Un poco más abajo en la página, bajo el epígrafe “Variation and Repeats”, elegir “full” en el
desplegable de la herramienta “RepeatMasker” y luego seleccionar “refresh”, lo que desvelará si en
esa región del genoma existen elementos repetitivos y de qué tipo. Veremos que ahora, en la
representación, aparece un elemento SINE de unos 300 pares de bases a medio camino entre los 2
cebadores. Haciendo clic sobre ese elemento resaltado en el gráfico se puede obtener más
información sobre él (tipo de elemento, subfamilia) e incluso su secuencia seleccionando “View DNA
of this feature” y luego seleccionando “get DNA” de la siguiente ventana. Si se presta atención a la
secuencia, será evidente la estructura en dímero por la aparición de las dos secuencias ricas en A.
3
2. Análisis estadístico de los resultados obtenidos en las prácticas
de laboratorio
Utilizaremos una "add-in" gratuita para Excel llamada GenAlEx (v.6.5), que permite el análisis básico
de la variación genética en un entorno “amigable” interactuando con hojas de cálculo.
Esta herramienta puede descargarse desde http://biology.anu.edu.au/GenAlEx/Welcome.html de
forma gratuita. Este programa creará una o varias hojas de cálculo con nuestros resultados con cada
una de las rutinas que se realicen, y a las cuales se les asignará un nombre. Estas hojas de resultados
pueden borrarse si se desea, sin que ello afecte al desarrollo de la práctica o a los cálculos. En ningún
caso eliminaremos la hoja denominada “practicas” que incluirá los datos genotípicos que
utilizaremos para las comparativas. Es importante recordar que este programa permite el cálculo de
múltiples métricas y diversos análisis, algunos de los cuales serán utilizados en la presente práctica.
Al descargarlo y descomprimir el contenido del fichero, encontraremos un fichero llamado GenAlEx
6.501.xla. Si hacemos doble clic sobre él, se ejecutará el Excel con el complemento GenAlEx cargado
(decir "Si" si pide la habilitación de macros) como se muestra en la figura:
4
Desde
ese
Excel
abierto,
ahora
abrir
el
fichero
de
trabajo
que
hemos
llamado
“datos_GenAlEx_template.xls” donde se encuentran los genotipos de muestras de referencia y
donde introduciremos los datos que se obtuvieron en el laboratorio. Los datos de referencia de otras
muestras de poblaciones distintas, obtenidos para los 6 Alus polimórficos determinados en las
prácticas de laboratorio, los utilizaremos para realizar comparativas. Esos datos, de poblaciones de
referencia genéticamente relacionadas con la muestra, consisten en genotipos de 1040 individuos sin
relación de parentesco de 10 poblaciones (alelos codificados como inserción=1/ deleción=2) de dos
regiones distintas:
a) España (n=587), incluyendo: canarios (364 muestras de las 7 islas), andaluces (67),
catalanes (60), y vascos (96).
b) Norte de África (n=453): marroquíes del norte (111), oeste (140), y sudeste (49), tunecinos
(48), argelinos (47), y saharauis (58).
IMPRTANTE: En el fichero “datos_GenAlEx_template.xls” solo deben modificar las casillas
identificadas en color, añadir la información solicitada en la misma en la pestaña "Practicas". Pegar
los datos genotípicos que obtuviste durante las prácticas de laboratorio entre las filas 3 y 4 de este
fichero (OJO con sobre-escribir las celdas que ya existen).
Llegados a este punto, podemos comenzar el análisis de los datos disponibles para la población del
curso y las 10 poblaciones de comparativa.
IMPORTANTE: Para todos los cálculos, salvo para el análisis de componentes principales, debemos
de ejecutarlos teniendo activa la hoja con nombre “practicas”, que contiene los genotipos. Sólo para
el análisis de componentes principales debemos tener activa la hoja que contiene los datos de
distancias genéticas en forma de matriz triangular generados con el cálculo 3.
Cálculo 1: Para cada locus por separado, y como media, calcularemos las frecuencias alélicas,
heterocigosidad observada y esperada, índices de fijación (F), y coeficientes F (Fis, Fst, Fit), además
de otras métricas que no explicaremos. Para ello, ejecutamos teniendo activa la hoja con nombre
“practicas” y marcaremos solo los campos que muestran la figura a continuación:
5
Índice de fijación F. Los apareamientos no azarosos con respecto al genotipo pueden ocurrir en
poblaciones donde el apareamiento es más frecuente entre individuos más relacionados que por
azar en una población. Ello puede deberse a endogamia si se debe a preferencias de apareamiento
entre parientes, es decir, que comparten un ancestro común, relativamente reciente. El índice de
fijación F se deriva de las estimas de heterocigosidad y se define como la probabilidad de que dos
alelos homólogos en un individuo sean idénticos por descendencia. Los valores cercanos a cero se
esperan si existe apareamiento al azar, mientras que valores positivos sustanciales podrían indicar
apareamientos positivos, como la endogamia. Valores negativos indican exceso de heterocigosidad
(debido a preferencias de apareamiento negativos = selección heterótica). Sus valores pueden oscilar
entre -1 y 1.
Coeficientes F. Si una población tiene subpoblaciones localizadas en la que está ocurriendo, por
ejemplo, un emparejamiento de individuos no al azar entre el conjunto de individuos de la misma, se
considera que la población está estructurada. En ocasiones, la subestructuración poblacional no es
obvia, y como resultado, una muestra puede consistir en un grupo de muestras heterogéneas de la
6
población. Si hay diferencias apreciables en las frecuencias alélicas de esas subpoblaciones, cuando
las juntamos y las estudiamos como una sola, se encontrará una deficiencia de heterocigotos y un
exceso de homocigotos incluso cuando se cumplen las proporciones de Hardy-Weinberg en cada
subpoblación. A esto se le conoce como el efecto Wahlund. Los coeficientes F de Wright pueden
derivarse de las estimas de heterocigosidad en los distintos niveles y son utilizados para describir tal
estructura de la variación genética en una población subdividida. En el caso más frecuente, consisten
en 3 coeficientes utilizados para situar la variación genética al nivel de la población total (T),
subdivisiones (S) e individuos (I), dando lugar a los tres valores Fst, Fit, y Fis. De estas cuantificaciones
se puede deducir que Fst constituye una medida de diferenciación genética entre subpoblaciones y
es siempre positiva. Fis constituye una medida de la desviación de las proporciones de HardyWeinberg dentro de cada subpoblación. Y Fit nos mide ambos componentes conjuntamente.
Cálculo 2: Para cada locus por separado calcularemos si está en equilibrio de Hardy-Weinberg
utilizando una chi-cuadrado de Pearson y luego se discutirán los resultados en el contexto de las
múltiples comparaciones efectuadas. Para ello, ejecutamos teniendo activa la hoja con nombre
“practicas” y marcamos solo los campos que se muestran la figura a continuación:
7
Cálculo 3: Considerando los 6 marcadores genéticos a la vez, realizaremos un análisis de la varianza
molecular (AMOVA) para averiguar si existe estructura poblacional. En esencia, este análisis permite
incorporar la variación molecular (diferencias moleculares entre alelos) al cálculo de los coeficientes
F. Al igual que éstos, el AMOVA permite subdividir jerárquicamente la varianza genética (la cual
podríamos aproximar a la diversidad genética, y por tanto a la heterocigosidad) entre la que se
encuentra en los individuos, en las poblaciones o en las regiones. Si las poblaciones comparadas se
aparean al azar, entonces esperaremos que las diferencias entre ellas sean nulas (Fst=0). En ese caso,
cualquier población será representante de la variación en cualquier otra población. AMOVA permite
deducir si las diferencias que vemos en la variación genética entre poblaciones son fruto del azar (o
el muestreo) o de diferencias reales entre las poblaciones comparadas. En nuestro caso, trataremos
todas las diferencias entre los alelos por igual. En la práctica, además se pueden realizar distintas
agrupaciones entre individuos o poblaciones en un intento de maximizar el Fst y, de esa forma,
deducir a qué factor se debe la diferenciación principal de un conjunto de poblaciones (geografía,
religión, etc).
8
Para ello, ejecutamos, teniendo activa la hoja con nombre “practicas”, y marcando sólo los campos
que se muestran la figura (a continuación). Hay que indicarle que nuestros datos son crudos (raw
data). Vamos a marcar cero permutaciones en el cálculo del AMOVA, de lo contrario la rutina no se
ejecutará adecuadamente en estos PCs por el alto coste computacional. Con ello obtendríamos el
nivel de significación, pero en la práctica solo prestaremos atención a la variación jerarquizada.
Luego surgen 2 ventanas más de manera consecutiva, primero la de la izquierda y luego la de la
derecha. En ellas debemos elegir lo que se muestra:
9
Cálculo 4: Considerando los 6 marcadores genéticos a la vez, realizaremos un análisis de
componentes principales (PCoA). PCoA es un análisis multivariante, con una matemática subyacente
compleja, que permite encontrar y representar los ejes principales de variación en un conjunto de
datos con múltiples variables (multidimensional) sin imponer una estructura de árbol. En este caso,
cada eje principal sucesivo encontrado explicará proporcionalmente menos variación del total, de
modo que, cuando comparamos distintos grupos de población, típicamente los dos-tres primeros
ejes capturan la mayoría de las separaciones entre las poblaciones. De esta manera, los PCoA
permiten compendiar fácilmente la divergencia genética a partir de los datos de frecuencia alélicas
en distintos loci (independientes), de modo que se puede obtener una representación de las
diferencias entre todas las poblaciones analizadas. Utilizaremos este método para obtener las
relaciones entre las poblaciones de estudio partiendo de una matriz de distancias genéticas
(distancias por parejas de poblaciones). Para ello, ejecutamos teniendo activa la hoja con nombre
“FstP” (matriz triangular de distancias entre poblaciones en forma de Fst) y marcaremos solo los
campos que muestran la figura a continuación:
10
Conclusiones de la comparativa de la muestra del grupo con respecto al resto de poblaciones.
11
Descargar