Genética de poblaciones y estudios de asociación: aplicaciones en farmacogenómica Francesc Calafell, Anna González Neira, Paolo Garagnani, Hafid Laayouni, Jaume Bertranpetit Unitat de Biologia Evolutiva Universitat Pompeu Fabra PRBB Barcelona * Introducción: buscando genes de interés farmacológico * Genética de poblaciones y estudios de asociación: - interés de las poblaciones aisladas - el problema de la subestructura de las poblaciones * Genética de las poblaciones ibéricas y asociación * Estructura genética de las poblaciones ibéricas (I): - qué nos dicen 123 SNPs * Estructura genética de las poblaciones ibéricas (II): - qué nos dirán 300.000 SNPs Diseños de asociación en epidemiología genética: * Se definen dos grupos de individuos: - enfermos (“casos”) / sanos (“controles”) - respondedores / no respondedores - con / sin efectos secundarios * Se comparan entre los dos grupos las frecuencias alélicas de: - polimorfismos (funcionales) en genes candidatos - polimorfismos a lo largo del genoma Farmacogenética: búsqueda de factores genéticos implicados en la respuesta a un fármaco o en la aparición de efectos secundarios graves Val/Met, 3-4x incremento de la actividad del gen (inactivación de la dopamina). Alelo Met implica mayor atención y rendimiento cognitivo. Hipótesis: adicción más dura e intratable con el alelo Val => no en equilibrio HW (?) => no diferencias significativas pero... ...parece que otro polimorfismo en COMT potencia el efecto del bupropión. Un ejemplo de farmacogenómica: buscando los genes implicados (es decir, posibles dianas terapéuticas!) en susceptibilidad a infarto de miocardio En general, se genotipan polimorfismos espaciados a lo largo del genoma, y se espera capturar una señal de asociación a través del desequilibrio de ligamiento, es decir, la asociación no aleatoria entre alelos de polimorfismos vecinos El desequilibrio de ligamiento depende de la recombinación (que cambia mucho a lo largo del genoma, y en distancias cortas), y de la demografía. LD es mayor en poblaciones aisladas, y en poblaciones de reciente mezcla Genética de poblaciones en estudios de asociación. Se ha sugerido la utilidad de las poblaciones aisladas en estudios de asociación, por dos motivos: * Presentan una menor diversidad genética en general, y, en particular, de los múltiples genes que pueden estar implicados en una enfermedad compleja. * Presentan un mayor LD, y, por lo tanto, pueden capturarse más fácilmente señales de asociación a partir de polimorfismos anónimos. Un problema que puede ser grave en estudios de asociación: la subestructuración de poblaciones. Si los casos y controles no proceden de la misma población, pueden darse diferencias genéticas no relacionadas con la enfermedad. Este fenómeno es más probable si distintos grupos presentan incidencias distintas de la enfermedad. Por ejemplo, la habilidad de comer con palillos se asocia con una deleción de ocho pares de bases en el mtDNA Genética de poblaciones ibéricas y estudios de asociación: ¿Existen en España poblaciones aisladas que sean especialmente prometedoras para estudios de asociación? ¿Podemos incurrir en resultados espúreos en muestras españolas debido a la estructuración poblacional? Poblaciones candidatas a ser genéticamente aisladas en España: * vascos - enorme diferenciación lingüística y cultural - aislamiento secular - diferencias genéticas en ABO, Rh, HLA - diferencias en algunas enfermedades mendelianas * gitanos - enorme diferenciación lingüística y cultural - aislamiento secular - diferencias genéticas en HLA - diferencias en varias enfermedades mendelianas Una posible fuente de estructuración poblacional en la Península Ibérica: el distinto impacto de la conquista musulmana (aunque desconocemos su impacto demográfico: posiblemente, se dio una aculturación de la población autóctona) Un estudio de 123 SNPs en poblaciones ibéricas y norteafricanas Ocho poblaciones, 541 individuos BAF, N=85 BAS, N=61 CAT, N=75 EXT, N=36 AND N=60 NMO, N=84 SMO, N=84 SAH, N=56 Genotipamos 123 SNPs en una zona sin genes de ~1 Mb en el cromosoma 22. La distancia media entre SNPs era 8 Kb, y la máxima, 25 Heterozigosidad media 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 sa ha ra ui sm or n_ m or an da lu ci a ex tre m ad ur a ca ta la n ba sq ue _F r ba sq ue _E s 0 No hay diferencias en diversidad genética; en particular, los vascos no son menos diversos MDS sobre distancias genéticas entre poblaciones Análisis de la Variancia Molecular (AMOVA) Todas las poblaciones Variación dentro de grupos Variación entre grupos 1.03% (p<0.01) Dentro PI -0.13% Dentro N.Afr. -0.13% PI vs. N.Afr. -0.13% 2.05% Vascos vs. otros PI -0.12% 0.02% Análisis de estructura poblacional LD y distancia física 40 35 30 AND B_ES 25 B_FR CAT 20 EX N_M S_M 15 SAH 10 5 0 0 - 15000 15000 - 30000 30000 - 45000 45000 - 60000 60000 - 75000 75000 - 90000 proporción de pares de SNPs (MAF>0.05) con r2>0.8 Conclusiones: * Las poblaciones de la Península Ibérica estudiadas son genéticamente homogéneas => no hay que preocuparse en exceso por la estratificación en estudios de asociación * Existe una cierta diferenciación respecto al Norte de África, pero no se observa una componente magrebí en poblaciones del sur peninsular * Para esta región genómica, los vascos no son una población genéticamente diferenciada, ni presentan una menor diversidad, ni un mayor LD. Si pudiéramos extrapolar al resto del genoma, no serían mejores candidatos para encontrar genes de interés farmacogenético y farmacogenómico. (pero, ¿y ABO, Rh y HLA?) Quizá 123 SNPs son pocos... Quizá esta región de 1 Mb en el cromosoma 22 tenga sus peculiaridades... Solución: 300.000 SNPs cubriendo todo el genoma (Illumina 300K) El Banco Nacional de ADN es un Servicio de la Universidad de Salamanca, financiado por Genoma España, cuyas funciones son recibir, procesar y almacenar muestras de ADN, plasma y células de donantes voluntarios, así como información relevante de salud y hábitos de vida asociados a las muestras. En particular, han almacenado ~900 muestras de donantes sanos que se proponen como controles de referencia Dentro de las muestras del Banco Nacional de ADN, hemos seleccionado individuos con los cuatro abuelos nacidos en la misma región. Para hacer posible el proyecto dentro de unos costes factibles, hemos realizado los tipajes con grupos (“pools”) de individuos, lo que permite una estimación de las frecuencias alélicas. Así, con sólo 16 experimentos, hemos obtenido información basada en 404 individuos. El genotipado se ha realizado en el nodo de Madrid del CeGeN “Pools” genotipados: Notas: Galicia-1* - (*) pools genotipados por Galicia-2 duplicado Asturias y Cantabria País Vasco - Todas los pools contienen 30 individuos, excepto BaleaCataluña res y Canarias, con 22 Valencia Baleares - Todas las muestras proceden del Banco Nacional de ADN, Castilla-León-1* excepto las vascas y canarias, Castilla-León-2 que proceden de nuestro Castilla-La Mancha laboratorio Extremadura Andalucía Occidental Andalucía Oriental y Murcia Canarias Resultados preliminarísimos: * Los pools duplicados muestran una altísima correlación en las frecuencias alélicas estimadas (r=0.992 - 0.994) * Las poblaciones duplicadas son más parecidas entre sí (r=0.938 - 0.945) que la media de cualquier par de poblaciones (r=0.933) Siguientes pasos en el estudio: * Establecer un conjunto pequeño (10-20) de los SNPs más variables entre poblaciones españolas. * Genotipar dichos SNPs individualmente en todas las muestras del Banco Nacional de ADN * Ofrecer, mediante el CeGeN, el genotipado de dicho conjunto de SNPs en conjuntos de pacientes, para determinar qué controles del Banco Nacional de ADN son más parecidos en su origen poblacional. El objetivo final es, pues, ofrecer a los grupos de investigación (y, en particular, a farmacogenetistas y farmacogenomistas) una herramienta que les permita abordar sus estudios de asociación con las máximas garantías de que no se van a ver afectados por la subestructuración poblacional.