Diseño e implementación de un módulo bioinformático para el análisis estadístico de asociación genotipo – fenotipo aplicado al cáncer cervical Emilio Centeno Ortiz Septiembre 2008 Módulo estadístico para estudios de asociación aplicados al cáncer cervical Memoria del trabajo de investigación correspondiente al Máster en Genética presentada por Emilio Centeno Ortiz El presente trabajo ha sido realizado en el Grupo de Genética, Bioinformática y Evolución del Departamento de Genética y Microbiología de la Universidad Autónoma de Barcelona, bajo la dirección del profesor Antonio Barbadilla Prados Vº Bº El director del trabajo Antonio Barbadilla Prados Profesor Titular de Genética UAB Agradecimientos A mi familia por el apoyo incondicional que recibo en todo lo que hago. En especial, a mi madre por haber luchado por traerme hasta aquí y darme una buena educación, y a mi hermano Antonio por estar siempre a mi lado y ser una luz que siempre me muestra buenos caminos. También quiero dar las gracias a Antonio Barbadilla por todo su apoyo y por abrirme las puertas de la bioinformática. Y, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo y ayuda. 1 INTRODUCCIÓN ................................................................................................................................................................ 5 1.1 EL PROYECTO ASSIST ..................................................................................................................................................... 5 1.2 ORGANIZACIÓN DEL SISTEMA ASSIST ............................................................................................................................. 7 2 OBJETIVOS ......................................................................................................................................................................... 9 3 MATERIALES Y MÉTODOS ............................................................................................................................................. 9 3.1 FACTORES DE ESTUDIO ..................................................................................................................................................... 9 3.2 ESTADÍSTICAS ................................................................................................................................................................ 10 3.2.1 Asociación de variables cualitativas ..................................................................................................................... 10 3.2.2. Riesgo relativo y odds ratio .................................................................................................................................. 11 3.2.3 Tamaño del efecto .................................................................................................................................................. 12 3.2.4 Potencia estadística............................................................................................................................................... 12 3.3 TECNOLOGÍAS DE LA INFORMACIÓN ............................................................................................................................... 13 4 RESULTADOS .................................................................................................................................................................... 14 4.1 RECOMENDACIÓN DEL TAMAÑO DE LA MUESTRA ........................................................................................................... 16 4.2 DESCRIPCIÓN ESTADÍSTICA DE LA MUESTRA .................................................................................................................. 16 4.2.1 Descripción de datos fenotípicos .......................................................................................................................... 17 4.2.2 Descripción de datos genéticos ............................................................................................................................. 17 4.2.3 Representación gráfica de cantidades y frecuencias ............................................................................................. 19 4.3 TESTS DE ASOCIACIÓN CASO-CONTROL .......................................................................................................................... 20 4.3.1 Estudios de asociación para datos fenotípicos ..................................................................................................... 21 4.3.2 Estudios de asociación para datos genéticos ........................................................................................................ 21 4.4 TESTS DE HIPÓTESIS MULTIVARIABLE ............................................................................................................................. 23 4.5 ONTOLOGÍA ESTADÍSTICA .............................................................................................................................................. 23 5. DISCUSIÓN ....................................................................................................................................................................... 35 5.1 ARCHIVOS MÉDICOS ....................................................................................................................................................... 35 5.2 GENÉTICA, ESTADÍSTICA Y SISTEMAS DE INFORMACIÓN ................................................................................................. 36 6 CONCLUSIONES .............................................................................................................................................................. 36 BIBLIOGRAFÍA ................................................................................................................................................................... 37 Documentos de ASSIST .................................................................................................................................................. 38 APÉNDICE A: DELIVERABLE 6.3.................................................................................................................................... 38 APÉNDICE B: R IN ASSIST ................................................................................................................................................ 39 1 INTRODUCCIÓN En esta memoria se explica la solución adoptada en el proyecto ASSIST del VI programa marco de la Comunidad Europea para llevar a cabo estudios de asociación entre características individuales, tanto genéticas como fenotípicas, y una enfermedad, en este caso el cáncer cervical. Los datos para efectuar los análisis se han recogido de distintos hospitales. Adicionalmente se adjuntan dos documentos que he redactado personalmente para el proyecto ASSIST. El primero de ellos es un entregable dirigido al comité de seguimiento del proyecto. El segundo es un pequeño documento de carácter técnico dirigido al grupo encargado de realizar la integración e instalación del sistema. 1.1 El proyecto ASSIST El cáncer cervical es el segundo tipo de cáncer más común en todo el mundo. Sólo en Europa, se registran 60000 nuevos casos y 30000 muertes cada año. Las últimas tendencias en investigación médica combinan datos genéticos y clínicos con el objetivo de identificar nuevos marcadores de riesgo, mejorar los diagnósticos y los pronósticos acerca de la enfermedad. Pese a que el número de estudios que intentan establecer asociaciones fenotipogenotipo no para de aumentar, estos estudios se ven a menudo frenados por la segmentación de los estudios y los datos. El principal objetivo de ASSIST es el desarrollo de nuevas tecnologías de integración de información clínica para facilitar la investigación del cáncer cervical a través de un sistema que virtualmente unifica múltiples repositorios de datos, físicamente ubicados en diferentes hospitales. Para ello, ASSIST traduce los conceptos médicos en valores entendibles para los sistemas que lo integran mediante unas reglas de inferencia semántica las cuales vienen definidas por una ontología núcleo, y de esta manera se permite la utilización homogénea de los datos, permitiendo la evaluación de hipótesis médicas y realizando estudios de asociación. La unificación de las fuentes de datos participantes, las cuales contienen tanto datos clínicos como datos genéticos, en una sola fuente de conocimiento médico permite una mayor flexibilidad al permitir la formación de grupos de estudio "bajo demanda" y la reutilización de registros de pacientes en nuevos estudios. Los investigadores de las clínicas ginecológicas en estos hospitales, ya poseyendo una cantidad de datos clínicos y genéticos cuantificable, intentarán desvelar relaciones entre HPV, hábitos de pacientes y genotipos. El proyecto ASSIST (ASsociation Studies assisted by Inference and Semantic Technologies) se trata de un proyecto europeo perteneciente al sexto programa marco. Sixth Framework Programme - Priority 2.4.11 Integrated biomedical information for better health IST-4 027510 Prueba del interés que suscitan los estudios de asociación a gran escala, o GWAS (Genome-wide Association Studies), y la unificación de grandes bases de datos genéticas es que la Comisión Europea está promocionando la coordinación de programas que incluyan GWAS e integración de datos a gran escala relativos a salud humana y enfermedades. En el séptimo programa marco, la Comisión Europea ha incrementado su presupuesto significativamente, pasando de los 2255 millones de euros del sexto programa marco (2002-2006) a los 6000 €. Este proyecto comprende 4 socios provenientes de la investigación en tecnologías de la información (IT), 4 desarrolladores de software y 3 hospitales de investigación. El proyecto se inició en enero de 2006 y está previsto finalizar en enero de 2009. La investigación sobre la base genética de las enfermedades es uno de los temas más punteros de la biomedicina, y las publicaciones acerca de asociaciones entre genotipos y fenotipos se están acumulando aceleradamente en la literatura. Los estudios de asociación GWAS (Genome-wide Association Studies) constituyen un método potente para identificar susceptibilidad genética a una enfermedad. Normalmente realizar un GWAS requiere recoger datos genéticos de centenares o miles de sujetos utilizando cientos de miles de SNPs localizados a lo largo del genoma humano. En ASSIST, como se verá, el número de marcadores genéticos es inicialmente modesto, pero el objetivo final es que pueda generalizarse a muchos marcadores. Los algoritmos utilizados comparan las frecuencias tanto alélicas como genotípicas de los SNPs, buscando regiones con diferencias estadísticamente significativas entre casos y controles. Para realizar este tipo de estudios se necesitan: 1. Bases de datos que contengan datos genéticos, fenotípicos y, en caso de estar disponible, asociaciones entre estos (los archivos médicos en ASSIST). 2. Herramientas bioinformáticas para analizar los datos (el módulo estadístico en ASSIST) 3. Vocabularios que describan la información de una manera estándard para así poder interactuar con otras herramientas (la ontología núcleo y la ontología estadística en ASSIST). Actualmente se avanza en todos estos frente simultáneamente, y existen proyectos que intentan cubrir estas necesidades, desde bases de datos genotipofenotipo como dbGAP (http://www.ncbi.nlm.nih.gov/sites/entrez?Db=gap) a vocabularios estándar (ontologías) como PML (http://www.openpml.org) 1.2 Organización del sistema ASSIST Como en la mayor parte de grandes proyectos en los que participan varios socios, se ha divido el proyecto en 3 grandes subsistemas, y éstos a su vez en módulos. Entendemos por subsistema un sistema autónomo que, eventualmente, puede formar parte de un sistema mayor, pero no contiene a ningún otro subsistema, sino que puede contener módulos. Se entiende por módulo un conjunto de funciones agrupadas por un concepto. Es un paquete de funcionalidades que responden a una misma temática, una herramienta que puede ser usada por un sistema o subsistema. Por ejemplo, se podría tener un módulo llamado Mates que contuviera todas las funciones matemáticas que se necesitarán en un sistema que lo contiene. Las ventajas de organizar un proyecto de este tipo en una estructura modular en vez de una secuencial son muchas, pero entre ellas se podrían destacar: - Facilita el análisis, diseño y desarrollo del proyecto. Actualmente no se concibe iniciar un proyecto sin un análisis modular del sistema. - La organización en módulos permite dividir el proyecto en problemas independientes (o con pocas dependencias) que pueden ser abordados simultáneamente por equipos distintos. - Un proyecto grande especificado como un gran bloque resulta complicado de entender a cualquier persona externa al proyecto. Estructurar un proyecto grande en bloques conceptuales facilita la descripción del problema. - La incorporación de nuevas personas al proyecto requiere mucho menos tiempo de aprendizaje, pues la nueva incorporación sólo debe adentrarse en el módulo que le ocupa, a la vez que tiene una visión global del sistema. En ASSIST hay 3 grandes subsistemas: ANONYMISED MEDICAL ARCHIVES Medical Archives and Associated Interfaces Subsystem Statistical Analysis Association Study RDF RDF (Query (Query Expressions) Expressions) Hospital Database #1 Hospital Database #2 A n o n y m Interfaces to i Medical Archives s a t i o n User Interface Subsystem Visualisation RDF RDF Documents Documents Hospital Database #n Profile Manager Data Aggregation Inference Engine Session Manager \ Retrieval RDF RDF (Schemas (Schemas&& Results) Results) Users Database OWL Parser Authentication Medical Knowledge Base Semantic Index and Query ASSIST Core Subsystem Figura 1. Subsistemas principales de sistema informacional ASSIST: a) Los archivos médicos. b) El núcleo. c) La interfaz de usuario Los archivos médicos o base de datos local. Los archivos médicos que están disponibles para ASSIST constituyen los repositorios de datos orientados a la investigación relacionados con el cáncer cervical al ASSIST se le ha permitido acceso completo. Para cada hospital, los datos disponibles son extraídos, anonimizados y guardados en una base datos local. El núcleo Constituye el punto medio entre la interfaz del usuario y el sistema. A partir de la información suministrada por los archivos médicos, el núcleo infiere el conocimiento sobre los pacientes y ofrece servicios de recuperación y análisis de datos, así como la posibilidad de definir, ejecutar y gestionar estudios de asociación. Es en el núcleo donde debe aparecer el módulo estadístico, cubriendo toda la funcionalidad requerida en el análisis estadístico de los datos y la definición, ejecución y gestión de estudios de asociación. La interfaz de usuario Este subsistema habilita la formulación de preguntas al sistema y la visualización de las repuestas de un modo humanamente entendible. 2 OBJETIVOS Dentro del objetivo principal de desarrollar e implementar un módulo de análisis de asociación dentro del sistema ASSIST, el presente trabajo tiene los siguientes objetivos específicos: 1. Creación de una ontología estadística para resolver la comunicación entre el módulo estadístico y el resto del sistema. 2. Implementar un módulo estadístico que permita realizar: a) Una estimación del tamaño necesario de la muestra para obtener una potencia estadística deseada. b) Una descripción estadística de los datos, tanto genéticos como fenotípicos, incluidos en un estudio de asociación. c) Test de asociación entre variables genéticas y fenotípicas. d) Validación de hipótesis. 3. Crear pruebas unitarias para cada una de las funcionalidades. 4. Participar en el proceso de prueba e integración del módulo estadístico en el sistema ASSIST. 3 MATERIALES Y MÉTODOS 3.1 Factores de estudio Se entiende por factor de estudio a cualquiera de las variables que pueden participar en un estudio de asociación. En ASSIST todos los factores de estudio son genéticos o fenotípicos. En este caso, por fenotípico se incluye todo lo no genético, es decir, variables fenotípicas así como información sobre hábitos de vida y variables ambientales. Los datos genéticos con los que se cuenta son los genotipos de cada individuo para los loci estudiados. No se dispone de la genealogía, ni de la fase haplotípica. Los factores de estudio genéticos disponibles son: - SNP (Single Nucleotide Polymorphism): Todos los polimorfismos estudiados en ASSIST son no-sinónimos. De hecho, cada dato almacenado en los archivos médicos acerca de un SNP se corresponde al aminoácido correspondiente al cambio nucleotídico. Buscando en la literatura se han encontrado las referencias en la base de datos dbSNP (NCBI), de manera que se puedan comparar los datos provenientes de los archivos médicos con los datos de referencia. p53 codon72: Dentro del gen p53, la sustitución en el codón 72 de una C por una G lleva a una sustitución de prolina por argininia. MTHFR 677C->T La sustitución de una C por una T en el codón 222 lleva a la sustitución de Valina por Alanina en el codón 222. CYP1A1/MspI: Una sustitución de una T por una C en la base 6235 del flanco 3' del gen CYP1A1 crea un sitio de reconocimiento MspI. CYP2E1/PstI: Un SNP G/C que altera un locus PstI situado en la región 5', a 1.3 kb hacia arriba del codón de inicio del gen CYP2E. - Variantes electroforética nulas: En estos casos la presencia o ausencia de un producto proteico constituye el polimorfismo. Genes GSTM1 y GSTT1. - Además de los datos genéticos, los diferentes hospitales cuentan con otros datos no genéticos a los cuales se les ha puesto la etiqueta de fenotípicos. Para los estudios de asociación todas las variables fenotípicas se consideran de tipo cualitativo, inclusive las cuantitativas, los valores de las cuales son traducidos a categorías definidas por el usuario. Estas categorías, como se verá más adelante, incluyen un nombre y un rango de valores entre los cuales se debe encontrar todo valor asignado a dicha categoría. Las categorías deben ser mutuamente excluyentes y, en su conjunto, abarcar todos los valores que puede tomar la variable. 3.2 Estadísticas 3.2.1 Asociación de variables cualitativas Los tests utilizados son el chi-cuadrado y el G, también llamado loglinear. La diferencia entre ambos se encuentra en el modo de estimar el estadístico de la prueba. En el test chi-cuadrado es: En el test G: El criterio de decisión consiste en ver si la probabilidad de las observaciones es muy pequeña según la hipótesis nula (normalmente menor del 5%). Para ello hay que calcular el estadístico y los grados de libertad, y después utilizar estos datos para buscar el valor P en una distribución chi-cuadrado. 3.2.2. Riesgo relativo y odds ratio Para cuantificar el efecto que la exposición a un factor de estudio tiene sobre la enfermedad se utilizan los índices riesgo relativo y odds ratio. Para calcularlos se parte de una tabla de contingencia como ésta: Expuestos No expuestos Total Casos a c a+c Controles b d B+d Total a+b c+d N El odds ratio (OR) es una forma de expresar la proporción de veces que un suceso ocurra frente a que no ocurra. Por tanto, un OR de 3 significa que la probabilidad de que un efecto aparezca si el individuo está expuesto a (o presenta) un factor de riesgo es 3 veces superior a la probabilidad de que se de el efecto cuando no se está expuesto a dicho factor de riesgo. Por tanto, el OR es una probabilidad relativa a otra. Si se prefiere utilizar el lenguaje de probabilidades clásico para decir que “la probabilidad de que aparezca la enfermedad en exposición a un factor de riesgo es del 70%” basta con hacer una sencilla transformación: Para el OR se calcula su intervalo de confianza dado un nivel de confianza predeterminado. En ASSIST se utiliza el 95%: El riesgo relativo (RR) mide la fuerza de la asociación entre la exposición y la enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los expuestos a un factor de riesgo en relación al grupo de los no expuestos. Su cálculo se estima dividiendo la incidencia de la enfermedad en los expuestos entre la incidencia de la enfermedad en los no expuestos. Leyendo las definiciones puede parecer que OR y RR están midiendo lo mismo de distinta forma. De hecho cuando la probabilidad del suceso es baja (< 20 %) el valor del OR y el RR es muy parecido, pero no es así cuando el suceso es bastante común. Una propiedad interesante del OR es que no varía aunque se cambie el orden de las categorías en cualquiera de las variables, pero sí que varía el riesgo relativo. 3.2.3 Tamaño del efecto El tamaño del efecto es una medida de la fuerza de la relación entre 2 variables. En experimentos científicos no sólo es útil conocer si el experimento tiene estadísticamente un efecto significativo, sino también el tamaño de cualquiera de los efectos observados. Tanto el OR como el RR expresan un tamaño del efecto, sin embargo ninguno de ellos es apropiado para realizar análisis de potencia estadística de un test chicuadrado. El cálculo del tamaño del efecto es llevado a cabo por el servidor estadístico R-server a partir de la tabla de contingencia. 3.2.4 Potencia estadística La potencia estadística de un test es 1 menos la probabilidad de que el test rechace una hipótesis nula que es cierta (β, el error de Tipo II). Por tanto, cuanto mayor sea la potencia, menor es la probabilidad de un error de Tipo II. Se suele expresar la potencia estadística como: potencia = 1- β. El análisis de la potencia de un test estadístico puede hacerse antes o después de que los datos sean recolectados y recibirá el nombre de a-priori o a-posteriori respectivamente. En el caso de la recomendación del tamaño de la muestra claramente se trata de un análisis a-priori de la potencia estadística, ya que este análisis se realiza antes de llevar a cabo el estudio de asociación y su objetivo es el de determinar un tamaño apropiado de la muestra que permita obtener una determinada potencia estadística. En un análisis de la potencia a-priori se tiene: Como entrada: - El nivel de significación (α) - La potencia deseada (1- β) - El tamaño del efecto que se quiere detectar. Como salida: - El tamaño total de la muestra (N). En un análisis de la potencia a-posteriori se tiene: Como entrada: - El tamaño total de la muestra (N). - El nivel de significación (α) - La tabla de contingencia. Como salida: - El tamaño del efecto - La potencia del test (1-β) 3.3 Tecnologías de la información El lenguaje de programación con el que se ha implementado el módulo es Java, y esto se debe en gran medida a la facilidad de conjugar Java con otras tecnologías, Entre estas otras tecnologías se pueden destacar XML, XSD, JAXB y R (Rserve y Rclient). En un principio se utilizó RDF, pero la complejidad que generaba en el código era enorme y el beneficio nulo, de manera que se sustituyó por XML para transmitir la información en el formato definido por la ontología estadística (XSD). Esta información contenida en un documento XML se transforma de manera automática, mediante JAXB, en objetos Java para así poder trabajar con ellos de una manera rápida, limpia e intuitiva. R es un lenguaje y entorno de código abierto para el cálculo estadístico y generación de gráficos. Ofrece una amplia variedad de cálculos estadísticos y técnicas gráficas. Una utilidad importante es Rserve. Rserve es un servidor TCP/IP que permite a otros programas usar la potencia de R sin la necesidad de inicializar el entorno R o enlazar una librería de R. Para que los programas puedan comunicarse con Rserve utilizan una librería (Rclient) que contiene las funciones necesarias ejecutar código R desde otros programas. Esta librería cliente se encuentra disponible para varios lenguajes de programación, entre ellos Java. 4 RESULTADOS Así como una gran parte del proyecto ASSIST tiene que ver con la unificación de conceptos y recuperación de datos, el módulo estadístico provee al sistema con las funciones necesarias para analizar esos datos recuperados, realizar estudios de asociación y validar hipótesis de asociación (esta última función está en construcción). La comunicación con el resto del sistema se realiza a través de XML, y consiste en todos los casos en la recepción de una petición y el envío de una respuesta. Las preguntas y respuestas posibles, así como sus correspondientes formatos, vienen definidos por una ontología estadística orientada que regula la comunicación del módulo estadístico con el exterior, sea el exterior como sea. La mayor parte de cálculos estadísticos se obtienen mediante peticiones a Rserver, una aplicación servidor del entorno estadístico R que es capaz de comunicarse mediante TCP/IP con un programa Java a través de una librería cliente. Figura 2. Diseño funcional del módulo estadístico. Se observan los paquetes que conforman el módulo estadístico, así como los elementos externos con los que interactúan. El uso del módulo estadístico durante una sesión de ASSIST podría seguir estos pasos: 1. Recomendación del tamaño de la muestra en base a la potencia estadística deseada para una variable. 2. Descripción de la muestra para cada una de sus variables genéticas y/o fenotípicas (cantidad y frecuencia), así como sus respectivas gráficas. También se describe las variables genéticas en función de todos los posibles valores de todas las variables fenotípicas seleccionadas para el estudio. 3. En el caso de las variables de tipo SNP comprobar que la distribución de los valores de la muestra cumplen el equilibrio de Hardy-Weinberg. 4. Realizar estudios de asociación caso-control tanto para las variables genéticas como para las fenotípicas. De nuevo, se realizan los estudios de asociación para las variables genéticas en función de todos los posibles valores de todas las variables fenotípicas seleccionadas para el estudio. 5. Realizar validación de hipótesis que hablen del grado de relación entre la variable dependiente y una o varias variables, las cuales pueden ser tanto genéticas como fenotípicas. Esto último no está implementado todavía. 4.1 Recomendación del tamaño de la muestra Antes de realizar un estudio de asociación hay que recuperar los datos de los archivos médicos. Sin embargo, puede ser interesante recibir una recomendación del número de registros a recuperar teniendo en cuenta que el usuario desea que sus estudios de asociación gocen de una potencia estadística mínima. En ASSIST el cálculo de la potencia se realiza utilizando el servidor estadístico Rserver. En concreto, se utiliza la librería pwr, que es gratis y puede ser descargada desde el mismo intérprete de R. La función ejecutada en R es: pwr.chisq.test (w, N, df, sig.level, power) Donde: w es el tamaño del efecto N es el número total de observaciones df indica los grados de libertad sig.level es el nivel de significación power es la potencia del test Esta función acepta 5 parámetros diferentes, pero siempre uno de ellos debe omitirse, indicándose así cual es la incógnita a calcular. 4.2 Descripción estadística de la muestra Una vez recogidos los datos, se quiere realizar una descripción estadística de éstos, y para ello se realizan una serie de operaciones con el objetivo de obtener las cantidades y frecuencias de cada una de las categorías de cada variable, generar algunas gráficas y validar los datos referentes a SNPs. También se quiere tener, en el caso de haber polimorfismos y fenotipos entre los factores de estudio, todas las muestras resultantes de filtrar por cada una de las categorías y, si se trata de más de un fenotipo, todas las posibles combinaciones de sus categorías. Como la cantidad de información que se puede generar en caso de seleccionar varios fenotipos junto con algún polimorfismo es enorme, la interfaz de usuario deberá resolver cómo dejar elegir al usuario cuales son las muestras quieren tenerse en cuenta y cuales no. 4.2.1 Descripción de datos fenotípicos Los valores fenotípicos pueden ser de tipo cuantitativo o cualitativo, sin embargo en los estudios de asociación que se realizan en ASSIST se requieren datos cualitativos, es decir, categorías. La elección de estas categorías puede ser crítica para realizar un buen estudio de asociación. El investigador debe jugar con los rangos de valores y muchas veces buscar un compromiso entre el número de categorías, el significado que se tiene en mente para cada categoría y los datos de los que se dispone. Por ejemplo, en un factor de estudio como cigarrillos por día podría tener sentido para un médico definir 2 categorías: fumador y nofumador, mientras que posiblemente para otro médico tenga sentido definir 3 o más categorías: no-fumador, ocasional, poco, mucho,… Una vez definidas las categorías hay que definir los rangos para cada una de ellas: no-fumador: 0, ocasional: 1-5, poco: 6-15, mucho: 16-infinito. También hay que inspeccionar los datos, ya que es posible que en los datos disponibles hayan categorías con 0 elementos, y que por tanto puedan estropear el estudio de asociación. En ese caso, tal vez habría que plantearse si las categorías pueden ajustarse o si las categorías son correctas pero los datos son malos. Debido a que los criterios de cada médico o investigador pueden ser diferentes, en ASSIST es el propio usuario quien decide las categorías que quiere crear. Tanto para las variables cuantitativas como cualitativas, el módulo estadístico genera las cantidades y frecuencias para las categorías de dicha variable. En el caso de las cuantitativas el módulo estadístico debe clasificar previamente los valores en las categorías correspondientes y, tras obtener las cantidades y frecuencias de cada categoría, calcula la media aritmética y la desviación típica. 4.2.2 Descripción de datos genéticos Tal y como se comentó en el apartado referente a los factores de estudio utilizados en ASSIST, se tienen 2 tipos de polimorfismos: Indel y SNP. En el caso de los polimorfismos de tipo Indel el módulo estadístico tan sólo genera las cantidades y frecuencias para los 2 posibles valores (Wt,null). En el caso de los polimorfismos de tipo SNP se hacen bastantes más cosas. Como se ha comentado antes, el dato que se recibe es traducido a un genotipo. Por otro lado, se dispone del identificador del SNP en dbSNP (rsId). Con estos 2 elementos, se realiza la siguiente descripción de la muestra para cada SNP: Se calculan las cantidades y las frecuencias de los genotipos. Se calculan las cantidades y las frecuencias de los alelos Se comparan los alelos y genotipos observados con los de dbSNP. Se comparan las frecuencias genotípicas y alélicas observadas con las de dbSNP Se obtienen algunos datos más acerca del SNP de dbSNP Se comprueba si la muestra se ajusta al equilibrio de HardyWeinberg Figura 3. Especificación de la interfaz de usuario relativa a la descripción de datos genéticos Para obtener los datos de dbSNP se guardan en disco los documentos XML obtenidos de dbSNP utilizando la opción FREQXML. Esta opción devuelve, entre muchos otros datos, las frecuencias genotípicas y alélicas para dicho SNP en varias poblaciones, así como las frecuencias medias ponderadas de todas las poblaciones incluidas en el documento. De este documento también se extraen algunos datos descriptivos del SNP: - Alelos observados Cromosoma Posición Gen en el que se encuentra (identificador y símbolo) Los datos de cromosoma, posición y gen dependen del ensamblaje que se utilice. En ASSIST se usan los datos del ensamblaje de referencia y se descartan los datos de otros ensamblajes (Celera, HuRef, etc.). Los distintos ensamblajes normalmente coinciden en el cromosoma y el gen, pero difieren en la posición dentro del cromosoma. Para cada muestra y cada SNP se realiza un test de Chi-cuadrado y un test G entre las frecuencias genotípicas observadas y las esperadas según la Ley del equilibrio de Hardy-Weinberg. Como en todo test de Chi-cuadrado, también se calcula la potencia estadística asociada a dicho test. 4.2.3 Representación gráfica de cantidades y frecuencias Una vez el módulo estadístico recibe los datos, éste genera un conjunto de gráficas que pretenden mejorar la legibilidad y hacer más agradable la interfaz de usuario. En concreto, se genera un histograma para las cantidades que registran las categorías de una variable en una muestra y una gráfica de tipo tarta (piechart) para las frecuencias de una variable en una muestra. Figura 4. Representación gráfica de una variable en una muestra. a) Representación de las frecuencias mediante un piechart. b) Representación de las frecuencias mediante un histograma. También se genera un histograma en el que aparecen las cantidades de cada categoría de una variable para todas las muestras, permitiendo de esta manera comparar visualmente las diferencias entre varias muestras, como por ejemplo entre casos y controles. Figura 5. Representación gráfica de una variable en dos muestras (casos y controles) 4.3 Tests de asociación caso-control En ASSIST el diseño de los estudios de asociación para una variable es de tipo caso-control. Este tipo de estudios son idénticos a los usados en epidemiología clínica y consisten en determinar la frecuencia de una variante de DNA en individuos afectados por una enfermedad (casos) y aquellos no afectados (controles). En estos estudios es necesario conocer algo de la enfermedad de tal manera que pueda utilizarse en las hipótesis como factor de riesgo una posible variación en uno o más genes. En el caso de ASSIST, los polimorfismos mencionados anteriormente han sido seleccionados por expertos en cáncer cervical. Este tipo de estudio es económica y estadísticamente eficiente pero potencialmente susceptible de sesgo si los casos y los controles en realidad no son comparables. También es importante usar cuidadosamente muestras extraídas de una población homogénea y disponer de bastantes casos y controles. Para saber si se dispone de bastantes sujetos se puede hacer un análisis de la potencia estadística. En estos test de asociación para una sola variable se quiere determinar si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o sí, por el contrario, estas dos frecuencias acusan una diferencia significativa para, por ejemplo, un nivel de significación del 5%. Los tests estadísticos utilizados son el test chi cuadrado de Pearson y el test G. En ambos tests el resultado es un valor P calculado a partir del respectivo estadístico y los grados de libertad del test. Este valor es la probabilidad de que la hipótesis nula sea correcta. Por tanto, si se tiene un valor P muy pequeño, típicamente inferior a 0.05 (α), la hipótesis nula es rechazada, lo cual indica una posible asociación. 4.3.1 Estudios de asociación para datos fenotípicos Para cada factor de estudio no genético se realiza un test chi-cuadrado y un test G. Los grados de libertad dependerán del número de categorías que tenga el factor de estudio para el cual se quiere encontrar una asociación. La hipótesis nula es que las frecuencias de los casos son similares a las de los controles. Por defecto, se usa como α 0.05. También se calcula el RR y el OR. La potencia estadística a posteriori es calculada para el test de chi-cuadrado. 4.3.2 Estudios de asociación para datos genéticos Además de realizar un estudio de asociación para el conjunto de los datos genéticos, se pueden realizar todos los estudios de asociación posibles filtrando por todas las categorías de todos los fenotipos escogidos para el estudio de asociación. Tanto los SNPs, el polimorfismo electroforético, se analizan del mismo modo, es decir, se efectúa un test chi-cuadrado, un test G, el cálculo de la potencia estadística del test chi-cuadrado, el cálculo del OR con su intervalo de confianza y el RR. Hay 2 informaciones genéticas distintas que deben ser analizadas: alelos y genotipos. Para los alelos, al igual que para los datos no genéticos, se realiza un test chi-cuadrado, un test G, se calcula el RR y el OR. Para los genotipos, se contemplan 3 modelos de acción génica. Si las 2 copias no son idénticas (heterocigoto), su efecto combinado podría ser diferente al efecto de tener 2 copias idénticas de uno de los alelos. Si el efecto combinado es el mismo que el efecto de tener 2 copias de uno de los alelos, entonces se dice que el efecto del alelo es dominante sobre el otro. Figura 6. Especificación de la interfaz de usuario relativa a un estudio de asociación entre un factor de estudio genético (polimorfismo MTHFR C677T) y cáncer cervical. Los individuos seleccionados para el estudio son solo aquellos tales que el factor de estudio Smoking Status sea positivo. Codominancia: En codominancia ningún fenotipo es dominante sobre el otro. Sin embargo, los individuos heterocigotos expresan ambos fenotipos. Dominancia: Un alelo dominante que siempre que está presente se expresa totalmente, independientemente de que el otro alelo pueda ser diferente. Recesividad: Se da cuando un alelo sólo se expresa cuando ambos alelos son el mismo. Las tablas anteriores han sido extraídas del documento de especificación de la interfaz de usuario. Las tablas contendrían estos datos: Alleles Control Subjects Case subjects Odds Ratio (95% CI) Risk Ratio C 48 (41.7%) 53 (44.1%) 1.00 XX.XX T 53 (46.1%) 54 (45.0%) 0.88 (0.21-3.75) XX.XX Model Codominant Control Genotypes Subjects Case subjects X^2 P-value 1.75 0.70 Odds Ratio (95% CI) Risk Ratio C/C 48 (41.7%) 53 (44.1%) 1.00 XX.XX C/T 53 (46.1%) 54 (45.0%) 0.88 (0.21-3.75) XX.XX Power Log Linear 56% 1.72 X^2 P-value 1.75 0.70 P-value 0.72 Power Log Linear 56% 1.72 P-value 0.72 Dominant Recessive T/T 14 (12.2%) 13 (10.8%) 0.88 (0.09-8.23) XX.XX C/C 48 (41.7%) 53 (41.7%) 1.00 XX.XX C/T-T/T 67 (58.3%) 67 (55.8%) 0.87 (0.22-3.45) XX.XX C/C-C/T 101 (87.8%) 107 (89.1%) 1.00 XX.XX T/T 14 (12.2%) 13 (10.8%) 0.90 (0.11-7.80) XX.XX 1.50 0.80 61% 1.45 0.85 2.2 0.45 61% 2.1 0.47 Figura 7. Corrección de las tablas incluidas en la figura 6. Las siguientes tablas incluyen la potencia estadística para cada tabla de asociación, a la vez que añaden un p-value para cada estadístico (chi-cuadrado y G) 4.4 Tests de hipótesis multivariable Para probar una hipótesis sobre la enfermedad en la que interviene más de un factor de estudio se utiliza la regresión logística. La regresión logística es una útil manera de describir la relación entre uno o más factores de estudio con una enfermedad, la cual toma 2 posibles valores, enfermo o sano (caso o control). La fórmula general es: , donde: - Y es la variable dependiente binaria (caso=1 ó control=0) - xi son los factores de estudio (también binarios, valen 1 ó 0) - βi son los coeficientes que significan como de importante el factor de estudio es en la aparición de la enfermedad. - El logit es el logaritmo del odds para p, por tanto log(OR) = logit(p) – logit(q) , y el OR puede ser calculado Una vez el modelo ha sido construido (la hipótesis definida), se puede probar con nuevos conjuntos de datos para evaluar la hipótesis En caso de que los factores de estudio tengan más de 2 categorías habrá que redefinir el concepto, creando tantos nuevos factores de estudio como categorías tenía antes. Estos nuevos factores de estudio serán binarios. 4.5 Ontología estadística La ontología estadística define los conceptos a través de los cuales se realizan las peticiones al módulo estadístico. Se le llama ontología estadística porque es utilizada en las interacciones con el módulo estadístico pero no porque sólo contenga conceptos estadísticos, ya que contiene conceptos de genética y alguna otra definición destinada a facilitar la representación gráfica de la información. TIPOS Los tipos definen el significado de los conceptos que se utilizan durante la comunicación con el módulo estadístico. A continuación se presentan en secciones para facilitar situar el concepto en un contexto e intentar hacer más fácil su comprensión. DESCRIPCIÓN El tipo range_type define una categoría. El nombre de la categoría viene dado por study_factor_value y, en caso de ser una categoría perteneciente a una variable cuantitativa, el rango de valores que clasifica. El polymorphism_type contiene, además del identificador en ASSIST, el tipo de polimorfismo del que se trata y los datos obtenidos de dbSNP El phenotype_type define un fenotipo. Por fenotipo se clasifica en este caso toda variable no genética. Se almacena el identificador en ASSIST, el tipo de fenotipo (cuantitativo o cualitativo) y una descripción. En power_analysis_type aparecen todos los datos que intervienen en un análisis de la potencia estadística: alpha (grado de significación), df (grados de libertad), effect_size (tamaño del efecto), power (potencia estadística), total_size (tamaño de la muestra). El tipo hw_test_type contiene las frecuencias genotípicas observadas y esperadas, y los tests chi-cuadrado y G (loglinear). En study_factor_stats_type se almacenan la cantidad y la frecuencia para una categoría de un factor de estudio. El tipo domain_filter_type contiene la categoría de un fenotipo utilizada para filtrar una muestra. El tipo polymorrphism_stats_by_sample contiene la descripción de un polimorfismo para una muestra. El tipo phenotype_stats_by_sample_type contiene la descripción de una variable no genética para una muestra En el tipo sample_type contiene, además del identificador y el tamaño, las descripciones de un conjunto de variables para una muestra. ASOCIACIÓN En test de asociación se incluyen los parámetros de entrada (grados de libertad y el estadístico) y la probabilidad. También puede haber un análisis de la potencia estadística si el test de asociación utiliza el estadístico chi-cuadrado. El tipo simple_association_table_row_type ha sido diseñado exclusivamente para ser fácilmente representado desde una interfaz de usuario, pero no tiene un significado completo autoexplicativo. Este tipo contiene todos los datos correspondientes a una fila de una tabla que represente los resultados de un estudio de asociación. Al igual que simple_association_table_row_type, el tipo simple_association_table_type ha sido diseñado exclusivamente para ser fácilmente representado desde una interfaz de usuario. Este tipo contiene todos los datos correspondientes a una tabla que represente los resultados de un estudio de asociación GRÁFICOS El tipo graphic_value_type es utlizado para las representaciones gráficas, y contiene el valor real (xy_value) para una categoría (x) que podría estar siendo representada para varias muestras (y). En piechart_type se almacenan los datos que describen un gráfico de tipo tarta (piechart) Histogram_type contiene los datos utilizados para caracterizar un histograma, así como una referencia al gráfico generado (url). SERVICIOS Los servicios definen las preguntas que el módulo estadístico sabe responder y cómo va a ser la respuesta. Recomendación del tamaño de la muestra: Petición Se espera el identificador del factor de estudio, el número de categorías de dicho factor de estudio (para calcular los grados de libertad), el efecto deseado y la potencia estadística mínima a la que se quiere llegar Respuesta La respuesta consiste en un análisis de la potencia estadística Descripción de los datos: Petición Se espera un número indeterminado de polimorfismos y/o fenotipos. El parámetro session_path se ha incluido durante la integración del módulo dentro del sistema. Posiblemente desaparezca en un futuro. Respuesta La respuesta consiste en 2 muestras, casos y controles, y cada una de ellas contiene para cada factor de estudio su descripción en esa muestra. Si hay algún SNP como factor de estudio puede haber otra muestra llamada NCBI, la cual contendrá sólo la descripción de los factores de estudio de tipo SNP obtenida de dbSNP. También se devuelven los factores de estudio de entrada, algunos de ellos con información complementaria. En el caso de los SNPs se incluyen algunos datos extraídos de dbSNP (cromosoma, posición, ensamblaje, alelos observados, etc.). En el caso de los fenotipos cuantitativos se añaden la media aritmética y la desviación estándar. Por último se incluye un histograma para cada factor de estudio, el cual muestra información relativa a todas las muestras incluidas. Estudio de asociación: Petición Se espera la respuesta dada anteriormente en la descripción de datos, excepto los histogramas y la información del NCBI. Respuesta La respuesta consiste en un conjunto de tablas de asociación, tanto para fenotipos como para polimorfismos. 5. Discusión 5.1 Archivos médicos En la actualidad los esfuerzos para llevar acabo estudios de asociación obliga a organizar los datos de una manera uniforme y siguiendo un vocabulario estándar. En ASSIST se ha conseguido mediante la implementación de una ontología núcleo (core ontology), mediante la cual se expresan los datos provenientes de varios hospitales. La transformación de los datos brutos provenientes de los hospitales en datos entendibles por el sistema tiene un coste y, según el tipo de estudios que se quieran llevar a cabo, la estimación de ese coste resulta imprescindible para el éxito o fracaso del sistema. En ASSIST se optó inicialmente por utilizar técnicas de inferencia semántica para traducir los datos brutos a datos expresados en términos de la ontología núcleo. Esta solución está demostrando ser ineficiente para recuperar grandes volúmenes de datos. Actualmente el sistema de recuperación de datos puede tardar horas en recuperar los datos de unos cuantos cientos de pacientes para los cuales se quieran realizar estudios de asociación utilizando 6 factores de estudio genéticos. Sin realizar un modelo de la complejidad es difícil expresar como crece el tiempo de búsqueda de los datos en función del volumen de datos deseados y el número de factores de estudio, sin embargo, es fácil notar empíricamente que el crecimiento no es de orden lineal, sino mucho mayor, lo cual invalida en gran medida la aproximación adoptada. Tal vez sea por una desacertada implementación de las reglas semánticas de inferencia o, como es muy posible, la estimación de la complejidad y coste de esta solución ha sido incorrecta, y por tanto la solución inviable. A favor de la utilización de reglas de inferencia semánticas hay que decir que: 1. Permite recuperar en todo momento los datos disponibles para hacer un estudio de asociación, porque no se realiza una traducción masiva cada cierto tiempo, sino que se traducen bajo demanda todos aquellos datos almacenados en las bases de datos de los hospitales. 2. Tecnológicamente innovadora, pues son pioneros en la utilización de estas técnicas aplicadas a las ciencias de la vida. Otro punto interesante es el intercambio de información con otros orígenes de datos, como podrían ser hospitales u otros proyectos similares. ASSIST actualmente no contempla intercambiar datos y, teniendo en cuenta el gran crecimiento que experimentan tanto las bases de datos públicas de polimorfismos como los proyectos de asociación a gran escala, de esta manera se limita en gran medida la capacidad de realizar estudios de asociación con suficiente potencia estadística para ser interesantes. Este problema queda reforzado por el hecho de disponer de pocos datos genéticos relativos al cáncer cervical en los hospitales. Esta incomunicación podría resolverse utilizando realizando una traducción a un formato estándar, como podría ser PML (Polymorphism Markup Language). Esta traducción no debería ser excesivamente complicada, pues es un estándar creado por un comité de expertos y los datos que se manejan son del mismo tipo. Sin embargo este planteamiento solo hubiera sido válido al inicio del proyecto, cuando se ha de realizar la planificación de tareas. 5.2 Genética, estadística y sistemas de información El creciente interés por los estudios de asociación a gran escala hace que disciplinas totalmente alejadas, como la genética, la estadística y la informática tengan que utilizarse conjuntamente. En el momento en que no se presta suficiente atención a una de ellas la probabilidad de fracaso del proyecto se crece significativamente. El papel de la genética es crucial, pues la información que se maneja, así como las conclusiones a las que se llega están en su dominio. Los genetistas son quienes, por ejemplo, pueden identificar qué datos hay que analizar y están mejor preparados para interpretar los resultados en términos genéticos. Sin embargo, a la hora de realizar estudios de asociación un genetista necesita realizar tests estadísticos, y es aquí donde el perfil del estadístico entra, al saber cómo diseñar un estudio de asociación entre variables cualitativas, refinar los análisis o proponer nuevas técnicas. Y finalmente ni los estadísticos ni los genetistas podrían abordar ningún estudio de asociación sin un sistema de información que lo respalde, tanto en el almacenamiento de la información como en la realización de cálculos y tratamiento de grandes volúmenes de información. Es por ello que el control, o al menos el seguimiento, de un proyecto como ASSIST debe estar en manos de un grupo de personas pertenecientes a estas disciplinas. En el caso de ASSIST, un proyecto europeo perteneciente a la categoría de las tecnologías de la información enfocado a solucionar un problema de ciencias de la vida, se ha puesto más interés y recursos en investigar y solucionar temas de ingeniería informática que en los estudios de asociación propiamente. 6 Conclusiones 1. Se ha implementado un módulo estadístico que permite realizar: a) Estimación de la cantidad de datos necesaria en un estudio de asociación. b) Descripción estadística de datos genéticos y estadísticos. c) Estudios de asociación caso-control entre factores genéticos y fenotípicos. d) Validación de hipótesis respecto a la enfermedad que involucren a más de una variable 2. La inferencia de datos a través de los mecanismos proporcionados por la ontología del núcleo proporciona una gran cantidad de datos expresados en un vocabulario común (ontología), sin embargo esa inferencia tiene un alto precio en cuanto a recursos utilizados y tiempo de recuperación de los datos. 3. El sistema ha sido probado por los usuarios con éxito, teniendo en cuenta que aún no está finalizado y falta trabajo por hacer, especialmente en la interfaz de usuario y en la recuperación de datos. 4. Se baraja la posibilidad de incluir a nuevos hospitales en el proyecto, intentando de esta manera incrementar el volumen de datos. 5. Los hospitales disponen de muy pocos datos genéticos de sus pacientes. En parte se debe a que los polimorfismos de interés varían según la enfermedad sobre la que se quiera investigar, de manera que un hospital difícilmente guardará información acerca de los polimorfismos de interés para, en este caso, el cáncer cervical. 6. Este tipo de proyectos requieren de varias disciplinas muy alejadas hasta ahora, como son la genética, la estadística y las tecnologías de la información. Todos los flancos son importantes, por lo que el control, o al menos el seguimiento, de un proyecto como este debería estar en manos de un grupo de personas pertenecientes a estas disciplinas. 7. Al ser un proyecto europeo perteneciente a la categoría de las tecnologías de la información se ha puesto más interés en investigar y solucionar temas de ingeniería informática que en los estudios de asociación propiamente. Bibliografía Rosner B., “Fundamentals of Biostatistics”. Duxbury Press; 6th edition (Febrero de 2005) The Wellcome Trust Case Control Consortium, “Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls”. Nature Publishing Group (2007) Venables W. N., Smith D. M. and the R Development Core Team “An Introduction to R” (Julio de 2008, en línea) http://cran.r-project.org/doc/manuals/R-intro.pdf Sokal R. R., Rohlf F. J., “Introduction to Biostatistics”. W.H. Freeman & Company; 2nd edition (Marzo de 1987) Gordon D., Finch S. J., “Factors affecting statistical power in the detection of genetic association”. The Journal of Clinical Investigation, Volume 115, Number 6 (Junio de 2005) Lloyd D. Fisher, Gerald Van Belle, “Biostatistics, a Methodology for the Health Sciences”. Wiley-Interscience publication (1993) Documentos de ASSIST ASSIST D.4.2 Deliverable 6.3 User interface specification, version 3.0 R in ASSIST APÉNDICE A: DELIVERABLE 6.3 APÉNDICE B: R IN ASSIST