Documentos de ASSIST

Anuncio
Diseño e implementación de un módulo bioinformático
para el análisis estadístico de asociación genotipo –
fenotipo aplicado al cáncer cervical
Emilio Centeno Ortiz
Septiembre 2008
Módulo estadístico para estudios de asociación aplicados al cáncer cervical
Memoria del trabajo de investigación correspondiente al Máster en Genética presentada por Emilio
Centeno Ortiz
El presente trabajo ha sido realizado en el Grupo de Genética, Bioinformática y Evolución del
Departamento de Genética y Microbiología de la Universidad Autónoma de Barcelona, bajo la
dirección del profesor Antonio Barbadilla Prados
Vº Bº
El director del trabajo
Antonio Barbadilla Prados
Profesor Titular de Genética
UAB
Agradecimientos
A mi familia por el apoyo incondicional que recibo en todo lo que hago. En especial, a mi madre por
haber luchado por traerme hasta aquí y darme una buena educación, y a mi hermano Antonio por estar
siempre a mi lado y ser una luz que siempre me muestra buenos caminos.
También quiero dar las gracias a Antonio Barbadilla por todo su apoyo y por abrirme las puertas de la
bioinformática. Y, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su
apoyo y ayuda.
1 INTRODUCCIÓN ................................................................................................................................................................ 5
1.1 EL PROYECTO ASSIST ..................................................................................................................................................... 5
1.2 ORGANIZACIÓN DEL SISTEMA ASSIST ............................................................................................................................. 7
2 OBJETIVOS ......................................................................................................................................................................... 9
3 MATERIALES Y MÉTODOS ............................................................................................................................................. 9
3.1 FACTORES DE ESTUDIO ..................................................................................................................................................... 9
3.2 ESTADÍSTICAS ................................................................................................................................................................ 10
3.2.1 Asociación de variables cualitativas ..................................................................................................................... 10
3.2.2. Riesgo relativo y odds ratio .................................................................................................................................. 11
3.2.3 Tamaño del efecto .................................................................................................................................................. 12
3.2.4 Potencia estadística............................................................................................................................................... 12
3.3 TECNOLOGÍAS DE LA INFORMACIÓN ............................................................................................................................... 13
4 RESULTADOS .................................................................................................................................................................... 14
4.1 RECOMENDACIÓN DEL TAMAÑO DE LA MUESTRA ........................................................................................................... 16
4.2 DESCRIPCIÓN ESTADÍSTICA DE LA MUESTRA .................................................................................................................. 16
4.2.1 Descripción de datos fenotípicos .......................................................................................................................... 17
4.2.2 Descripción de datos genéticos ............................................................................................................................. 17
4.2.3 Representación gráfica de cantidades y frecuencias ............................................................................................. 19
4.3 TESTS DE ASOCIACIÓN CASO-CONTROL .......................................................................................................................... 20
4.3.1 Estudios de asociación para datos fenotípicos ..................................................................................................... 21
4.3.2 Estudios de asociación para datos genéticos ........................................................................................................ 21
4.4 TESTS DE HIPÓTESIS MULTIVARIABLE ............................................................................................................................. 23
4.5 ONTOLOGÍA ESTADÍSTICA .............................................................................................................................................. 23
5. DISCUSIÓN ....................................................................................................................................................................... 35
5.1 ARCHIVOS MÉDICOS ....................................................................................................................................................... 35
5.2 GENÉTICA, ESTADÍSTICA Y SISTEMAS DE INFORMACIÓN ................................................................................................. 36
6 CONCLUSIONES .............................................................................................................................................................. 36
BIBLIOGRAFÍA ................................................................................................................................................................... 37
Documentos de ASSIST .................................................................................................................................................. 38
APÉNDICE A: DELIVERABLE 6.3.................................................................................................................................... 38
APÉNDICE B: R IN ASSIST ................................................................................................................................................ 39
1 INTRODUCCIÓN
En esta memoria se explica la solución adoptada en el proyecto ASSIST del VI
programa marco de la Comunidad Europea para llevar a cabo estudios de
asociación entre características individuales, tanto genéticas como fenotípicas, y
una enfermedad, en este caso el cáncer cervical. Los datos para efectuar los
análisis se han recogido de distintos hospitales.
Adicionalmente se adjuntan dos documentos que he redactado personalmente
para el proyecto ASSIST. El primero de ellos es un entregable dirigido al comité
de seguimiento del proyecto. El segundo es un pequeño documento de carácter
técnico dirigido al grupo encargado de realizar la integración e instalación del
sistema.
1.1 El proyecto ASSIST
El cáncer cervical es el segundo tipo de cáncer más común en todo el mundo.
Sólo en Europa, se registran 60000 nuevos casos y 30000 muertes cada año.
Las últimas tendencias en investigación médica combinan datos genéticos y
clínicos con el objetivo de identificar nuevos marcadores de riesgo, mejorar los
diagnósticos y los pronósticos acerca de la enfermedad.
Pese a que el número de estudios que intentan establecer asociaciones fenotipogenotipo no para de aumentar, estos estudios se ven a menudo frenados por la
segmentación de los estudios y los datos. El principal objetivo de ASSIST es el
desarrollo de nuevas tecnologías de integración de información clínica para
facilitar la investigación del cáncer cervical a través de un sistema que
virtualmente unifica múltiples repositorios de datos, físicamente ubicados en
diferentes hospitales. Para ello, ASSIST traduce los conceptos médicos en valores
entendibles para los sistemas que lo integran mediante unas reglas de inferencia
semántica las cuales vienen definidas por una ontología núcleo, y de esta manera
se permite la utilización homogénea de los datos, permitiendo la evaluación de
hipótesis médicas y realizando estudios de asociación.
La unificación de las fuentes de datos participantes, las cuales contienen tanto
datos clínicos como datos genéticos, en una sola fuente de conocimiento médico
permite una mayor flexibilidad al permitir la formación de grupos de estudio "bajo
demanda" y la reutilización de registros de pacientes en nuevos estudios.
Los investigadores de las clínicas ginecológicas en estos hospitales, ya poseyendo
una cantidad de datos clínicos y genéticos cuantificable, intentarán desvelar
relaciones entre HPV, hábitos de pacientes y genotipos.
El proyecto ASSIST (ASsociation Studies assisted by Inference and Semantic
Technologies) se trata de un proyecto europeo perteneciente al sexto programa
marco.
Sixth Framework Programme - Priority 2.4.11
Integrated biomedical information for better health
IST-4 027510
Prueba del interés que suscitan los estudios de asociación a gran escala, o GWAS
(Genome-wide Association Studies), y la unificación de grandes bases de datos
genéticas es que la Comisión Europea está promocionando la coordinación de
programas que incluyan GWAS e integración de datos a gran escala relativos a
salud humana y enfermedades. En el séptimo programa marco, la Comisión
Europea ha incrementado su presupuesto significativamente, pasando de los
2255 millones de euros del sexto programa marco (2002-2006) a los 6000 €.
Este proyecto comprende 4 socios provenientes de la investigación en tecnologías
de la información (IT), 4 desarrolladores de software y 3 hospitales de
investigación. El proyecto se inició en enero de 2006 y está previsto finalizar en
enero de 2009.
La investigación sobre la base genética de las enfermedades es uno de los temas
más punteros de la biomedicina, y las publicaciones acerca de asociaciones entre
genotipos y fenotipos se están acumulando aceleradamente en la literatura. Los
estudios de asociación GWAS (Genome-wide Association Studies) constituyen un
método potente para identificar susceptibilidad genética a una enfermedad.
Normalmente realizar un GWAS requiere recoger datos genéticos de centenares o
miles de sujetos utilizando cientos de miles de SNPs localizados a lo largo del
genoma humano. En ASSIST, como se verá, el número de marcadores genéticos
es inicialmente modesto, pero el objetivo final es que pueda generalizarse a
muchos marcadores. Los algoritmos utilizados comparan las frecuencias tanto
alélicas como genotípicas de los SNPs, buscando regiones con diferencias
estadísticamente significativas entre casos y controles. Para realizar este tipo de
estudios se necesitan:
1. Bases de datos que contengan datos genéticos, fenotípicos y, en caso de estar
disponible, asociaciones entre estos (los archivos médicos en ASSIST).
2. Herramientas bioinformáticas para analizar los datos (el módulo estadístico en
ASSIST)
3. Vocabularios que describan la información de una manera estándard para así
poder interactuar con otras herramientas (la ontología núcleo y la ontología
estadística en ASSIST).
Actualmente se avanza en todos estos frente simultáneamente, y existen
proyectos que intentan cubrir estas necesidades, desde bases de datos genotipofenotipo como dbGAP (http://www.ncbi.nlm.nih.gov/sites/entrez?Db=gap) a
vocabularios estándar (ontologías) como PML (http://www.openpml.org)
1.2 Organización del sistema ASSIST
Como en la mayor parte de grandes proyectos en los que participan varios socios,
se ha divido el proyecto en 3 grandes subsistemas, y éstos a su vez en módulos.
Entendemos por subsistema un sistema autónomo que, eventualmente, puede
formar parte de un sistema mayor, pero no contiene a ningún otro subsistema,
sino que puede contener módulos. Se entiende por módulo un conjunto de
funciones agrupadas por un concepto. Es un paquete de funcionalidades que
responden a una misma temática, una herramienta que puede ser usada por un
sistema o subsistema. Por ejemplo, se podría tener un módulo llamado Mates que
contuviera todas las funciones matemáticas que se necesitarán en un sistema que
lo contiene.
Las ventajas de organizar un proyecto de este tipo en una estructura modular en
vez de una secuencial son muchas, pero entre ellas se podrían destacar:
-
Facilita el análisis, diseño y desarrollo del proyecto. Actualmente no se
concibe iniciar un proyecto sin un análisis modular del sistema.
-
La organización en módulos permite dividir el proyecto en problemas
independientes (o con pocas dependencias) que pueden ser abordados
simultáneamente por equipos distintos.
-
Un proyecto grande especificado como un gran bloque resulta complicado
de entender a cualquier persona externa al proyecto. Estructurar un
proyecto grande en bloques conceptuales facilita la descripción del
problema.
-
La incorporación de nuevas personas al proyecto requiere mucho menos
tiempo de aprendizaje, pues la nueva incorporación sólo debe adentrarse en
el módulo que le ocupa, a la vez que tiene una visión global del sistema.
En ASSIST hay 3 grandes subsistemas:
ANONYMISED
MEDICAL ARCHIVES
Medical Archives and
Associated Interfaces
Subsystem
Statistical Analysis
Association Study
RDF
RDF
(Query
(Query
Expressions)
Expressions)
Hospital
Database #1
Hospital
Database #2
A
n
o
n
y
m
Interfaces to
i
Medical Archives
s
a
t
i
o
n
User Interface
Subsystem
Visualisation
RDF
RDF
Documents
Documents
Hospital
Database #n
Profile
Manager
Data Aggregation
Inference Engine
Session Manager
\
Retrieval
RDF
RDF
(Schemas
(Schemas&&
Results)
Results)
Users
Database
OWL Parser
Authentication
Medical Knowledge
Base
Semantic Index and
Query
ASSIST Core Subsystem
Figura 1. Subsistemas principales de sistema informacional ASSIST: a) Los
archivos médicos. b) El núcleo. c) La interfaz de usuario
Los archivos médicos o base de datos local.
Los archivos médicos que están disponibles para ASSIST constituyen los
repositorios de datos orientados a la investigación relacionados con el cáncer
cervical al ASSIST se le ha permitido acceso completo. Para cada hospital, los
datos disponibles son extraídos, anonimizados y guardados en una base datos
local.
El núcleo
Constituye el punto medio entre la interfaz del usuario y el sistema. A partir de la
información suministrada por los archivos médicos, el núcleo infiere el
conocimiento sobre los pacientes y ofrece servicios de recuperación y análisis de
datos, así como la posibilidad de definir, ejecutar y gestionar estudios de
asociación. Es en el núcleo donde debe aparecer el módulo estadístico,
cubriendo toda la funcionalidad requerida en el análisis estadístico de los datos y
la definición, ejecución y gestión de estudios de asociación.
La interfaz de usuario
Este subsistema habilita la formulación de preguntas al sistema y la visualización
de las repuestas de un modo humanamente entendible.
2 OBJETIVOS
Dentro del objetivo principal de desarrollar e implementar un módulo de análisis
de asociación dentro del sistema ASSIST, el presente trabajo tiene los siguientes
objetivos específicos:
1. Creación de una ontología estadística para resolver la comunicación entre el
módulo estadístico y el resto del sistema.
2. Implementar un módulo estadístico que permita realizar:
a) Una estimación del tamaño necesario de la muestra para obtener una
potencia estadística deseada.
b) Una descripción estadística de los datos, tanto genéticos como
fenotípicos, incluidos en un estudio de asociación.
c) Test de asociación entre variables genéticas y fenotípicas.
d) Validación de hipótesis.
3. Crear pruebas unitarias para cada una de las funcionalidades.
4. Participar en el proceso de prueba e integración del módulo estadístico en el
sistema ASSIST.
3 MATERIALES Y MÉTODOS
3.1 Factores de estudio
Se entiende por factor de estudio a cualquiera de las variables que pueden
participar en un estudio de asociación. En ASSIST todos los factores de estudio
son genéticos o fenotípicos. En este caso, por fenotípico se incluye todo lo no
genético, es decir, variables fenotípicas así como información sobre hábitos de
vida y variables ambientales. Los datos genéticos con los que se cuenta son los
genotipos de cada individuo para los loci estudiados. No se dispone de la
genealogía, ni de la fase haplotípica.
Los factores de estudio genéticos disponibles son:
- SNP (Single Nucleotide Polymorphism): Todos los polimorfismos estudiados
en ASSIST son no-sinónimos. De hecho, cada dato almacenado en los
archivos médicos acerca de un SNP se corresponde al aminoácido
correspondiente al cambio nucleotídico. Buscando en la literatura se han
encontrado las referencias en la base de datos dbSNP (NCBI), de manera
que se puedan comparar los datos provenientes de los archivos médicos
con los datos de referencia.




p53 codon72: Dentro del gen p53, la sustitución en el codón 72 de
una C por una G lleva a una sustitución de prolina por argininia.
MTHFR 677C->T La sustitución de una C por una T en el codón 222
lleva a la sustitución de Valina por Alanina en el codón 222.
CYP1A1/MspI: Una sustitución de una T por una C en la base 6235
del flanco 3' del gen CYP1A1 crea un sitio de reconocimiento MspI.
CYP2E1/PstI: Un SNP G/C que altera un locus PstI situado en la
región 5', a 1.3 kb hacia arriba del codón de inicio del gen CYP2E.
-
Variantes electroforética nulas: En estos casos la presencia o ausencia
de un producto proteico constituye el polimorfismo. Genes GSTM1 y GSTT1.
-
Además de los datos genéticos, los diferentes hospitales cuentan con otros
datos no genéticos a los cuales se les ha puesto la etiqueta de fenotípicos.
Para los estudios de asociación todas las variables fenotípicas se consideran de
tipo cualitativo, inclusive las cuantitativas, los valores de las cuales son traducidos
a categorías definidas por el usuario. Estas categorías, como se verá más
adelante, incluyen un nombre y un rango de valores entre los cuales se debe
encontrar todo valor asignado a dicha categoría. Las categorías deben ser
mutuamente excluyentes y, en su conjunto, abarcar todos los valores que puede
tomar la variable.
3.2 Estadísticas
3.2.1 Asociación de variables cualitativas
Los tests utilizados son el chi-cuadrado y el G, también llamado loglinear. La
diferencia entre ambos se encuentra en el modo de estimar el estadístico de la
prueba.
En el test chi-cuadrado es:
En el test G:
El criterio de decisión consiste en ver si la probabilidad de las observaciones es
muy pequeña según la hipótesis nula (normalmente menor del 5%). Para ello hay
que calcular el estadístico y los grados de libertad, y después utilizar estos datos
para buscar el valor P en una distribución chi-cuadrado.
3.2.2. Riesgo relativo y odds ratio
Para cuantificar el efecto que la exposición a un factor de estudio tiene sobre la
enfermedad se utilizan los índices riesgo relativo y odds ratio. Para calcularlos se
parte de una tabla de contingencia como ésta:
Expuestos
No expuestos
Total
Casos
a
c
a+c
Controles
b
d
B+d
Total
a+b
c+d
N
El odds ratio (OR) es una forma de expresar la proporción de veces que un
suceso ocurra frente a que no ocurra. Por tanto, un OR de 3 significa que la
probabilidad de que un efecto aparezca si el individuo está expuesto a (o
presenta) un factor de riesgo es 3 veces superior a la probabilidad de que se de el
efecto cuando no se está expuesto a dicho factor de riesgo.
Por tanto, el OR es una probabilidad relativa a otra. Si se prefiere utilizar el
lenguaje de probabilidades clásico para decir que “la probabilidad de que
aparezca la enfermedad en exposición a un factor de riesgo es del 70%” basta
con hacer una sencilla transformación:
Para el OR se calcula su intervalo de confianza dado un nivel de confianza
predeterminado. En ASSIST se utiliza el 95%:
El riesgo relativo (RR) mide la fuerza de la asociación entre la exposición y la
enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los
expuestos a un factor de riesgo en relación al grupo de los no expuestos. Su
cálculo se estima dividiendo la incidencia de la enfermedad en los expuestos entre
la incidencia de la enfermedad en los no expuestos.
Leyendo las definiciones puede parecer que OR y RR están midiendo lo mismo de
distinta forma. De hecho cuando la probabilidad del suceso es baja (< 20 %) el
valor del OR y el RR es muy parecido, pero no es así cuando el suceso es
bastante común.
Una propiedad interesante del OR es que no varía aunque se cambie el orden de
las categorías en cualquiera de las variables, pero sí que varía el riesgo relativo.
3.2.3 Tamaño del efecto
El tamaño del efecto es una medida de la fuerza de la relación entre 2 variables.
En experimentos científicos no sólo es útil conocer si el experimento tiene
estadísticamente un efecto significativo, sino también el tamaño de cualquiera de
los efectos observados.
Tanto el OR como el RR expresan un tamaño del efecto, sin embargo ninguno de
ellos es apropiado para realizar análisis de potencia estadística de un test chicuadrado. El cálculo del tamaño del efecto es llevado a cabo por el servidor
estadístico R-server a partir de la tabla de contingencia.
3.2.4 Potencia estadística
La potencia estadística de un test es 1 menos la probabilidad de que el test
rechace una hipótesis nula que es cierta (β, el error de Tipo II). Por tanto, cuanto
mayor sea la potencia, menor es la probabilidad de un error de Tipo II. Se suele
expresar la potencia estadística como: potencia = 1- β.
El análisis de la potencia de un test estadístico puede hacerse antes o después de
que los datos sean recolectados y recibirá el nombre de a-priori o a-posteriori
respectivamente. En el caso de la recomendación del tamaño de la muestra
claramente se trata de un análisis a-priori de la potencia estadística, ya que este
análisis se realiza antes de llevar a cabo el estudio de asociación y su objetivo es
el de determinar un tamaño apropiado de la muestra que permita obtener una
determinada potencia estadística.
En un análisis de la potencia a-priori se tiene:
Como entrada:
- El nivel de significación (α)
- La potencia deseada (1- β)
- El tamaño del efecto que se quiere detectar.
Como salida:
- El tamaño total de la muestra (N).
En un análisis de la potencia a-posteriori se tiene:
Como entrada:
- El tamaño total de la muestra (N).
- El nivel de significación (α)
- La tabla de contingencia.
Como salida:
- El tamaño del efecto
- La potencia del test (1-β)
3.3 Tecnologías de la información
El lenguaje de programación con el que se ha implementado el módulo es Java, y
esto se debe en gran medida a la facilidad de conjugar Java con otras tecnologías,
Entre estas otras tecnologías se pueden destacar XML, XSD, JAXB y R (Rserve
y Rclient).
En un principio se utilizó RDF, pero la complejidad que generaba en el código era
enorme y el beneficio nulo, de manera que se sustituyó por XML para transmitir la
información en el formato definido por la ontología estadística (XSD). Esta
información contenida en un documento XML se transforma de manera
automática, mediante JAXB, en objetos Java para así poder trabajar con ellos de
una manera rápida, limpia e intuitiva.
R es un lenguaje y entorno de código abierto para el cálculo estadístico y
generación de gráficos. Ofrece una amplia variedad de cálculos estadísticos y
técnicas gráficas. Una utilidad importante es Rserve. Rserve es un servidor TCP/IP
que permite a otros programas usar la potencia de R sin la necesidad de
inicializar el entorno R o enlazar una librería de R. Para que los programas puedan
comunicarse con Rserve utilizan una librería (Rclient) que contiene las funciones
necesarias ejecutar código R desde otros programas. Esta librería cliente se
encuentra disponible para varios lenguajes de programación, entre ellos Java.
4 RESULTADOS
Así como una gran parte del proyecto ASSIST tiene que ver con la unificación de
conceptos y recuperación de datos, el módulo estadístico provee al sistema con
las funciones necesarias para analizar esos datos recuperados, realizar estudios
de asociación y validar hipótesis de asociación (esta última función está en
construcción).
La comunicación con el resto del sistema se realiza a través de XML, y consiste en
todos los casos en la recepción de una petición y el envío de una respuesta. Las
preguntas y respuestas posibles, así como sus correspondientes formatos, vienen
definidos por una ontología estadística orientada que regula la comunicación del
módulo estadístico con el exterior, sea el exterior como sea.
La mayor parte de cálculos estadísticos se obtienen mediante peticiones a Rserver, una aplicación servidor del entorno estadístico R que es capaz de
comunicarse mediante TCP/IP con un programa Java a través de una librería
cliente.
Figura 2. Diseño funcional del módulo estadístico. Se observan los paquetes que
conforman el módulo estadístico, así como los elementos externos con los que
interactúan.
El uso del módulo estadístico durante una sesión de ASSIST podría seguir estos
pasos:
1. Recomendación del tamaño de la muestra en base a la potencia estadística
deseada para una variable.
2. Descripción de la muestra para cada una de sus variables genéticas y/o
fenotípicas (cantidad y frecuencia), así como sus respectivas gráficas.
También se describe las variables genéticas en función de todos los posibles
valores de todas las variables fenotípicas seleccionadas para el estudio.
3. En el caso de las variables de tipo SNP comprobar que la distribución de los
valores de la muestra cumplen el equilibrio de Hardy-Weinberg.
4. Realizar estudios de asociación caso-control tanto para las variables
genéticas como para las fenotípicas. De nuevo, se realizan los estudios de
asociación para las variables genéticas en función de todos los posibles
valores de todas las variables fenotípicas seleccionadas para el estudio.
5. Realizar validación de hipótesis que hablen del grado de relación entre la
variable dependiente y una o varias variables, las cuales pueden ser tanto
genéticas como fenotípicas. Esto último no está implementado todavía.
4.1 Recomendación del tamaño de la muestra
Antes de realizar un estudio de asociación hay que recuperar los datos de los
archivos médicos. Sin embargo, puede ser interesante recibir una recomendación
del número de registros a recuperar teniendo en cuenta que el usuario desea que
sus estudios de asociación gocen de una potencia estadística mínima.
En ASSIST el cálculo de la potencia se realiza utilizando el servidor estadístico Rserver. En concreto, se utiliza la librería pwr, que es gratis y puede ser
descargada desde el mismo intérprete de R.
La función ejecutada en R es:
pwr.chisq.test (w, N, df, sig.level, power)
Donde:
w es el tamaño del efecto
N es el número total de observaciones
df indica los grados de libertad
sig.level es el nivel de significación
power es la potencia del test
Esta función acepta 5 parámetros diferentes, pero siempre uno de ellos debe
omitirse, indicándose así cual es la incógnita a calcular.
4.2 Descripción estadística de la muestra
Una vez recogidos los datos, se quiere realizar una descripción estadística de
éstos, y para ello se realizan una serie de operaciones con el objetivo de obtener
las cantidades y frecuencias de cada una de las categorías de cada variable,
generar algunas gráficas y validar los datos referentes a SNPs.
También se quiere tener, en el caso de haber polimorfismos y fenotipos entre los
factores de estudio, todas las muestras resultantes de filtrar por cada una de las
categorías y, si se trata de más de un fenotipo, todas las posibles combinaciones
de sus categorías. Como la cantidad de información que se puede generar en caso
de seleccionar varios fenotipos junto con algún polimorfismo es enorme, la
interfaz de usuario deberá resolver cómo dejar elegir al usuario cuales son las
muestras quieren tenerse en cuenta y cuales no.
4.2.1 Descripción de datos fenotípicos
Los valores fenotípicos pueden ser de tipo cuantitativo o cualitativo, sin embargo
en los estudios de asociación que se realizan en ASSIST se requieren datos
cualitativos, es decir, categorías. La elección de estas categorías puede ser crítica
para realizar un buen estudio de asociación. El investigador debe jugar con los
rangos de valores y muchas veces buscar un compromiso entre el número de
categorías, el significado que se tiene en mente para cada categoría y los datos
de los que se dispone. Por ejemplo, en un factor de estudio como cigarrillos por
día podría tener sentido para un médico definir 2 categorías: fumador y nofumador, mientras que posiblemente para otro médico tenga sentido definir 3 o
más categorías: no-fumador, ocasional, poco, mucho,… Una vez definidas las
categorías hay que definir los rangos para cada una de ellas: no-fumador: 0,
ocasional: 1-5, poco: 6-15, mucho: 16-infinito. También hay que inspeccionar los
datos, ya que es posible que en los datos disponibles hayan categorías con 0
elementos, y que por tanto puedan estropear el estudio de asociación. En ese
caso, tal vez habría que plantearse si las categorías pueden ajustarse o si las
categorías son correctas pero los datos son malos.
Debido a que los criterios de cada médico o investigador pueden ser diferentes,
en ASSIST es el propio usuario quien decide las categorías que quiere crear.
Tanto para las variables cuantitativas como cualitativas, el módulo estadístico
genera las cantidades y frecuencias para las categorías de dicha variable. En el
caso de las cuantitativas el módulo estadístico debe clasificar previamente los
valores en las categorías correspondientes y, tras obtener las cantidades y
frecuencias de cada categoría, calcula la media aritmética y la desviación típica.
4.2.2 Descripción de datos genéticos
Tal y como se comentó en el apartado referente a los factores de estudio
utilizados en ASSIST, se tienen 2 tipos de polimorfismos: Indel y SNP.
En el caso de los polimorfismos de tipo Indel el módulo estadístico tan sólo
genera las cantidades y frecuencias para los 2 posibles valores (Wt,null).
En el caso de los polimorfismos de tipo SNP se hacen bastantes más cosas. Como
se ha comentado antes, el dato que se recibe es traducido a un genotipo. Por otro
lado, se dispone del identificador del SNP en dbSNP (rsId). Con estos 2
elementos, se realiza la siguiente descripción de la muestra para cada SNP:






Se calculan las cantidades y las frecuencias de los genotipos.
Se calculan las cantidades y las frecuencias de los alelos
Se comparan los alelos y genotipos observados con los de dbSNP.
Se comparan las frecuencias genotípicas y alélicas observadas con
las de dbSNP
Se obtienen algunos datos más acerca del SNP de dbSNP
Se comprueba si la muestra se ajusta al equilibrio de HardyWeinberg
Figura 3. Especificación de la interfaz de usuario relativa a la descripción de
datos genéticos
Para obtener los datos de dbSNP se guardan en disco los documentos XML
obtenidos de dbSNP utilizando la opción FREQXML. Esta opción devuelve, entre
muchos otros datos, las frecuencias genotípicas y alélicas para dicho SNP en
varias poblaciones, así como las frecuencias medias ponderadas de todas las
poblaciones incluidas en el documento. De este documento también se extraen
algunos datos descriptivos del SNP:
-
Alelos observados
Cromosoma
Posición
Gen en el que se encuentra (identificador y símbolo)
Los datos de cromosoma, posición y gen dependen del ensamblaje que se utilice.
En ASSIST se usan los datos del ensamblaje de referencia y se descartan los
datos de otros ensamblajes (Celera, HuRef, etc.). Los distintos ensamblajes
normalmente coinciden en el cromosoma y el gen, pero difieren en la posición
dentro del cromosoma.
Para cada muestra y cada SNP se realiza un test de Chi-cuadrado y un test G
entre las frecuencias genotípicas observadas y las esperadas según la Ley del
equilibrio de Hardy-Weinberg. Como en todo test de Chi-cuadrado, también se
calcula la potencia estadística asociada a dicho test.
4.2.3 Representación gráfica de cantidades y frecuencias
Una vez el módulo estadístico recibe los datos, éste genera un conjunto de
gráficas que pretenden mejorar la legibilidad y hacer más agradable la interfaz de
usuario. En concreto, se genera un histograma para las cantidades que registran
las categorías de una variable en una muestra y una gráfica de tipo tarta
(piechart) para las frecuencias de una variable en una muestra.
Figura 4. Representación gráfica de una variable en una muestra. a)
Representación de las frecuencias mediante un piechart. b) Representación de las
frecuencias mediante un histograma.
También se genera un histograma en el que aparecen las cantidades de cada
categoría de una variable para todas las muestras, permitiendo de esta manera
comparar visualmente las diferencias entre varias muestras, como por ejemplo
entre casos y controles.
Figura 5. Representación gráfica de una variable en dos muestras (casos y
controles)
4.3 Tests de asociación caso-control
En ASSIST el diseño de los estudios de asociación para una variable es de tipo
caso-control. Este tipo de estudios son idénticos a los usados en epidemiología
clínica y consisten en determinar la frecuencia de una variante de DNA en
individuos afectados por una enfermedad (casos) y aquellos no afectados
(controles). En estos estudios es necesario conocer algo de la enfermedad de tal
manera que pueda utilizarse en las hipótesis como factor de riesgo una posible
variación en uno o más genes. En el caso de ASSIST, los polimorfismos
mencionados anteriormente han sido seleccionados por expertos en cáncer
cervical.
Este tipo de estudio es económica y estadísticamente eficiente pero
potencialmente susceptible de sesgo si los casos y los controles en realidad no
son comparables. También es importante usar cuidadosamente muestras
extraídas de una población homogénea y disponer de bastantes casos y controles.
Para saber si se dispone de bastantes sujetos se puede hacer un análisis de la
potencia estadística.
En estos test de asociación para una sola variable se quiere determinar si la
frecuencia observada de un fenómeno es significativamente igual a la frecuencia
teórica prevista, o sí, por el contrario, estas dos frecuencias acusan una diferencia
significativa para, por ejemplo, un nivel de significación del 5%. Los tests
estadísticos utilizados son el test chi cuadrado de Pearson y el test G. En ambos
tests el resultado es un valor P calculado a partir del respectivo estadístico y los
grados de libertad del test. Este valor es la probabilidad de que la hipótesis nula
sea correcta. Por tanto, si se tiene un valor P muy pequeño, típicamente inferior a
0.05 (α), la hipótesis nula es rechazada, lo cual indica una posible asociación.
4.3.1 Estudios de asociación para datos fenotípicos
Para cada factor de estudio no genético se realiza un test chi-cuadrado y un test
G. Los grados de libertad dependerán del número de categorías que tenga el
factor de estudio para el cual se quiere encontrar una asociación. La hipótesis
nula es que las frecuencias de los casos son similares a las de los controles. Por
defecto, se usa como α 0.05. También se calcula el RR y el OR. La potencia
estadística a posteriori es calculada para el test de chi-cuadrado.
4.3.2 Estudios de asociación para datos genéticos
Además de realizar un estudio de asociación para el conjunto de los datos
genéticos, se pueden realizar todos los estudios de asociación posibles filtrando
por todas las categorías de todos los fenotipos escogidos para el estudio de
asociación.
Tanto los SNPs, el polimorfismo electroforético, se analizan del mismo modo, es
decir, se efectúa un test chi-cuadrado, un test G, el cálculo de la potencia
estadística del test chi-cuadrado, el cálculo del OR con su intervalo de confianza y
el RR.
Hay 2 informaciones genéticas distintas que deben ser analizadas: alelos y
genotipos. Para los alelos, al igual que para los datos no genéticos, se realiza un
test chi-cuadrado, un test G, se calcula el RR y el OR. Para los genotipos, se
contemplan 3 modelos de acción génica. Si las 2 copias no son idénticas
(heterocigoto), su efecto combinado podría ser diferente al efecto de tener 2
copias idénticas de uno de los alelos. Si el efecto combinado es el mismo que el
efecto de tener 2 copias de uno de los alelos, entonces se dice que el efecto del
alelo es dominante sobre el otro.
Figura 6. Especificación de la interfaz de usuario relativa a un estudio de
asociación entre un factor de estudio genético (polimorfismo MTHFR C677T) y
cáncer cervical. Los individuos seleccionados para el estudio son solo aquellos
tales que el factor de estudio Smoking Status sea positivo.

Codominancia: En codominancia ningún fenotipo es dominante sobre el
otro. Sin embargo, los individuos heterocigotos expresan ambos fenotipos.

Dominancia: Un alelo dominante que siempre que está presente se expresa
totalmente, independientemente de que el otro alelo pueda ser diferente.

Recesividad: Se da cuando un alelo sólo se expresa cuando ambos alelos
son el mismo.
Las tablas anteriores han sido extraídas del documento de especificación de la
interfaz de usuario. Las tablas contendrían estos datos:
Alleles
Control
Subjects
Case
subjects
Odds Ratio (95%
CI)
Risk Ratio
C
48 (41.7%)
53 (44.1%)
1.00
XX.XX
T
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
Model
Codominant
Control
Genotypes Subjects
Case
subjects
X^2
P-value
1.75
0.70
Odds Ratio (95%
CI)
Risk Ratio
C/C
48 (41.7%)
53 (44.1%)
1.00
XX.XX
C/T
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
Power
Log Linear
56%
1.72
X^2 P-value
1.75
0.70
P-value
0.72
Power Log Linear
56%
1.72
P-value
0.72
Dominant
Recessive
T/T
14 (12.2%)
13 (10.8%)
0.88 (0.09-8.23)
XX.XX
C/C
48 (41.7%)
53 (41.7%)
1.00
XX.XX
C/T-T/T
67 (58.3%)
67 (55.8%)
0.87 (0.22-3.45)
XX.XX
C/C-C/T
101 (87.8%)
107 (89.1%)
1.00
XX.XX
T/T
14 (12.2%)
13 (10.8%)
0.90 (0.11-7.80)
XX.XX
1.50
0.80
61%
1.45
0.85
2.2
0.45
61%
2.1
0.47
Figura 7. Corrección de las tablas incluidas en la figura 6. Las siguientes tablas
incluyen la potencia estadística para cada tabla de asociación, a la vez que
añaden un p-value para cada estadístico (chi-cuadrado y G)
4.4 Tests de hipótesis multivariable
Para probar una hipótesis sobre la enfermedad en la que interviene más de un
factor de estudio se utiliza la regresión logística. La regresión logística es una útil
manera de describir la relación entre uno o más factores de estudio con una
enfermedad, la cual toma 2 posibles valores, enfermo o sano (caso o control).
La fórmula general es:
, donde:
- Y es la variable dependiente binaria (caso=1 ó control=0)
- xi son los factores de estudio (también binarios, valen 1 ó 0)
- βi son los coeficientes que significan como de importante el factor de estudio es
en la aparición de la enfermedad.
- El logit es el logaritmo del odds para p, por tanto
log(OR) = logit(p) – logit(q) , y el OR puede ser calculado
Una vez el modelo ha sido construido (la hipótesis definida), se puede probar con
nuevos conjuntos de datos para evaluar la hipótesis
En caso de que los factores de estudio tengan más de 2 categorías habrá que
redefinir el concepto, creando tantos nuevos factores de estudio como categorías
tenía antes. Estos nuevos factores de estudio serán binarios.
4.5 Ontología estadística
La ontología estadística define los conceptos a través de los cuales se realizan las
peticiones al módulo estadístico. Se le llama ontología estadística porque es
utilizada en las interacciones con el módulo estadístico pero no porque sólo
contenga conceptos estadísticos, ya que contiene conceptos de genética y alguna
otra definición destinada a facilitar la representación gráfica de la información.
 TIPOS
Los tipos definen el significado de los conceptos que se utilizan durante la
comunicación con el módulo estadístico. A continuación se presentan en secciones
para facilitar situar el concepto en un contexto e intentar hacer más fácil su
comprensión.
DESCRIPCIÓN
El tipo range_type define una categoría. El nombre de la categoría viene dado por
study_factor_value y, en caso de ser una categoría perteneciente a una variable
cuantitativa, el rango de valores que clasifica.
El polymorphism_type contiene, además del identificador en ASSIST, el tipo de
polimorfismo del que se trata y los datos obtenidos de dbSNP
El phenotype_type define un fenotipo. Por fenotipo se clasifica en este caso toda
variable no genética. Se almacena el identificador en ASSIST, el tipo de fenotipo
(cuantitativo o cualitativo) y una descripción.
En power_analysis_type aparecen todos los datos que intervienen en un análisis
de la potencia estadística: alpha (grado de significación), df (grados de libertad),
effect_size (tamaño del efecto), power (potencia estadística), total_size (tamaño
de la muestra).
El tipo hw_test_type contiene las frecuencias genotípicas observadas y esperadas,
y los tests chi-cuadrado y G (loglinear).
En study_factor_stats_type se almacenan la cantidad y la frecuencia para una
categoría de un factor de estudio.
El tipo domain_filter_type contiene la categoría de un fenotipo utilizada para
filtrar una muestra.
El tipo polymorrphism_stats_by_sample contiene la descripción de un
polimorfismo para una muestra.
El tipo phenotype_stats_by_sample_type contiene la descripción de una variable
no genética para una muestra
En el tipo sample_type contiene, además del identificador y el tamaño, las
descripciones de un conjunto de variables para una muestra.
ASOCIACIÓN
En test de asociación se incluyen los parámetros de entrada (grados de libertad y
el estadístico) y la probabilidad. También puede haber un análisis de la potencia
estadística si el test de asociación utiliza el estadístico chi-cuadrado.
El tipo simple_association_table_row_type ha sido diseñado exclusivamente para
ser fácilmente representado desde una interfaz de usuario, pero no tiene un
significado completo autoexplicativo. Este tipo contiene todos los datos
correspondientes a una fila de una tabla que represente los resultados de un
estudio de asociación.
Al igual que simple_association_table_row_type, el tipo
simple_association_table_type ha sido diseñado exclusivamente para ser
fácilmente representado desde una interfaz de usuario. Este tipo contiene todos
los datos correspondientes a una tabla que represente los resultados de un
estudio de asociación
GRÁFICOS
El tipo graphic_value_type es utlizado para las representaciones gráficas, y
contiene el valor real (xy_value) para una categoría (x) que podría estar siendo
representada para varias muestras (y).
En piechart_type se almacenan los datos que describen un gráfico de tipo tarta
(piechart)
Histogram_type contiene los datos utilizados para caracterizar un histograma, así
como una referencia al gráfico generado (url).
 SERVICIOS
Los servicios definen las preguntas que el módulo estadístico sabe responder y
cómo va a ser la respuesta.
Recomendación del tamaño de la muestra:
Petición
Se espera el identificador del factor de estudio, el número de categorías de dicho
factor de estudio (para calcular los grados de libertad), el efecto deseado y la
potencia estadística mínima a la que se quiere llegar
Respuesta
La respuesta consiste en un análisis de la potencia estadística
Descripción de los datos:
Petición
Se espera un número indeterminado de polimorfismos y/o fenotipos. El
parámetro session_path se ha incluido durante la integración del módulo dentro
del sistema. Posiblemente desaparezca en un futuro.
Respuesta
La respuesta consiste en 2 muestras, casos y controles, y cada una de ellas
contiene para cada factor de estudio su descripción en esa muestra. Si hay algún
SNP como factor de estudio puede haber otra muestra llamada NCBI, la cual
contendrá sólo la descripción de los factores de estudio de tipo SNP obtenida de
dbSNP.
También se devuelven los factores de estudio de entrada, algunos de ellos con
información complementaria. En el caso de los SNPs se incluyen algunos datos
extraídos de dbSNP (cromosoma, posición, ensamblaje, alelos observados, etc.).
En el caso de los fenotipos cuantitativos se añaden la media aritmética y la
desviación estándar.
Por último se incluye un histograma para cada factor de estudio, el cual muestra
información relativa a todas las muestras incluidas.
Estudio de asociación:
Petición
Se espera la respuesta dada anteriormente en la descripción de datos, excepto
los histogramas y la información del NCBI.
Respuesta
La respuesta consiste en un conjunto de tablas de asociación, tanto para
fenotipos como para polimorfismos.
5. Discusión
5.1 Archivos médicos
En la actualidad los esfuerzos para llevar acabo estudios de asociación obliga a
organizar los datos de una manera uniforme y siguiendo un vocabulario estándar.
En ASSIST se ha conseguido mediante la implementación de una ontología núcleo
(core ontology), mediante la cual se expresan los datos provenientes de varios
hospitales. La transformación de los datos brutos provenientes de los hospitales
en datos entendibles por el sistema tiene un coste y, según el tipo de estudios
que se quieran llevar a cabo, la estimación de ese coste resulta imprescindible
para el éxito o fracaso del sistema.
En ASSIST se optó inicialmente por utilizar técnicas de inferencia semántica para
traducir los datos brutos a datos expresados en términos de la ontología núcleo.
Esta solución está demostrando ser ineficiente para recuperar grandes volúmenes
de datos. Actualmente el sistema de recuperación de datos puede tardar horas en
recuperar los datos de unos cuantos cientos de pacientes para los cuales se
quieran realizar estudios de asociación utilizando 6 factores de estudio genéticos.
Sin realizar un modelo de la complejidad es difícil expresar como crece el tiempo
de búsqueda de los datos en función del volumen de datos deseados y el número
de factores de estudio, sin embargo, es fácil notar empíricamente que el
crecimiento no es de orden lineal, sino mucho mayor, lo cual invalida en gran
medida la aproximación adoptada.
Tal vez sea por una desacertada implementación de las reglas semánticas de
inferencia o, como es muy posible, la estimación de la complejidad y coste de
esta solución ha sido incorrecta, y por tanto la solución inviable.
A favor de la utilización de reglas de inferencia semánticas hay que decir que:
1. Permite recuperar en todo momento los datos disponibles para hacer un
estudio de asociación, porque no se realiza una traducción masiva cada cierto
tiempo, sino que se traducen bajo demanda todos aquellos datos almacenados en
las bases de datos de los hospitales.
2. Tecnológicamente innovadora, pues son pioneros en la utilización de estas
técnicas aplicadas a las ciencias de la vida.
Otro punto interesante es el intercambio de información con otros orígenes de
datos, como podrían ser hospitales u otros proyectos similares. ASSIST
actualmente no contempla intercambiar datos y, teniendo en cuenta el gran
crecimiento que experimentan tanto las bases de datos públicas de polimorfismos
como los proyectos de asociación a gran escala, de esta manera se limita en gran
medida la capacidad de realizar estudios de asociación con suficiente potencia
estadística para ser interesantes. Este problema queda reforzado por el hecho de
disponer de pocos datos genéticos relativos al cáncer cervical en los hospitales.
Esta incomunicación podría resolverse utilizando realizando una traducción a un
formato estándar, como podría ser PML (Polymorphism Markup Language). Esta
traducción no debería ser excesivamente complicada, pues es un estándar creado
por un comité de expertos y los datos que se manejan son del mismo tipo. Sin
embargo este planteamiento solo hubiera sido válido al inicio del proyecto,
cuando se ha de realizar la planificación de tareas.
5.2 Genética, estadística y sistemas de información
El creciente interés por los estudios de asociación a gran escala hace que
disciplinas totalmente alejadas, como la genética, la estadística y la informática
tengan que utilizarse conjuntamente. En el momento en que no se presta
suficiente atención a una de ellas la probabilidad de fracaso del proyecto se crece
significativamente.
El papel de la genética es crucial, pues la información que se maneja, así como
las conclusiones a las que se llega están en su dominio. Los genetistas son
quienes, por ejemplo, pueden identificar qué datos hay que analizar y están
mejor preparados para interpretar los resultados en términos genéticos. Sin
embargo, a la hora de realizar estudios de asociación un genetista necesita
realizar tests estadísticos, y es aquí donde el perfil del estadístico entra, al saber
cómo diseñar un estudio de asociación entre variables cualitativas, refinar los
análisis o proponer nuevas técnicas. Y finalmente ni los estadísticos ni los
genetistas podrían abordar ningún estudio de asociación sin un sistema de
información que lo respalde, tanto en el almacenamiento de la información como
en la realización de cálculos y tratamiento de grandes volúmenes de información.
Es por ello que el control, o al menos el seguimiento, de un proyecto como
ASSIST debe estar en manos de un grupo de personas pertenecientes a estas
disciplinas. En el caso de ASSIST, un proyecto europeo perteneciente a la
categoría de las tecnologías de la información enfocado a solucionar un problema
de ciencias de la vida, se ha puesto más interés y recursos en investigar y
solucionar temas de ingeniería informática que en los estudios de asociación
propiamente.
6 Conclusiones
1. Se ha implementado un módulo estadístico que permite realizar:
a) Estimación de la cantidad de datos necesaria en un estudio de asociación.
b) Descripción estadística de datos genéticos y estadísticos.
c) Estudios de asociación caso-control entre factores genéticos y fenotípicos.
d) Validación de hipótesis respecto a la enfermedad que involucren a más de una variable
2. La inferencia de datos a través de los mecanismos proporcionados por la ontología del
núcleo proporciona una gran cantidad de datos expresados en un vocabulario común
(ontología), sin embargo esa inferencia tiene un alto precio en cuanto a recursos utilizados y
tiempo de recuperación de los datos.
3. El sistema ha sido probado por los usuarios con éxito, teniendo en cuenta que aún no está
finalizado y falta trabajo por hacer, especialmente en la interfaz de usuario y en la
recuperación de datos.
4. Se baraja la posibilidad de incluir a nuevos hospitales en el proyecto, intentando de esta
manera incrementar el volumen de datos.
5. Los hospitales disponen de muy pocos datos genéticos de sus pacientes. En parte se debe a
que los polimorfismos de interés varían según la enfermedad sobre la que se quiera
investigar, de manera que un hospital difícilmente guardará información acerca de los
polimorfismos de interés para, en este caso, el cáncer cervical.
6. Este tipo de proyectos requieren de varias disciplinas muy alejadas hasta ahora, como son la
genética, la estadística y las tecnologías de la información. Todos los flancos son
importantes, por lo que el control, o al menos el seguimiento, de un proyecto como este
debería estar en manos de un grupo de personas pertenecientes a estas disciplinas.
7. Al ser un proyecto europeo perteneciente a la categoría de las tecnologías de la información
se ha puesto más interés en investigar y solucionar temas de ingeniería informática que en
los estudios de asociación propiamente.
Bibliografía
Rosner B., “Fundamentals of Biostatistics”. Duxbury Press; 6th edition (Febrero
de 2005)
The Wellcome Trust Case Control Consortium, “Genome-wide association study of
14,000 cases of seven common diseases and 3,000 shared controls”. Nature
Publishing Group (2007)
Venables W. N., Smith D. M. and the R Development Core Team “An Introduction
to R” (Julio de 2008, en línea) http://cran.r-project.org/doc/manuals/R-intro.pdf
Sokal R. R., Rohlf F. J., “Introduction to Biostatistics”. W.H. Freeman & Company;
2nd edition (Marzo de 1987)
Gordon D., Finch S. J., “Factors affecting statistical power in the detection of
genetic association”. The Journal of Clinical Investigation, Volume 115, Number 6
(Junio de 2005)
Lloyd D. Fisher, Gerald Van Belle, “Biostatistics, a Methodology for the Health
Sciences”. Wiley-Interscience publication (1993)
Documentos de ASSIST
ASSIST D.4.2
Deliverable 6.3
User interface specification, version 3.0
R in ASSIST
APÉNDICE A: DELIVERABLE 6.3
APÉNDICE B: R IN ASSIST
Descargar