RECONSTRUCCIÓN Y ANÁLISIS DE REDES REGULATORIAS MULTIPLEX APLICADAS AL ANÁLISIS DE DATOS DE EXPRESIÓN DE CÁNCER Y ALZHEIMER Estudiante: TAYSSIR YOUSEF MARTÍN MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III 2014-2015 CENTRO/EMPRESA: CNIO DIRECTOR DE LA TÉSIS: VERA PANCALDI CODIRECTOR DE LA TÉSIS: MIGUEL PONCE DE LEÓN FECHA: FEBRERO - 2016 Resumen El objetivo principal del presente estudio es el de construir un modelo de red de interacción de proteínas y factores de transcripción, empleando para células de humanos el concepto de multiplex. Las redes multiplex son sistemas multicapa consistentes en una serie de nodos distribuidos e interconectados en varios niveles y donde los nodos de cada nivel comparten el mismo tipo de interacción entre cada par de nodos, y a su vez un mismo nodo puede encontrarse en más de una capa. La motivación para construir este modelo es usarlo como escenario para poder interpretar datos de expresión con una aproximación más sistémica. Otra de las principales motivaciones para el uso del multiplex es que información relevante podría no ser capturada si las capas se analizaran de manera independiente [1]. Para el presente caso se busca la integración en el multiplex de la red de interacción proteína-proteína (PPI) PINA2 [2] y de una red de regulación transcripcional construida combinando las bases de datos TRRUST [3] y una red, aún no publicada, reconstruida por Leitner et al. (FL) [4]. Con el análisis de dicha red multicapa, al que nos referiremos como multiplex, buscamos identificar ciertas propiedades estructurales que nos permitan evaluar la influencia de cada capa cuando estemos tratando muestras tumorales y su comparación con casos no tumorales. Para ello, nos basaremos en un estudio previo realizado por Ibáñez et al. [5]. En dicho trabajo se construye una red de interacción proteína-proteína curada partiendo de otras redes (PINA, HIPPIE y HPRD) y se define una función de energía entre vecinos de la red que mide la estabilidad de la red en términos de alteraciones y perturbaciones. Una conclusión significativa de este trabajo es que las redes que contienen información de expresión de cuatro tipos de cánceres (ovario, colon, riñón e hígado) son menos estables que las redes de control de muestras normales no tumorales. También se descubre que las redes que contienen datos de expresión de pacientes con Alzheimer son más estables que las redes de control. En el presente estudio se busca extender estos resultados previamente obtenidos por Ibáñez et al. [5] para una red PPI en el caso de un multiplex. De esta manera se tendrán en cuenta otras capas que operan en la célula (en este trabajo hemos construido el multiplex añadiendo a la red PPI una capa de regulación transcripcional). Palabras clave: cancer; multiplex; alzheimer; ppi; factor de transcripción; redes Página 2 de 43 Tabla de Contenidos Resumen................................................................................................2 Tabla de Contenidos...............................................................................3 Capítulo 1. Introducción…......................................................................4 Capítulo 2. Materiales y Métodos….......................................................9 Capítulo 3. Resultados…......................................................................13 Capítulo 4. Discusión…........................................................................28 Capítulo 5. Conclusiones y Perspectivas..............................................31 Referencias….......................................................................................32 Anexo A. Teoría de Grafos…................................................................34 Anexo B. Bases de Datos y Scripts…...................................................36 Anexo C. Datos de Expresión…...........................................................40 Página 3 de 43 Capítulo 1. Introducción Muchos sistemas complejos se pueden representar por medio del formalismo de la teoría de grafos [Anexo A: Teoría de Grafos]. Estos sistemas suelen estar formados por un número elevado de componentes elementales que interactúan entre ellos, pudiendo existir también interacción con el entorno. Las interacciones tienen por lo general un comportamiento dinámico, es decir, la estructura de las redes y sus propiedades varían con el tiempo cuando se añaden o se quitan elementos. Algunos ejemplos de red compleja tecnológica incluyen la internet, las redes electricas, o las redes de transporte entre aeropuertos [25]. Acorde con el concepto de red compleja, se podría definir como una red de routers conectados por líneas físicas. El cerebro se definiría de esta manera como un sistema complejo también en que una red de neuronas se conectan por medio de sinapsis. Si este concepto lo trasladamos al campo de la biología de sistemas nos encontramos multitud de ejemplos de redes complejas como son las redes de interacción entre proteínas, las redes de regulación génica, las reacciones bioquímicas que constituyen el metabolismo celular y a mayor escala las redes tróficas dentro de un ecosistema [26]. Las redes complejas tienen una serie de propiedades estructurales que son claramente diferentes a las de una red aleatoria (la distribución de grados, el coeficiente de agrupamiento de la red, el diámetro, etc). El estudio topológico de estas redes puede describirse mediante la teoría de grafos. Según esta teoría, se define un grafo como un conjunto de objetos llamados nodos unidos mediante enlaces llamados aristas. De hecho, la teoría de grafos ha sido utilizada recientemente para clasificación automática de secuencias de proteínas, detección de jerarquías de proteínas o análisis de redes genéticas, entre otras aplicaciones [27]. Para entender cómo funcionan las redes complejas es preciso describir aquellas características más importantes y que son comunes a todos los sistemas complejos: Suelen estar compuestas por muchos elementos relativamente parecidos que interactúan entre sí. Las interacciones entre sus elementos son locales, aunque originan comportamientos emergentes de mayor complejidad que no pueden explicarse simplemente tomando los elementos de manera aislada [8]. Dado el gran número de componentes e interacciones entre los mismos, los sistemas complejos exhiben propiedades emergentes, de tal manera que es muy complicado describir el efecto global en el sistema ante una perturbación local de un componente. Por ejemplo, en el caso de las de redes de interacción entre proteínas, se revela la conectividad de un proteoma dado un contexto celular concreto. Estas redes de interacción son dinámicas, cambian en el tiempo y en el espacio para amoldarse a las diferentes condiciones fisiológicas. Una posible aplicación es la captura de los cambios en la conectividad de las proteínas según avanza cierta enfermedad [9]. Un tipo de relaciones con las que vamos a trabajar son las denominadas redes de interacción entre proteínas (PPIs) donde los nodos son proteínas unidas por una relación de interacción física. Las proteínas cumplen multiples roles dentro de una célula (reconocimiento, catálisis, etc) pudiendo interactuar con otros componentes celulares como ácidos nucleicos, Página 4 de 43 pequeños metabolitos y otras proteínas, para así constituir subsistemas moleculares que permitan a la maquinaria celular elaborar multitud de funciones, interviniendo por ejemplo tanto como catalizadores de reacciones como en procesos de señalización y regulación. Figura 1. Red de interacción para la proteína TP53 utlizando la herramienta STRING database, (http://string-db.org, base de datos de interacciones entre proteínas). Por simplicidad, en la figura sólo se muestran hasta 12 proteínas que interactúan con TP53. En el caso de redes de regulación génica, los nodos de la red serían por un lado los factores de transcripción (TF) y por otro los genes a los que regulan y los enlaces son las relaciones de regulación. Un TF es una proteína que participa en la regulación de la transcripción del DNA. Los TF pueden actuar reconociendo y uniéndose a secuencias concretas de DNA (ver Figura 2), uniéndose a otros factores, o uniéndose directamente a la RNA polimerasa. En la Figura 2 se muestra la función principal de los TF a la hora de iniciar el proceso de transcripción de un gen. La RNA polimerasa requiere la presencia de TF para poder comenzar la transcripción de un gen. Las interacciones que ocurren entre los TF, la RNA polimerasa y el promotor permiten a la RNA polimerasa moverse a lo largo del gen produciendo la síntesis de mRNA. Los TF pueden inhibir también la expresión de un gen de diversas maneras, por ejemplo bloqueando la unión de la RNA polimerasa al promotor. Página 5 de 43 Figura 2. Diagrama que muestra los elementos que intervienen en el proceso de transcripción del mRNA(http://biowiki.ucdavis.edu/Textbook_Maps/OpenStax_Biology/3%3A_Genetics/16%3A_Gene_Expre ssion/16.4%3A_Eukaryotic_Transcription_Gene_Regulation) Los TF son estimulados por señales citoplasmáticas de tal manera que cuando se activan adquieren la capacidad de regular la expresión génica, bien activando, bien reprimiendo la transcripción de diversos genes. Ocurre además que ciertos TF pueden sufrir mutaciones que los mantienen continuamente activos sin necesidad de señales externas (por ejemplo, como sucede con algunos oncogenes), estimulando sin control la síntesis de proteínas implicadas en la regulación del ciclo celular. Esto puede dar lugar al crecimiento incontrolado de las células y por tanto a un tumor. El conocimiento de estas interacciones resulta de vital importancia en el estudio del origen de múltiples enfermedades. De hecho la base de ciertas enfermedades estriba muchas veces en la aparición o supresión de interacciones entre proteínas que no se esperan, como ocurre en los casos de Alzheimer (AD) y cáncer que serán nuestro principal objeto de estudio. Figura 3. Diagrama que muestra las diferentes etapas de regulación génica (https://en.wikipedia.org/wiki/Regulation_of_gene_expression#/media/File:Gene_expression_control.png) Tal y como se muestra en Figura 3, existen diferentes etapas que pueden regular la expresión de un gen. De hecho los TF pueden intervenir en diferentes etapas de la regulación de la expresión celular, ya sea uniéndose a promotores facilitando la transcripción o bloqueando la RNA polimerasa inhibiendo la transcripción. Por ello en el multiplex que se diseñará, los TF Página 6 de 43 tendrán un rol muy importante tanto en las interacciones a nivel regulatorio como en las interacciones proteína-proteína. El objetivo del presente trabajo es la creación de un multiplex que incluya una capa de red de interacción de proteínas y una capa de regulación génica. A su vez, este modelo será empleado para el análisis de datos de expresión. Las dos capas que utilizaremos serán por un lado una red de interacción PPI (PINA2 [2]) y por otro una red de regulación transcripcional compuesta por factores de transcripción y genes a los que regulan (red combinada entre TRRUST [3] y la red generada por Leitner et al. [4]). Una vez que tengamos los datos de expresión proyectados sobre las redes estudiaremos las propiedades del multiplex que se expresa en distintos estadios celulares. Así en el caso de que una proteína no esté expresada en cierta condición, producirá que todas las interacciones que tiene con el resto de nodos de la red aparezcan también desactivados. El estudio de la estabilidad de dichas redes a través de una expresión para el cálculo de energía (ver Capítulo 2. Materiales y Métodos – Método para el cálculo de la estabilidad), nos permitirá establecer diferencias y similitudes entre los diferentes tipos de muestras y tejidos que serán objeto de análisis. Otra de las métricas que utilizaremos será el coeficiente de agrupamiento de cada red, el cual se calculará tanto en muestras tumorales como en las no tumorales. Este parámetro puede ser útil para la evaluación de la organización de complejos proteicos o también, por ejemplo, para el estudio de la agrupación de proteínas involucradas en el mismo proceso de señalización. Según ciertos estudios las proteínas esenciales, las cuales son importantes para la supervivencia celular, están altamente conectadas de tal manera que cualquier tipo de alteración en las mismas produce grandes efectos en la red de interacción [10]. Por otro lado existen diversos trabajos de investigaciones que han estudiado la relación existente entre la topología de la red y la esencialidad de la proteína, y argumentan que los nodos más conexos (hubs) forman parte de complejos esenciales. De esta forma las proteínas esenciales tienden a tener más interacciones conforme estos complejos sean mayores [11]. Paralelamente en el caso del cáncer, se cree que las proteínas relacionadas con el origen de dicha enfermedad, corresponden a los hubs centrales de la red, los nodos con mayor grado en la red [12]. Y más en concreto para el caso de cáncer de pulmón, nos encontramos con que los genes que están diferencialmente expresados tienen una mayor centralidad que aquellos que no lo están o aquellos elegidos de manera aleatoria [13]. Todos estos estudios muestran indicios de que hay ciertas propiedades estructurales de las redes de interacción (por ejemplo centralidad, número de interacciones) que capturan ciertas características de la organización funcional y el comportamiento celular (esencialidad). Si creamos un multiplex, quizás seamos capaces de elucidar más información por medio de un análisis topológico de las diferentes capas de la red. El enfoque que se ha dado en este trabajo para estudiar la influencia de cada capa del multiplex en la estabilidad celular estará basado en el concepto de Simulated Annealing inspirado por los autores Kirkpatrick & Vecchi [14] y Cerny [15]. Este procedimiento permite encontrar el mínimo global de una función genérica de coste. Reproduce la manera en la que un sólido alcanza su configuración de energía mínima a través de un proceso lento de enfriamiento. En este estudio se ha utilizado una versión modificada, y será la misma que la utilizada por Ibáñez et al. [5] donde se calcula la energía basada en las interacciones existentes y la diferencia de energía entre dos estados (caso y control). En ese mismo estudio, se afirma que las redes PPI expresadas en células de cáncer son más inestables que aquellas relacionadas con enfermedades neurológicas. Se argumenta en dicho trabajo que puede ser debido a que hay más interacciones activas entre las proteínas relacionadas con cáncer y de este modo un cambio o mutación de cualquiera de ellas puede provocar una desestabilización de la red. Por contra, las proteínas que corresponden a genes afectados en trastornos neurológicos tienen un menor número de conexiones activas y son menos susceptibles a la desestabilización. Existen otros estudios en los que se indica que la Página 7 de 43 frecuencia de desarrollar cáncer en general con el tiempo es significativamente menor en pacientes con Alzheimer, mientras que en pacientes con un historial de cáncer existe menor frecuencia de desarrollar Alzheimer. De hecho es conocido que en el cáncer, los mecanismos de regulación celular se ven afectados con un aumento de la supervivencia y/o proliferación celular, mientras que por contra, el Alzheimer está asociado con un incremento de la muerte neuronal [6], [7]. En cuanto a la reconstrucción de las redes de regulación, nos encontramos que uno de los métodos que se utilizan en la actualidad es ChIP-seq, un método donde se combina inmunoprecipitación por cromatina con secuenciación masiva del ADN para identificar los sitios de unión de los factores de transcripción al ADN. El peak calling es el método computacional usado para identificar las áreas del genoma que han sido enriquecidas con lecturas alineadas como consecuencia de hacer un ChIP-seq. Estas áreas son aquellas donde las proteínas interaccionan con el ADN. Sin embargo estos métodos carecen de la precisión y cobertura adecuadas incluso fallando en casos de eventos de regulación ya conocidos produciendo falsos positivos. Esto es debido a que el proceso es muy complicado y hay que realizar mucha interpretación para poder sacar regulación funcional a partir de una masa de picos y de sitios de unión. ChIP-Seq sirve para detectar eventos de asociación TF-ADN, pero la unión directa no puede asegurarse con certeza y hay dificultades identificando ciertos aspectos regulatorios como el gen sobre el que actúa el TF o la direccionalidad [4]. Otro de los métodos comúnmente utilizados para inferir redes de regulación es usando perfiles de expresión de microarrays. Por ejemplo, ARACNE es un método que está basado en la teoría de la información. Mediante el uso del concepto de información mutua se determina la dependencia que existe entre los genes y así se eliminan interacciones indirectas [16]. Para este trabajo se ha utilizado la combinación de dos redes de regulación inferidas por técnicas de text mining. Tanto en la base de datos curada TRRUST [3] como en el método desarrollado por Leitner et al. [4] se extraen explícitamente eventos de regulación transcripcional usando text mining, por lo que la red de regulación resultante es inferida directamente de experimentos a pequeña escala publicados ofreciendo una clara ventaja respecto a los otros métodos mencionados. Como resumen introductorio, destacar que en el presente trabajo se busca extender los resultados de Ibáñez et al. [5] a una red multicapa, para ver si la topología de la red incluyendo la capa de regulación y sus interacciones con la PPI puede cambiar las tendencias reportadas en dicho estudio. Las dos capas que utilizaremos serán por un lado una red de interacción PPI (PINA2 [2]) y por otro una red de regulación generada por medio de técnicas text mining compuesta por factores de transcripción y genes a los que regulan (red combinada entre TRRUST [3] y la red generada por Leitner et al. [4]). Utilizaremos el multiplex creado para analizar sus propiedades estructurales cuando se tiene en cuenta información de expresión (cáncer y Alzheimer). Página 8 de 43 Capítulo 2. Materiales y Métodos Por un lado, tenemos datos relativos a redes de interacción y de regulación que nos servirán para generar las redes, y por otro tenemos datos de expresión. Una vez volcados los datos de expresión sobre cada una de las redes, podremos construir nuestro multiplex y estudiar diferencias/similitudes para cada uno de los casos que se van a tratar. Veamos primero qué datos son de los que partimos para construir el multiplex (redes PPI y de regulación). Redes de Interacción Física Protein Interaction Network Analysis platform (PINA2) La plataforma Protein Interaction Network Analysis (PINA) integra datos de interacción proteína-proteína de seis bases de datos públicas curadas (IntAct, MINT, BIOGRID, DIP, HPRD y MIPS/MPact.) y construye un conjunto de datos de interacciones no redundantes para seis organismos modelos. En nuestro caso utilizaremos la base de datos de Homo sapiens que consta de un total de 166,776 interacciones [2]. Human Interactome Project – CCSB Interactome Database (HI_II) Se han utilizado datos correspondientes a la segunda fase del proyecto de interactoma humano del CCSB (2014), consistente en un conjunto de datos que considera aproximadamente 14,000 interacciones binarias [17]. Al contrario que las interacciones curadas por medio de la literatura en las que existen genes que son descritos en cientos de experimentos mientras que otros aparecen apenas en unos pocos, las interacciones de proteínas descritas en HI_II_14 están distribuidas homogéneamente a lo largo de todo el espacio del interactoma, lo cual disminuye el sesgo experimental considerablemente. Red de Ibañez, Kristina (KI) Esta red ensamblada por Ibáñez et al. [5] está basada en las siguientes bases de datos de interacción entre proteínas: - Protein Interaction Network Analysis - PINA - Human Protein Reference Database - HPRD - Human Integrated Protein-Protein Interaction Reference - HIPPIE Se han seleccionado aquellas interacciones con una puntuación de curación de 0,73 en HIPPIE, para ser más confidente con las parejas de proteínas que interaccionan. Redes de Regulación Génica Se van a utilizar dos redes de regulación transcripcional. Estas redes se caracterizan por indicarnos una relación directa entre factor de transcripción (TF) y gen objetivo (TG) al que regula. De este modo si un factor de transcripción está activado (expresado) tendrá la capacidad de regular la expresión de cierto gen, ya sea activando la transcripción de dicho gen o inhibiéndola. Página 9 de 43 Uno de los métodos más novedosos que se utilizan para enfocar este problema, es el de la reconstrucción de redes regulatorias por medio de técnicas text mining. Dos bases de datos generadas con esta filosofía serán las que utilicemos en este estudio. TRRUST TRRUST (Transcriptional Regulatory Relationships Unraveled by Sentence-based Text Mining) es una base de datos curada manualmente de redes de regulación transcripcional humana [3]. La versión que se ha utilizado contiene 8,015 relaciones reguladoras, que se dan entre 748 factores de transcripción humanos (TFs) y 1,975 genes que no son TF (non TFs) derivados de 6,175 artículos de pubmed, en los cuales se describen estudios experimentales a pequeña escala de regulaciones transcripcionales. Para buscar una verificación experimental de la relación funcional entre el TF y el gen afectado se han analizado además cientos de miles de experimentos a pequeña escala mediante técnicas Text Mining. Red de Leitner, Florian (FL) Esta base de datos generada por F. Leitner describe relaciones de regulación transcripcional basadas en miles de experimentos a pequeña escala mediante la aplicación de técnicas Text Mining [4]. En ella a parte de indicar las relaciones entre distintos factores de transcripción y su correspondiente gen al que regula, también se indica una puntuación que indica la fiabilidad de la existencia de esa relación según el número de referencias en los artículos y su relevancia. Datos de Expresión Para cáncer se han utilizado los mismos conjuntos de datos que Kristina Ibáñez en su estudio [5]. Se incluyen datos de expresión de cáncer de colon, ovario, riñón e hígado. Además se ha añadido otro conjunto de datos con muestras de pacientes con cáncer de pulmón [Anexo C: Datos de Expresión]. Los datos de expresión para Alzheimer que se han utilizado se han dividido según el origen del tejido, pudiendo venir de hasta seis regiones del cerebro distintas, las cuáles están identificadas como relevantes respecto a la enfermedad de Alzheimer [Anexo C: Datos de Expresión]. Solapamiento de las Redes Para realizar el solapamiento de la red PPI y de la red de regulación, debemos de utilizar el mismo tipo de nomenclatura o identificadores cuando nos refiramos a los nodos, ya que el origen de las bases de datos es distinto. Se ha utilizado para nombrar los genes, proteínas y factores de transcripción el sistema de identificadores de Ensembl [28]. De esta manera, una vez tengamos las redes por separado con la misma nomenclatura, podremos montar el multiplex y realizar el solapamiento correspondiente, identificando los nodos que se encuentran en múltiples capas. Durante el proceso de construcción del multiplex perdemos algo de información debido a que hay ciertos genes y/o TF de los que no encontramos su equivalente en Ensembl. Las interacciones en las que intervengan estos genes por lo tanto se perderán para los análisis posteriores. Una situación similar se presenterá al traducir los nombres de las sondas correspondientes a los datos de expresión del microarreglo. De esta manera para el caso del solapamiento entre las redes PINA2 y TRRUST+FL nos encontramos con un total de 17,505 genes y 192,104 interacciones, todos con su anotación en Ensembl correspondiente. Página 10 de 43 En cuanto a lo que se refiere a lo datos de expresión utilizados, se han usado datos de arrays Affymetrix Human Genome U133 Plus 2.0 y habrá también sondas de las que no encontremos equivalencia en Ensembl. Dichos genes tampoco se tendrán en cuenta para argumentaciones ulteriores y sus relaciones se perderán en el multiplex generado. Los pasos que se han seguido han sido los siguientes: 1) Construir el multiplex con sólo genes anotados en Ensembl. 2) Leer datos de expresión. 3) Buscar anotación en Ensembl para todas las sondas y descartar aquellas de las que no encontremos anotación. 4) Medianizar el valor de expresión asignado a las sondas que apuntan al mismo gen (en este punto identificamos hasta un total de 18,750 genes). 5) Según los datos de expresión, realizar un proceso de binarización donde identificamos aquellos genes que están activos [20] [21]. 6) Proyectar los datos de expresión en el multiplex y quedarse con la red formada por sólo aquellos genes que se encuentran activos. Para más información consultar [Anexo B: Bases de Datos y Scripts]. Método para el cálculo de la estabilidad La métrica más importante que utilizaremos para comparar los datos de expresión proyectados sobre las redes será el caĺculo de la energía global previamente propuesto por Ibáñez et al. [5]. En dicho trabajo se indica cómo calcular la energía para cada gen según su vecindario y la expresión génica de los mismos. Este parámetro está relacionado con la estabilidad de la red. En la Figura 4 se indican las fórmulas que se han utilizado para el cálculo de la energía. Figura 4. Fórmulas utilizadas para el algoritmo modificado de Simulated Annealing (SA) utilizadas para comparar los datos de expresión una vez proyectados sobre el multiplex (Ibáñez et al. [5]) Página 11 de 43 Se podría describir el algoritmo de cálculo de la siguiente manera: 1) Para cada nodo i se cogen todas las interacciones que tiene con sus vecinos. 2) Para cada interacción se le asigna un peso Wij. Tendrá valor de +1 si uno o ambos de los dos genes no está expresado y de -1 en el caso de que ambos genes se encuentren expresados. 3) Se calculan las significancias de cada gen, entendiendo ésta como la probabilidad de obtener dicho valor de expresión dada la muestra de valores de expresión asumiendo una distribución normal. Se multiplican entonces los valores de las significancias (Si, Sj) de cada nodo de cada interacción, según los datos de expresión y se pondera por el valor Wij calculado en el paso 2. 4) Este cálculo se realiza para todos los vecinos del nodo i, dando su suma una medida de de energía a nivel local del nodo i. 5) Iterando para todos los nodos de la red y sumando todos los valores de energía local nos dará una medida de energía a nivel global de la red. Valores más bajos de energía (nE a partir de ahora siguiendo la notación descrita en Figura 4) están relacionados con una mayor estabilidad de la red y viceversa. Página 12 de 43 Capítulo 3. Resultados Proyección de datos de expresión en el Multiplex: Cáncer A continuación vamos a mostrar los resultados obtenidos una vez proyectados los datos de expresión de cáncer sobre cada uno de los posibles multiplex. De esta manera, podremos ver si existe alguna diferencia significativa entre las muestras normales y las afectadas por alguno de los tipos de cánceres considerados: colon, riñón, hígado, pulmón y ovario. Los datos de expresión de cada muestra se proyectan sobre el multiplex y se realiza el cálculo basado en la energía de las interacciones existentes. Luego se compara la distribución de las energías de las distintas muestras entre los dos casos de estudio: normal – tumor. Se aplica el algoritmo descrito en la Figura 4 del capítulo anterior. Este cálculo se realiza tanto para el multiplex completo, como para cada una de las dos capas. Y todo ello se repetirá para cada uno de los 9 posibles multiplex que se han contemplado (ver Tabla A1 [Anexo B: Bases de Datos y Scripts]). El estadístico que utilizaremos a lo largo de este trabajo para comparar las medianas de dos conjuntos de muestras será el p-valor obtenido al realizar una prueba de suma de rangos Wilcoxon (conocida como Wilcoxon rank-sum Test o Mann-Whitney U Test). Es un test no paramétrico para comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre ellas (el test se puede considerar como la versión no paramétrica del test de la tStudent). Este estadístico nos permitirá ver si las medianas de las energías son significativamente diferentes entre tumor y control. Cuanto más pequeño sea este valor, mayor confianza hay en que las dos muestras provengan de poblaciones independientes. TIPO DE MUESTRA COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Control 9 27 23 50 60 80 9 Tumor 24 90 104 94 60 80 267 Tabla 1. Número de muestras para cada tipo de tejido (COL: colon; KID: kidney; LIV: liver; LUN: lung; OVA: ovary). Tal y como se observa en Tabla 1 (menos quizás para los controles de colon y ovario) el número de muestras que tenemos al respecto para cada tejido es bastante representativo, sobre todo en muestras de tejido pulmonar, con lo que podremos dar una mayor confiabilidad a la interpretación de los resultados. Para estos datos consideraremos como significativos aquellos pvalores por debajo de 0,001. Vamos a realizar los cálculos para los tres posibles tipos de red de regulación contemplados y mostraremos los resultados en Tabla 2 para cada uno de los posibles multiplex: a) Red combinada TRRUST-FL + (HI_II ó PINA2 ó KI) b) Red TRRUST + (HI_II ó PINA2 ó KI) c) Red FL + (HI_II ó PINA2 ó KI) MUX1 COL KID LIV Página 13 de 43 LUN LUN LUN OVA 19188 -5 -3 -2 -8 19804 ~10-11 ~10-2 Multiplex Bi-Capa ~10 ~10 ~10 ~10 Capa PPI - HI_II ~10-5 ~10-5 ~10-6 ~10-1 ~10-4 ~10-1 ~10-5 Capa Reg – TRRUST+FL ~10-4 ~10-3 ~10-2 ~10-9 ~10-7 ~10-11 ~10-1 MUX2 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-5 ~10-5 ~10-8 ~10-2 ~10-2 ~10-1 ~10-7 Capa PPI - PINA2 ~10-5 ~10-5 ~10-8 ~10-2 ~10-2 ~10-1 ~10-7 Capa Reg – TRRUST+FL ~10-4 ~10-4 ~10-6 ~10-1 ~10-3 ~10-2 ~10-6 MUX3 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-4 ~10-5 ~10-6 ~10-3 ~10-5 ~10-8 ~10-5 Capa PPI - KI ~10-4 ~10-5 ~10-6 ~10-3 ~10-5 ~10-7 ~10-5 Capa Reg – TRRUST+FL ~10-4 ~10-4 ~10-4 ~10-5 ~10-6 ~10-11 ~10-3 MUX4 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-5 ~10-3 ~10-2 ~10-9 ~10-7 ~10-11 ~10-2 Capa PPI - HI_II ~10-5 ~10-5 ~10-6 ~10-1 ~10-4 ~10-1 ~10-5 Capa Reg – FL ~10-4 ~10-2 ~10-1 ~10-9 ~10-8 ~10-12 ~10-1 MUX5 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-5 ~10-5 ~10-8 ~10-3 ~10-2 ~10-1 ~10-7 Capa PPI - PINA2 ~10-5 ~10-5 ~10-8 ~10-3 ~10-2 ~10-1 ~10-7 Capa Reg – FL ~10-4 ~10-4 ~10-6 ~10-1 ~10-4 ~10-4 ~10-6 MUX6 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-4 ~10-5 ~10-6 ~10-3 ~10-5 ~10-8 ~10-5 Capa PPI - KI ~10-4 ~10-5 ~10-7 ~10-2 ~10-5 ~10-7 ~10-6 Capa Reg – FL ~10-4 ~10-4 ~10-4 ~10-6 ~10-6 ~10-12 ~10-3 MUX7 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-5 ~10-5 ~10-5 ~10-4 ~10-5 ~10-4 ~10-6 Capa PPI - HI_II ~10-5 ~10-6 ~10-8 ~10-1 ~10-2 ~10-1 ~10-7 Capa Reg – TRRUST ~10-4 ~10-4 ~10-2 ~10-7 ~10-6 ~10-7 ~10-3 MUX8 COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Multiplex Bi-Capa ~10-5 ~10-6 ~10-9 ~10-4 ~10-1 ~10-2 ~10-7 Capa PPI - PINA2 ~10-5 ~10-6 ~10-9 ~10-4 ~10-1 ~10-2 ~10-7 Capa Reg – TRRUST ~10-4 ~10-5 ~10-7 ~10-1 ~10-2 ~10-1 ~10-6 MUX9 COL KID LIV LUN LUN LUN OVA Página 14 de 43 ~10 33532 -7 19188 -4 -5 -7 -1 Multiplex Bi-Capa ~10 ~10 ~10 ~10 Capa PPI - KI ~10-4 ~10-5 ~10-8 ~10-1 19804 33532 -4 ~10-5 ~10-6 ~10-4 ~10-4 ~10-6 ~10 Capa Reg – TRRUST ~10-4 ~10-5 ~10-5 ~10-3 ~10-4 ~10-5 ~10-4 Tabla 2: Orden de los p-valores del test Wilcoxon rank-sum para las energías de las redes resultantes entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo: energía del tejido normal mayor a la energía del tejido tumoral; sombreado verde: energía del tejido tumoral mayor a la energía del tejido normal; sin sombreado: p-valor mayor a 0,001). Cada columna representa el tipo de tejido correspondiente a las muestras utilizadas (COL: colon, colon; KID: kidney, riñón; LIV: liver, hígado; LUN19188,LUN19804,LUN33532: lung, pulmón; OVA: ovary, ovario). Los multiplex MUX1, MUX2 y MUX3 utilizan como capa de regulación la red combinada entre TRRUST y FL. Los multiplex MUX4, MUX5 y MUX6 utilizan como capa de regulación la red FL. Los multiplex MUX7, MUX8 y MUX9 utilizan como capa de regulación la red TRRUST. Como capa PPI, MUX1-MUX4-MUX7 utilizan HI_II, MUX2-MUX5-MUX8 utilizan la red PINA2 y MUX3MUX6-MUX9 utilizan la red KI. En Tabla 2 se indican el orden de los p-valores del test Wilcoxon rank-sum para las energías de las redes resultantes entre muestras normales y aquellas correspondientes a tumor. Para saber qué muestras son las que tienen mayor valor energía (nE global) utilizamos un código de colores, de tal manera que el color amarillo en la tabla significa que la medianas de la energía de las células normales es mayor a la medianas de la energía de las células tumorales. El color verde indica lo contrario, que la medianas de la energía de las células tumorales es mayor a la medianas de la energía de las células normales. En primer lugar se analizaron los resultados obtenidos empleando el multiplex que contemple mayor número de interacciones, y que corresponde a MUX2: PINA2 y TRRUST+FL. MUX2: CAPA Regulación: Combinación TRRUST-FL CAPA PPI: PINA2 MULTIPLEX - MUX2 PINA2 / TRRUST-FL Número de nodos 17505 Número de interacciones 192104 Máx Número de nodos 17473 conexos Tabla 3: Información detallada referida al Multiplex 2 Página 15 de 43 MULTIPLEX - CAPAS LIVER (hígado) Figura 5A MUX2 (Completo) Figura 5B MUX2 – Capa PPI Figura 5C MUX2 – Capa Regulación Figura 5. En la figura 5A se muestra la distribución de energía para hígado para el multiplex completo MUX2, en la figura 5B para la capa de interacción proteína-proteína y en la figura 5C para la capa de regulación. En color amarillo aparece la distribución de energía para las muestras de control, y en verde la distribución de energía para las muestras tumorales de hígado. Página 16 de 43 MULTIPLEX LUNG 19804 - MUX1 LUNG 19804 - MUX2 p-value = 2,85E-07 p-value = 6,39E-02 p-value = 6,71E-04 p-value = 6,39E-02 6A1 – 6A2 MUX1/MUX2 (Completo) 6B1 – 6B2 MUX1/MUX2 Capa PPI 6C1 - 6C2 MUX1/MUX2 Capa Regulación p-value = 1,45E-07 p-value = 1,66E-03 Figura 6: Distribución de energía para Lung (estudio 19804). En la figura 6A1-6A2 se muestra la distribución de energía para pulmón para los multiplex completo MUX1 y MUX2. En las figuras 6B1-6B2 para la capa de interacción proteína-proteína y en las figura 6C1-6C2 para la capa de regulación. En color amarillo aparece la distribución de energía para las muestras de control, y en verde la distribución de energía para las muestras tumorales de hígado. Para cada conjunto de datos relacionados con cáncer, se ha estudiado la estabilidad para ambos casos, tumor y control. Se ha analizado la red de interacción de cada multiplex para cada muestra, aplicando el algoritmo propuesto en Figura 4 y obteniendo un valor para nE (distribución de energía) que está relacionado con la estabilidad de la red. Cuanto más pequeño sea este valor, indicará mayor estabilidad. En la Figura 5 se muestran empleando boxplots la distribución para la energía calculada para los datos de hígado en céulas tumorales y normales. En la Figura 5A se calcula nE para todo Página 17 de 43 el multiplex MUX2, en la Figura 5B sólo se tiene en cuenta los genes encontrados en la capa PPI y por último en la Figura 5C sólo se consideran los genes encontrados en la capa de regulación. En color amarillo están representadas las muestras de control y en verde las muestras de tumor. Se observa directamente que las medianas de nE obtenidas para tumor son mayor que las obtenidas para control, indicando una mayor estabilidad de las células normales, tal y como se esperaba según el trabajo de Ibáñez et al. [5]. La diferencia que se observa entre tumor y control es bastante significativa puesto que el valor obtenido para el multiplex arroja un p-valor para el test de Wilcoxon rank-sum del orden de 10-8. En la Figura 6 se muestran los boxplots calculados para un conjunto de datos utilizados de pulmón (Lung_19804). En esta ocasión mostramos los cálculos para dos tipos de multiplex distintos, MUX2 (PINA2 – TRRUST+FL) y MUX2 (HI_II – TRRUST+FL). Es decir, cambiando la capa PPI observamos una diferencia más significativa entre tumor y control en el caso de MUX1. Además, al contrario que sucedía para muestras de cáncer de hígado (Figura 5) las células de tejido tumoral en pulmón parecen ser más estables que las células normales. Proyección de datos de expresión en el Multiplex: Alzheimer A continuación mostramos los resultados obtenidos una vez proyectados los datos de expresión de Alzheimer sobre cada uno de los posibles multiplex. De esta manera, podremos ver si existe alguna diferencia significativa entre las muestras normales y las afectadas por Alzheimer. Al igual que para datos de cáncer, utilizaremos el mismo algoritmo para el cálculo de las energía de cada red (Figura 4). También comprobaremos si hay alguna región del cerebro donde estas diferencias sean más significativas. Al igual que en el apartado anterior, para cada muestra se realiza un cálculo basado en la energía de las interacciones existentes y la diferencia de energía entre los dos casos de estudio: normal – afectado por Alzheimer. El total de muestras utilizadas asciende a 162, sin embargo, como hemos separado las muestras según el tipo de tejido, nos encontramos con que la población muestral queda bastante mermada para cada caso de estudio, por ejemplo para la región Superior Frontal Gyrus, tenemos sólo 35 muestras. Esto implica que habrá que tener especial cuidado a la hora de interpretar los resultados que se obtengan. TIPO DE MUESTRA EC HIP MTG PC VCX SFG Control 10 10 16 9 19 23 Afectada por Alzheimer 13 13 12 13 12 12 Tabla 4. Número de muestras para cada tipo de tejido (EC: entorhinal cortex; HIP: hippocampus; MTG: medial temporal gyrus; PC: posterior cingulate; VCX: primary visual cortex; SFG: superior frontal gyrus). Página 18 de 43 MUX1 EC -3 HIP -1 MTG -3 PC VCX SFG -1 ~10 ~10-5 Multiplex Bi-Capa ~10 ~10 ~10 Capa PPI - HI_II ~10-1 ~10-1 ~10-1 ~10-2 ~10-1 ~10-1 Capa Reg – TRRUST+FL ~10-4 ~10-2 ~10-4 ~10-3 ~10-1 ~10-6 MUX2 EC HIP MTG PC VCX SFG Multiplex Bi-Capa ~10-1 ~10-2 ~10-1 ~10-4 ~10-2 ~10-1 Capa PPI - PINA2 ~10-1 ~10-2 ~10-1 ~10-4 ~10-2 ~10-1 Capa Reg – TRRUST+FL ~10-1 ~10-1 ~10-1 ~10-3 ~10-1 ~10-1 MUX3 EC HIP MTG PC VCX SFG Multiplex Bi-Capa ~10-1 ~10-1 ~10-1 ~10-3 ~10-1 ~10-1 Capa PPI - KI ~10-1 ~10-1 ~10-1 ~10-3 ~10-1 ~10-1 Capa Reg – TRRUST+FL ~10-2 ~10-1 ~10-3 ~10-1 ~10-1 ~10-5 MUX4 EC HIP MTG PC VCX SFG -1 ~10 ~10-5 -2 -1 -2 ~10 -1 Multiplex Bi-Capa ~10 ~10 ~10 Capa PPI - HI_II ~10-1 ~10-2 ~10-1 ~10-2 ~10-1 ~10-1 Capa Reg –FL ~10-4 ~10-2 ~10-3 ~10-3 ~10-1 ~10-6 MUX5 EC HIP MTG PC VCX SFG -2 ~10 ~10-1 -1 -2 -1 ~10 -1 Multiplex Bi-Capa ~10 ~10 ~10 Capa PPI - PINA2 ~10-1 ~10-2 ~10-1 ~10-4 ~10-2 ~10-1 Capa Reg – FL ~10-1 ~10-1 ~10-1 ~10-3 ~10-1 ~10-2 MUX6 EC HIP MTG PC VCX SFG Multiplex Bi-Capa ~10-1 ~10-1 ~10-3 ~10-3 ~10-1 ~10-1 Capa PPI - IBANEZ ~10-1 ~10-1 ~10-1 ~10-3 ~10-1 ~10-1 Capa Reg – FLORIAN ~10-2 ~10-1 ~10-3 ~10-1 ~10-1 ~10-5 MUX7 EC HIP MTG PC VCX SFG Multiplex Bi-Capa ~10-1 ~10-1 ~10-2 ~10-2 ~10-1 ~10-1 Capa PPI - HI_II ~10-2 ~10-3 ~10-1 ~10-4 ~10-2 ~10-1 Capa Reg –TRRUST ~10-4 ~10-1 ~10-4 ~10-3 ~10-1 ~10-6 MUX8 EC HIP MTG PC VCX SFG -2 ~10 ~10-1 -1 -2 -1 ~10 -4 Multiplex Bi-Capa ~10 ~10 ~10 Capa PPI - PINA2 ~10-1 ~10-2 ~10-1 ~10-4 ~10-2 ~10-1 Capa Reg – TRRUST ~10-2 ~10-1 ~10-2 ~10-2 ~10-1 ~10-2 MUX9 EC HIP MTG PC VCX SFG -1 ~10 ~10-1 ~10-1 ~10-1 -1 -1 -1 Multiplex Bi-Capa ~10 ~10 ~10 Capa PPI - KI ~10-1 ~10-2 ~10-1 ~10 -4 ~10 -4 ~10-4 Capa Reg – TRRUST ~10-3 ~10-1 ~10-4 ~10-1 ~10-1 ~10-5 Tabla 5: Orden de los p-valores del test Wilcoxon rank-sum para las energías de las redes resultantes entre muestras normales y aquellas afectadas por Alzheimer (sombreado amarillo: energía del tejido normal mayor a la energía del tejido afectado por Alzheimer; sombreado verde: Página 19 de 43 energía del tejido afectado por Alzheimer mayor a la energía del tejido normal; sin sombreado: pvalor mayor a 0,01). Cada columna representa el tipo de tejido según la región del cerebro de las muestras utilizadas (EC: entorhinal cortex; HIP: hippocampus; MTG: medial temporal gyrus; PC: posterior cingulate; VCX: primary visual cortex; SFG: superior frontal gyrus). Los multiplex MUX1, MUX2 y MUX3 utilizan como capa de regulación la red combinada entre TRRUST y FL. Los multiplex MUX4, MUX5 y MUX6 utilizan como capa de regulación la red FL. Los multiplex MUX7, MUX8 y MUX9 utilizan como capa de regulación la red TRRUST. Como capa PPI, MUX1-MUX4MUX7 utilizan HI_II, MUX2-MUX5-MUX8 utilizan la red PINA2 y MUX3-MUX6-MUX9 utilizan la red KI. En Tabla 5 mostramos los datos obtenidos para nueve multiplex distintos. Para considerar que la información que reportan los datos de expresión sobre el multiplex resulte relevante, destacaremos en los resultados aquellos p-valores del orden de 10-3 o menores. Valores mayores consideraremos que no son lo suficientemente significativos (aparecen sin sombrear en las tablas). Desde la perspectiva de la expresión de genes proyectados en un multiplex, no se aprecian diferencias significativas entre control y afectado por Alzheimer respecto a la métrica de la energía utilizada para las regiones hippocampus y primary visual cortex (HIP y VCX), debido a que no encontramos p-valores significativos (son del orden de 0,01 o mayores). Para el MUX1, donde la red PPI utilizada es HI_II, observamos que en la capa de regulación la diferencia de medianas en las energías (control-AD) es bastante significativa para los tejidos EC, MTG y SFG. Por último, el tejido donde las diferencia de medianas entre control y AD es más evidente es en la región posterior cingulate (PC). Además, como indica el sombreado amarillo en las tablas, para este tejido se observa una tendencia importante a que haya una menor estabilidad en las células normales que en aquellas que se encuentran afectadas por Alzheimer. Esto también se aprecia al considerar todas las capas en el caso de que utilicemos el multiplex con la red PINA2 -TRRUST+FL (MUX2), que además es la que más interacciones contiene. Comparando los resultados de la red de regulación FL y de la red de regulación TRRUST no observamos mucha diferencia con los obtenidos al utilizar la red de regulación combinada TRRUST+FL. En Figura 8 observamos los boxplots obtenidos para el tejido Posterior Cingulate. Se muestran tres gráficos, uno para el multiplex MUX2 y otros dos para cada una de las dos capas. Al igual que sucedía en el caso de Lung_19804, las células afectadas por la enfermedad presentan mayor estabilidad que las celulas normales. Página 20 de 43 MULTIPLEX - CAPAS POSTERIOR CINGULATE 8A MUX2 (Completo) 8B MUX2 – Capa PPI 8C MUX2 – Capa Regulación Figura 8: Distribución de energía para la región Posterior Cingulate en tejido afectado por Alzheimer. En la figura 8A se muestra para el multiplex completo MUX2, en la figura 8B para la capa PPI y en la figura 8C para la capa de regulación. En amarillo aparece la distribución de energía para las muestras de control, y en verde para las afectadas por Alzheimer. Página 21 de 43 Análisis de Redes - Coeficiente de Agrupamiento El coeficiente de agrupamiento local para el vértice i, Ci, se define como el número de triángulos en los que el vértice i participa normalizado por el máximo número de posibles triángulos, Ci es el coeficiente de agrupamiento para el vértice i ti es el número de triángulos del vértice i ki es el grado del vértice i Figura 9: Fórmula para el cálculo del coeficiente de agrupamiento El coeficiente de agrupamiento de la red según Watts y Strogatz (1998) se define como la media de los coeficientes de agrupamiento de todos los vértices de la red. Esta propiedad de las redes será la que utilicemos en este apartado. La evidencia sugiere que en la mayoría de redes del mundo real, los nodos tienden a crear grupos muy unidos que se caracterizan por una densidad relativamente alta de enlaces. A continuación se indica el orden de los p-valores obtenidos al calcular el test de Wilcoxon rank-sum para los coeficientes de agrupamiento de la red para cada uno de los tipos de tejidos. Se ha utilizado el multiplex MUX2, PINA2 – TRRUST+FL. MUX2 (Cáncer) PINA2 – TRRUST+FL COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Clustering p-value ~10-3 ~10-1 ~10-1 ~10-6 ~10-9 ~10-7 ~10-4 MUX2 (Alzheimer) PINA2 – TRRUST+FL EC HIP MTG PC VCX SFG Clustering p-value ~10-3 ~10-1 ~10-1 ~10-3 ~10-1 ~10-1 Tabla 7: Orden de los p-valores del test Wilcoxon rank-sum para los coeficientes de clustering del multiplex MUX2 entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo: coeficiente de clustering en tejido normal mayor al coeficiente de agrupamiento del tejido tumoral/afectado por AD; sombreado verde: coeficiente de clustering en tejido tumoral/afectado por AD mayor al coeficiente de agrupamiento del tejido normal; sin sombreado: p-valor mayor a 0,01). Cabe destacar nuevamente la significancia de los p-valores para las muestras pertenecientes a tejido pulmonar donde se observa una clara diferencia entre muestras tumorales y muestras sanas (p-valores por debajo de 0,00001). También es importante observar como en muestras de pulmón y AD la relación de coeficiente de agrupamiento entre tumor y normal se invierte con el resto de tejidos considerados relativos a cáncer (colon y ovario). En la Figura 10 se muestra como ejemplo los boxplots calculados para el coeficiente de agrupamiento de la red para ovario (ovary) y pulmón (Lung_19804), tanto para muestras tumorales como para control. En la Figura 11 se muestran los boxplots para AD (posterior cingulate). De nuevo resulta interesante la similitud de los resultados obtenidos para muestras de Alzheimer con los de las muestras de Lung_19804 mostrando una relación similar entre tejido afectado y sano (mayor coeficiente de agrupamiento para muestras tumorales/afectadas por AD que en tejido sano). Página 22 de 43 Figura 10. Boxplots para el cálculo de los coeficientes de agrupamiento para muestras de Lung_19804 (izquierda) y Ovario (derecha). En amarillo para las muestras de control y en verde para las afectadas por tumor. Figura 11: Boxplot para el cálculo de los coeficientes de agrupamiento para datos de Alzheimer (región posterior cingulate). En amarillo para las muestras de control y en verde para las afectadas por Alzheimer. Página 23 de 43 Análisis de Redes - Número de nodos Otro parámetro de la red que nos puede aportar información a tener en cuenta a la hora de describir los multiplex es el número de genes activos en la red una vez tenidos en cuenta los datos de expresión. A continuación se indica el orden de los p-valores obtenidos al calcular el test de Wilcoxon rank-sum para los coeficientes de agrupamiento de la red para cada uno de los tipos de tejidos. Se ha utilizado el multiplex MUX2, PINA2 – TRRUST+FL. MUX2 (Cáncer) PINA2 – TRRUST/FL COL KID LIV LUN 19188 LUN 19804 LUN 33532 OVA Número de nodos ~10-5 ~10-5 ~10-4 ~10-2 ~10-1 ~10-1 ~10-6 MUX2 (Alzheimer) PINA2 – TRRUST/FL EC HIP MTG PC VCX SFG Número de nodos ~10-2 ~10-3 ~10-2 ~10-4 ~10-2 ~10-2 Tabla 7: Orden de los p-valores del test Wilcoxon rank-sum para el número de nodos del multiplex MUX2 entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo: número de genes expresados en tejido normal mayor al número de genes expresados en tejido tumoral; sombreado verde: número de genes expresados en tejido tumoral mayor al número de genes expresados en tejido normal; sin sombreado: p-valor mayor a 0,1). Se observa nuevamente como la expresión en tejidos con cáncer de pulmón tiene un comportamiento antagonista al resto de los tipos de cánceres considerados. Para las muestras de Alzheimer vemos también como el número de genes expresados, al igual que en pulmón, es mayor en muestras sanas que en aquellas afectadas por la enfermedad, sucediendo justo lo contrario para el resto de cánceres (colon, ovario, riñón e hígado). Figura 12A Página 24 de 43 Figura 12B Figura 12C Figura 12: Boxplots para el cálculo del número de genes expresados en el multiplex MUX2. Se indican los resultados para pulmón Lung_19188 (Figura 12A), hígado (Figura 12B) y Alzheimer (región posterior cingulate, Figura 12C). Clasificación de Genes El objetivo principal de esta clasificación es el de identificar los nodos más conectados de cada una de las redes y encontrar posibles similitudes y/o divergencias entre los distintos tipos de cáncer estudiados. Para ello seguiremos los siguientes pasos: 1) Elegir multiplex 2) Elegir tejido 2) Proyectar datos de expresión 4) Hacer una clasificación con los 10 genes expresados que aparecen con más conexiones (con mayor grado, los que serían los nodos más conectados, hubs, de la red) Página 25 de 43 para cada muestra y darles una puntuación: Gen con mayor grado → +10 Gen con segundo mayor grado → +9 [,,,] Gen con décimo mayor grado → +1 5) Acumular estos valores para todas las muestras. 6) De los diez genes con mayor puntuación, seleccionar aquellos genes que están en muestras tumorales y no en las normales, y viceversa. 7) Buscar anotación. TEJIDO GENES PUNTUACIÓN (máximo es 1) PROTEÍNA ENSG00000177606 0,296 Transcription factor AP-1 ENSG00000185591 0,167 Transcription factor SP-1 ENSG00000166333 0,2 ENSG00000146648 0,078 Epidermal growth factor receptor ENSG00000185591 0,164 Transcription factor SP-1 Kidney (Normal) ENSG00000080824 0,148 Heat shock protein HSP 90-alpha Lung_19188 (Tumor) ENSG00000116030 0,132 Small ubiquitin-related modifier 1 Lung_19188 (Normal) ENSG00000166333 0,098 Integrin-linked protein kinase Lung_19804 (Tumor) ENSG00000141510 0,23 Cellular tumor antigen p53 Lung_19804 (Normal) ENSG00000185591 0,16 Transcription factor SP-1 Lung_33532 (Tumor) ENSG00000141510 0,261 Cellular tumor antigen p53 Lung_33532 (Normal) ENSG00000115232 0.09 Integrin alpha-4 ENSG00000121022 0,545 COP9 signalosome complex subunit 5 ENSG00000116030 0,214 Small ubiquitin-related modifier 1 ENSG00000185591 0,173 Transcription factor SP-1 Colon (Tumor) Integrin-linked protein kinase Colon (Normal) Kidney (Tumor) Ovary (Tumor) Página 26 de 43 Ovary (Normal) ENSG00000177606 0,356 Transcription factor AP-1 ENSG00000166333 0,278 Integrin-linked protein kinase ENSG00000080824 0,144 Heat shock protein HSP 90-alpha ENSG00000116663 0,3 ENSG00000116030 0,134 Small ubiquitin-related modifier 1 ENSG00000177606 0,309 Transcription factor AP-1 ENSG00000169083 0,191 Androgen receptor Integrin-linked protein kinase Liver (Tumor) Liver (Normal) Tabla 5: Clasificación de genes según el máximo número de interacciones de la red En la Tabla 5 se indican todos los nodos con más conexiones para cada red, sin tener en cuenta aquellos genes que se encuentren expresados en ambos casos (normal y tumor) Página 27 de 43 Capítulo 4. Discusión Uno de los objetivos iniciales que nos planteamos en el desarrollo del presente trabajo era el de la creación de un multiplex que pudiéramos usar como modelo en el análisis de datos de expresión de humano. Partiendo de las redes de interacción proteína-proteína PINA2, H_II y KI y de las redes de regulación transcripcional TRRUST y FL hemos creado un multiplex donde se solapan dos capas. El multiplex que mayor número de nodos e interacciones contiene es el denominado a lo largo del estudio como MUX2 compuesto por la red de interacción PINA2 y la capa de regulación combinada TRRUST+FL. Al ser la red multicapa que contiene mayor número de interacciones podemos decir que las interpretaciones que demos serán menos sesgadas (en el sentido de que cubren mayor número de interacciones y componentes) que si elegimos los resultados arrojados por otro multiplex, por ejemplo MUX3 que considera como red PPI a KI. Sin embargo, el nivel de curación de las redes HI_II y KI es mayor al de la red PINA2. De ahí que se hayan calculado todos los posibles multiplex, ya que cada uno podrá ofrecernos una interpretación de los resultados distinta según la métrica y datos de expresión que se utilicen. En este estudio nos hemos centrado en la interpretación de resultados del multiplex MUX2, ya que para poder comparar muestras de distintos tejidos entre sí deberemos seleccionar siempre el mismo multiplex. En Figura 5 mostramos los resultados de comparación de hígado de la métrica nE cuyo cálculo está descrito en la Figura 4 y que está relacionado con la estabilidad de la red, tanto para muestras tumorales como para muestras de control. Desde un punto de vista genérico del multiplex completo, al igual que en el trabajo de Ibáñez et al. [5] observamos que las muestras tumorales son más inestables que las normales (el valor de la mediana de nE es mayor en tumor). 0Sin embargo, aprovechando la visión del multiplex, tenemos dos gráficos extra que nos aportan información adicional. Por un lado vemos que en la capa PPI las células normales tienen una mediana del valor de nE en torno a -1, la cual se mantiene más o menos para la capa de regulación. Sin embargo, para el caso de las células tumorales la mediana se encuentra en torno a +1 en la capa PPI, y en torno a +2 en la capa de regulación transcripcional. Es decir, parece que si estudiamos el problema por capas, las células tumorales son más inestables que las células normales, y además ésta inestabilidad tumoral es más acusada en la capa de regulación. Esta tendencia ocurre para el resto de cánceres considerados colon, ovario y riñón. Esto no se cumple por contra para ninguno de los casos estudiados de cáncer de pulmón. Considerando los resultados para MUX2 en cáncer de pulmón en Figura 6, vemos que aunque la diferencia no es tan significativa como los otros tipos de cánceres (colon, ovario, riñón e hígado) se observa una tendencia clara a que las células tumorales muestren más estabilidad que las células normales. Desde un punto de vista por capas, no sacamos información extra como en el caso de células de hígado. No obstante, también en la Figura 6, se observan los resultados para MUX1 en cual la red PPI usada es HI_II en lugar de PINA2. Esta red contiene una menor cantidad de interacciones, es menos completa que PINA2, aunque tiene menos sesgo y tiene un mayor nivel de curación. En MUX1 sí que las diferencias son más significativas entre tumor y control, tal y como demuestran los p-valores calculados. En esta ocasión, las células tumorales en pulmón parece que mantienen un valor similar de nE en ambas capas mientras que las células normales tienen un valor mayor de la energía nE en la capa de regulación respecto la red PPI. Con esto se puede apreciar que dependiendo de la definición de multiplex podremos interpretar los resultados de una manera o de otra, lo que permite concluir que los resultados arrojados por un análisis de este tipo, son sensibles a la definición de la red empleada. Página 28 de 43 En cuanto al análisis para los datos de Alzheimer, a raíz de los resultados de Tabla 5 y utilizando el multiplex MUX2, observamos que para la región PC (posterior cingulate) encontramos diferencias significativas en cuanto a la mediana del valor de nE entre células normales y aquellas afectadas por Alzheimer. Para el resto de regiones cerebrales no encontramos diferencias significativas, por lo que en este apartado no las pondremos bajo discusión (si hubiéramos elegido MUX1 como modelo comparativo, habría diferencias significativas para las regiones EC, TG, PC y SFG; las cuales en MUX2 sólo aparecen para PC). Para la región PC tenemos que las muestras afectadas por Alzheimer son más estables, con un valor menor para nE, que las muestras de control. Estos resultados concuerdan nuevamente con los experimentos previamente realizados [5]. Este comportamiento es similar al encontrado en cáncer de pulmón y contrario al resto de cánceres considerados. La similitud entre los patrones observado para el caso de cáncer de pulmón y Alzheimer respecto a sus casos controles es muy llamativa. Sin embargo, el análisis de las causas subyacentes a dichas similaridades ha quedado fuera del alcance del presente trabajo. Otro de los parámetros topológicos empleados para analizar las propiedades del multiplex en distintos fenotipos celulares ha sido analizado el coeficiente de agrupamiento. Para cáncer observamos diferencias significativas en muestras de cáncer de colon, ovario y de pulmón entre células tumorales y normales. Para colon y ovario hay una tendencia clara a que las muestras de control tengan un mayor coeficiente de agrupamiento que las tumorales. Ciertos estudios basados en proteínas relacionadas con cáncer, también muestran esta tendencia donde los vecinos de las proteínas asociadas al cáncer tienen menos probabilidad de conectarse unas con otras respecto a las proteínas de control [22] ,[5]; sin embargo, de acuerdo con los resultados expuestos en este trabajo, esta tendencia se invierte para cáncer de pulmón (ocurre también para Alzheimer). Nuevamente ocurre que, con respecto al coeficiente de agrupamiento, el cáncer de pulmón tiene un comportamiento antagonista con el resto de cánceres considerados (y similar al de las células afectadas por Alzheimer). Por otro lado, el análisis por separado del coeficiente de agrupamiento para cada capa no nos ofrece información relevante. El último parámetro que se ha considerado es el número de genes expresados una vez que se proyectan los datos de expresión sobre el multiplex. Para los cánceres colon, riñón, ovario e hígado el número de genes expresados es mayor en muestras tumorales que en aquellas de control. El que haya un mayor número de genes expresados en muestras tumorales indica de manera indirecta que probablemente haya mayor número de interacciones nuevas que anteriormente no existían, produciendo una mayor inestabilidad en la célula. Para cáncer de pulmón no encontramos diferencias realmente significativas, pero sí en Alzheimer donde existe una cierta tendencia a que haya más genes expresados en células normales que en afectadas por la enfermedad. En este caso, hay un menor número de interacciones en el tejido afectado, por lo que lo podemos relacionar este hecho con que las células afectadas son más estables que las células de control, las cuales tendrían una mayor actividad celular. Esta interpretación de los resultados coincide con la obtenida anteriormente al utilizar la métrica de energía nE. El último análisis que se ha realizado es buscar la anotación de aquellos genes con mayor número de interacciones en cada una de las muestras de los diferentes casos de estudio relacionados con cáncer. Se ha realizado una clasificación de genes donde se han identificado aquellos que aparecen con más conexiones en casos de control y no en muestras afectadas, y viceversa. A la luz de estos resultados, nos encontramos con algunos genes conocidos por su relación con el cáncer, como por ejemplo ILK (integrin-linked kinase), gen que cuando aparece sobreexpresado está relacionado con la supresión de la apoptosis y la proliferación celular [22], [23]. Destacar finalmente que una de las limitaciones que nos hemos encontrado en el presente estudio es el tamaño muestral para cierto tipo de tejidos, sobre todo en la relación desigual o desbalance que nos encontramos entre muestras de control y muestras de tumor. En la mayoría de los casos (ver Tabla 1 y Tabla 4) el número de muestras de tumor es mucho mayor que el de muestras de control. Debido a esto, los resultados que obtengamos serán más realistas en el caso de analizar sólo muestras tumorales, pero una vez pasamos a comparar con las muestras normales, hemos de realizar las interpretaciones de los resultados con cierta precaución (por Página 29 de 43 ejemplo para el caso de cáncer de ovario tenemos 267 muestras tumorales frente a sólo 9 de control). En las muestras relacionadas con cáncer de pulmón nos encontramos cierta equidad en el número de muestras control/tumor por lo que los análisis comparativos sobre estos datos serán más fiables. Página 30 de 43 Capítulo 5. Conclusiones y Perspectivas La motivación principal del presente trabajo es la construcción de un multiplex para la identificación de ciertas propiedades estructurales, para así evaluar la influencia de cada capa cuando estemos tratando células tumorales y su comparación con células no afectadas. Con el multiplex construido hemos reproducido el estudio de Ibáñez et al. [5] pero esta vez utilizando una red de interacción de proteínas con un mayor número de relaciones, PINA2 [2], junto con una capa de regulación, la cual ha sido creada a partir de las bases de datos TRRUST [3] y la red construida por Leitner et al. [4]. Hemos empleado el multiplex reconstruido para el análisis de datos de expresión de cáncer y Alzheimer utilizando una métrica relacionada con la energía global de la red. Esta métrica nos ha permitido analizar las diferencias en la estabilidad de las redes construidas en casos con muestras tumorales o afectadas por Alzheimer y casos con muestras de control. Se verifica, al igual que en el trabajo de Ibáñez et al. [5], que las redes correspondientes a células de cáncer de colon, hígado, riñón y ovario son más inestables que las redes en células normales. Además, si estudiamos el problema analizando por separado las distintas capas que componen el multiplex, se observa que la inestabilidad tumoral es más acusada para la capa de regulación (para los casos de cánceres de colon, ovario, hígado y riñón). Sin embargo, no se observa esta tendencia para el caso de cáncer de pulmón, el cual presenta un patrón que se asemeja en mayor medida al observado para el caso de muestras de Alzheimer, donde las células afectadas tienen una mayor estabilidad que las células normales. Agregar más capas al multiplex es una posible vía futura de investigación. Entre otras, puede añadirse una nueva capa que incluya todas las relaciones entre el micro-ARN y los genes a los que afecta (el micro ARN es un ARN monocatenario capaz de regular la expresión de otros genes mediante diversos procesos). Otros ejemplos serían ampliar el multiplex, separando la información del Reactoma, una base de datos donde se recogen todas las reacciones o interacciones moleculares que se producen en una célula, separando las interacciones dentro de complejos proteicos y las de señalización. Otra posible línea futura de investigación sería la de realizar un análisis parecido al que se ha desarrollado en este trabajo, pero esta vez creando una red de complejos proteicos, agrupando los genes por complejos. La red estaría más simplificada y podría ayudarnos a realizar un diagnóstico general sobre qué rutas metabólicas y complejos aparecen activados o no según el tipo de células que tratemos. Página 31 de 43 Referencias. [1] Menichetti G, Remondini D, Panzarasa P, Mondragón RJ, Bianconi G (2014) Weighted Multiplex Networks. PLoS ONE 9(6): e97857. doi:10.1371/journal.pone.0097857 [2] Cowley, M.J., Pinese, M., Kassahn, K.S., Waddell, N., Pearson, J.V., Grimmond, S.M., Biankin, A.V., Hautaniemi, S. and Wu, J. (2012) PINA v2.0: mining interactome modules. Nucleic Acids Res, 40, D862-865 [3] Han H., Shim H., Shin D., Shim JE., Ko Y., Shin J., Kim H., Cho A., Kim E., Lee T., Kim H., Kim K., Yang S., Bae D., Yun A., Kim S., Kim CY., Cho HJ., Kang B., Shin S., Lee I. (2015). TRRUST: a reference database of human transcriptional regulatory interactions. Jun 12;5:11432. doi: 10.1038/srep11432. [4] Leitner, F., Krallinger, M., Tripathi, S., Kuiper, M., Lgreid, A., Valencia, A. (2013). Mining cisRegulatory Transcription Networks from Literature. BioLINK, July 20th, 2013,ISMB/ECCB [5] Ibáñez, K., Guijarro, M., Pajares, G. & Valencia, A. (2015). A computational approach inspired by simulated annealing to study the stability of protein interaction networks in cancer and neurological disorders [6] Roe CM, Behrens MI, Xiong C, Miller JP, Morris JC. Alzheimer disease and cancer. Neurology 2005;64:895-8. [7] Behrens MI, Lendon C, Roe CM. A common biological mechanism in cancer and Alzheimer’s disease? Current Alzheimer research. 2009;6(3):196-204. [8] Moriello, S. (Mar 2003) Sistemas complejos, caos y vida artificial. Revista REDcientífica. http://www.redcientifica.com/autores/smoriello.html [9] Samuel Bader, Sebastian Kühner, Anne-Claude Gavin. Interaction networks for systems biology, FEBS Letters, Volume 582, Issue 8, 9 April 2008, Pages 1220-1224, ISSN 0014-5793, http://dx.doi.org/10.1016/j.febslet.2008.02.015. [10] Jeong, H., Mason, S. P., Barabási, A. L., & Oltvai, Z. N. (2001). Lethality and centrality in protein networks. Nature, 411(6833), 41–2. doi:10.1038/35075138 [11] Song J, Singh M (2013) From Hub Proteins to Hub Modules: The Relationship Between Essentiality and Centrality in the Yeast Interactome at Different Scales of Organization. PLoS Comput Biol 9(2): e1002910. doi:10.1371/journal.pcbi.1002910 [12] Jonsson, P. F., & Bates, P. A. (2006). Global topological features of cancer proteins in the human interactome. Bioinformatics (Oxford, England), 22(18), 2291–7. doi:10.1093/bioinformatics/btl390 [13] Wachi, S., Yoneda, K., & Wu, R. (2005). Interactome-transcriptome analysis reveals the high centrality of genes differentially expressed in lung cancer tissues. Bioinformatics, 21(23), 4205– 4208. doi:10.1093/bioinformatics/bti688 [14] Kirkpatrick, S., Gelatt, c. D., & Vecchi, M. b. (1983). Optimization by simulated annealing. Science (New York, N.Y.), 220(4598), 671–80. doi:10.1126/science.220.4598.671 Página 32 de 43 [15] Cerny, V. (1985). Thermodynamical Approach to the Traveling Salesman broblem: An Efficient Simulation Algorithm c. Journal of Optimization Theory and Applications, 45(l), 41–51. [16] Margolin AA, Nemenman I, Basso K, Wiggins C, Stolovitzky G, Dalla Favera R, Califano A (2006) ARACNE: an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context.BMC Bioinformatics. 2006 Mar 20;7 Suppl 1:S7. [17] Rolland, Thomas et al. A Proteome-Scale Map of the Human Interactome Network. cell , Volume 159 , cssue 5 , 1212 - 1226. bublished: November 20, 2014 [18] Havugimana, P.C. et al. A census of human soluble protein complexes. Cell 150, 1068–1081 (2012). [19] Sancho Caparrini, F. (2015) Introducción a las redes complejas. http://www.cs.us.es/~fsancho/?e=80 [20] Mccall MN, Jaffee HA, Irizarry RA (2012). fRMA ST: Frozen robust multiarray analysis for Affymetrix Exon and Gene ST arrays, bioinformatics, 28(23):3153-3154. [21] Mccall MN, Uppal K, Jaffee HA, Zilliox MJ, and Irizarry RA (2011). The Gene Expression barcode: leveraging public data repositories to begin cataloging the human and murine transcriptomes, Nucleic Acids Research, 39:D1011-5. [22] Sun, J., & Zhao, Z. (2010). A comparative study of cancer proteins in the human proteinprotein interaction network. BMC Genomics, 11(Suppl 3), S5. http://doi.org/10.1186/1471-2164-11S3-S5 [23] Yoganathan N, Yee A, Zhang Z, Leung D, Yan J, Fazli L, Kojic DL, Costello PC, Jabali M, Dedhar S, Sanghera J. (2002). Integrin-linked kinase, a promising cancer therapeutic target: biochemical and biological properties. [24] Persad S, Dedhar S (2003). The role of integrin-linked kinase (ILK) in cancer progression. http://www.ncbi.nlm.nih.gov/pubmed/12884912 [25] Watts y Strogatz (1998). Collective dynamics of 'small-world' networks. [26] Barabasi & Oltavi (2004). Network biology: understanding the cell's functional organization. [27] Aguirre, C. Algoritmos. Métodos basados en grafos. http://pdg.cnb.uam.es/pazos/cursos/bionet_UAM/Grafos_CAguirre.pdf [28] Paul Flicek, M. Ridwan Amode, Daniel Barrell, Kathryn Beal, Konstantinos Billis, Simon Brent, Denise Carvalho-Silva, Peter Clapham, Guy Coates, Stephen Fitzgerald, Laurent Gil, Carlos García Girón, Leo Gordon, Thibaut Hourlier, Sarah Hunt, Nathan Johnson, Thomas Juettemann, Andreas K. Kähäri, Stephen Keenan, Eugene Kulesha, Fergal J. Martin, Thomas Maurel, William M. McLaren, Daniel N. Murphy, Rishi Nag, Bert Overduin, Miguel Pignatelli, Bethan Pritchard, Emily Pritchard, Harpreet S. Riat, Magali Ruffier, Daniel Sheppard, Kieron Taylor, Anja Thormann, Stephen J. Trevanion, Alessandro Vullo, Steven P. Wilder, Mark Wilson, Amonida Zadissa, Bronwen L. Aken, Ewan Birney, Fiona Cunningham, Jennifer Harrow, Javier Herrero, Tim J.P. Hubbard, Rhoda Kinsella, Matthieu Muffato, Anne Parker, Giulietta Spudich, Andy Yates, Daniel R. Zerbino, and Stephen M.J. Searle Ensembl 2014 Nucleic Acids Research 2014 42 Database issue:D749-D755 doi: 10.1093/nar/gkt1196 [29] Eric J. Nestler, Steven E. Hyman (2002). Regulation of gene expression. Neuropsychopharmacology: The Fifth Generation of Progress. American College of Neuropsychopharmacology Página 33 de 43 Anexo A. Teoría de Grafos Introducción El campo de interés de la Teoría de Grafos reside en el estudio de los grafos y de sus propiedades. Un grafo lo podemos definir como un conjunto de puntos (también llamados vértices o nodos) que se encuentran unidos por medio de una serie de enlaces (también llamados aristas o ramas). De este modo un grafo G estaría constituido por el par (V,E) siendo V y E: - V es un conjunto de elementos denominados vértices. - E es un conjunto de elementos denominados enlaces. Definiendo de esta manera un grafo, pasaremos a definir ciertas propiedades y métricas a las cuales nos referiremos directa o indirectamente a lo largo del presente estudio. Definiciones [19] - Grafo Conexo: Un grafo es conexo si cada par de vértices está conectado por un camino; es decir, si para cualquier par de vértices (a, b), existe al menos un camino posible desde a hacia b. - Orden del Grafo: El número de vértices o nodos del grafo. - Grado de un vértice: El número de enlaces o aristas que tienen como extremo dicho vértice. Este número equivale al número de vecinos de dicho vértice. - Bucle: Es una arista que sale y termina en el mismo vértice. - Grafo Dirigido: Importa el orden de los vértices que definen las aristas, donde existe un vértice inicial y un vértice final. Las aristas tienen asociado un sentido. - Coeficiente de Agrupamiento Local (Watts & Strogatz, 1998): Es una medida asociada a un nodo de un grafo y se podría definir como la proporción media de pares de vecinos de un nodo que también son vecinos entre sí. - Assortativity: Un concepto bastante interesante en la descripción de las redes complejas es la correlación de conectividad entre nodos (assortative mixing). Esta propiedad mide el nivel en que los nodos de mayor grado están conectados. De esta manera aquellas redes en las que los nodos con un alto grado indican una alta preferencia por conectarse con otros nodos de grado alto se les llama de tipo assortative. Por contra existen otro tipo de redes donde los nodos de grado elevado (por ejemplo servidores en la WWW) están generalmente conectados a nodos con un grado menor. En este caso se les llama de tipo dissasortative. - Distribución de grados: La distribución de grados de los nodos en una red viene dado por la función de distribución P(k), que es la probabilidad de que un nodo seleccionado al azar tenga exactamente k enlaces. Página 34 de 43 Figura A1. Ejemplos de tres tipos de redes complejas y su distribución de grados (imagen extraída de http://www.cs.us.es/~fsancho/?e=80 [19]) Página 35 de 43 Anexo B. Bases de Datos y Scripts Introducción Todos los datos que se han utilizado en este estudio se han guardado en una base de datos para facilitar el acceso de los mismos desde los diferentes programas que se utilizarán. El gestor de base de datos que se ha utilizado es PostgreSQL. Para la implementación de los scripts se han utilizado tanto el lenguaje de programación Python como R. Se ha elegido un lenguaje u otro dependiendo del tipo de análisis que se quisiera realizar. La razón de guardar todo en una base de datos y de no almacenar los datos en memoria es por comodidad y porque a través de conectores SQL podremos fácilmente hacer cualquier tipo de consultas de una manera mucho más cómoda y limpia que manteniendo todos los datos en memoria. También de esta manera tenemos la posibilidad de exportar los datos de una manera estructurada y compacta a otros posibles colaboradores. Crear las Tablas de la BBDD [Script SQL: create_tables.sql] TFTG_TRRUST : Contiene las relaciones regulatorias entre los factores de transcripción y los genes a los que regula de la red TRRUST. También contiene su correspondencia en Ensembl. Además se incluye el tipo de relación en caso de ser conocida: activación o represión. Contiene 8,215 entradas. TFTG_TRRUST_PMID: Están asociados a entradas de la tabla TFTG_TRRUST y contiene los índices PubMed de los artículos de donde se ha sacado dicha relación. Contiene 9,618 entradas. TFTG_FLORIAN : Contiene las relaciones regulatorias entre los factores de transcripción y los genes a los que regula de la red FL. También contiene su correspondencia en Ensembl. Además se incluye un score relativo a la confidencia de dicha relación. Contiene 49,442 entradas. PPI_HI_II_14: Contiene las interacciones proteína-proteína de la red HI_II. También contiene la correspondencia de dichas proteínas en Ensembl. Contiene 13,945 entradas. PPI_PINA_IBANEZ: Contiene las interacciones proteína-proteína de la red KI. También contiene la correspondencia de dichas proteínas en Ensembl. Contiene 63,119 entradas. PPI_PINA2: Contiene las interacciones proteína-proteína de la red PINA2. También contiene la correspondencia de dichas proteínas en Ensembl. Contiene 166,676 entradas. Página 36 de 43 PPI_PINA2_PUBMED: Están asociados a entradas de la tabla PPI_PINA2 y contiene los índices bubMed de los artículos de donde se ha sacado dicha interacción. Contiene 237,224 entradas. PPI_PINA2_METHODS: Están asociados a entradas de la tabla PPI_PINA2 y contiene los métodos experimentales utilizados para elucidar tales interacciones. Contiene 241,291 entradas. HASH_IDENTIFIERS: Contiene las anotaciones en Ensembl de todos los genes utilizados en las diferentes bases de datos. Contiene 30,217 entradas. Inserción de Datos [Script Python: insertDataEntriesNormalized.py] Este script crea/limpia la base de datos e introduce los datos según su origen en sus tablas correspondientes. Los datos de origen provienen de los siguientes archivos. - TRRUST: trrust_rawdata.txt - FL: Florians_TFTGnet.txt - HI_II: PPI_HI-II-14.tsv - PINA2: PPI_PINA2_20140521.tsv - KI: PPI_pina_ibanez_2015.tsv Antes de introducir los datos en las tablas, el programa se conecta a un servidor del CNIO (Centro Nacional de Investigaciones Oncológicas) para poder anotar la lista de todos los genes que aparecen en los datos de origen (http://se.bioinfo.cnio.es/Translation/tsv_translate). De esta forma se guarda en cada tabla la anotación en Ensembl para cada gen. Si no existe correspondencia se guarda el nombre original y aunque no será utilizado para formar parte de ninguna red, se almacena con el fin de no perder nada de infornación y tenerlo como guía de referencia en la base de datos. Leer Datos de Expresión [Script R: readExpression.R] [CEL files: consultar Anexo B – Datos de Expresión] Para leer los datos de expresión utilizaremos entre otros, dos paquetes desarrollados para el lenguaje de programación R. Por un lado para leer los datos en sí, utilizaremos la librería affy que extraerá de los datos en crudo (ficheros CEL) los datos de expresión correspondientes a cada una de las sondas Affymetrix. Para normalizar dichos datos de expresión y sacar los genes diferencialmente expresados haremos uso de la librería frma, Frozen robust Multi-Array Analysis [20,21]. El objetivo de este método es obtener intensidades a nivel de gen fiables partiendo de los datos en crudo de los microarrays, corrigiendo ruido de fondo y normalizando. Este algoritmo permite analizar datos provenientes de microarrays y utiliza información proveniente de múltiples bases de datos disponibles. bara nuestro caso, aparte de los datos en crudo de entrada, el algoritmo utilizará una serie de parámetros fijos específicos para Affymetrix HGU133Plus2. El método mapea las intensidades de los genes o zscores a un vector de unos y ceros conforme a un umbral, que por defecto está en 4,98. Aquellos valores de intensidad por encima de este umbral se considerarán genes diferencialmente expresados. Una vez leídos los datos, tenemos que buscar las anotaciones de cada sonda, de tal manera que finalmente nos quedamos con aquellas sondas que apuntan a genes conocidos en Página 37 de 43 Ensembl. De esta manera, de las cerca de 55,000 sondas nos quedamos con 39,472 anotados. Medianizar Datos de Expresión [Script Python: medianize_duplicated_genes.py] De este total de 39,472 genes, tendremos genes duplicados, por lo que debemos de buscar un estimador para el zscore que identifique la expresión de dicho gen. En este estudio hemos utlizado el zscore medianizado. Una vez eliminados los duplicados, trabajaremos con un total de 18,750 genes anotados en Ensembl. Esto lo hemos realizado utilizando un script que toma como argumento los ficheros obtenidos en el paso anterior y devuelve el mismo número de ficheros pero ya procesados sin genes duplicados, medianizando los z-score. Crear Redes y Multiplex [Script Python: functions_multiplex_energy.py] [Script Python: functions_multiplex_others.py] Una vez tenemos ya los zscores asociados a cada gen, pasamos a analizar las redes basándonos en los datos guardados en la base de datos creada inicialmente en el punto 1. Por un lado tenemos las redes basadas en relaciones regulatorias entre factor de transcripción con su gen objetivo, y por otro lado las redes de interacción entre proteínas. bara formar el multiplex se plantean varias alternativas, debido a que tenemos orígenes de datos distintos. En la siguiente tabla se muestran todas las posibles combinaciones que se han contemplado. MULTIPLEX CapaTF-TG Capa PPI FL TRRUST KI HI_II PINA2 FL - KI X - X - - FL - HI_II X - - X - FL - PINA2 X - - - X TRRUST - KI - X X TRRUST - HI_II - X - X - TRRUST - PINA2 - X - - X [FL-TRRUST] - KI X X X - - [FL-TRRUST] - HI_II X X - X - [FL-TRRUST] - PINA2 X X Tabla A1. Diferentes alternativas para el Multiplex X Nuestra primera aproximación será la elección del multiplex que más relaciones e interacciones contenga. Por ello, para la red de regulación transcripcional nuestra elección ideal para el diseño del multiplex sería la unión de las dos redes TF-TG que tenemos: FL y TRRUST. De esta manera, nuestra red de regulación contendrá todas las relaciones que se encuentren en ambas redes. Por otra parte, la red de interacción proteína-proteína ideal para completar el multiplex sería PINA2 por ser aquella que más interacciones contempla. No obstante, estudiaremos todas las posibilidades con más detalle para posteriormente analizar los resultados y decidir qué multiplex es el nos aporta información más relevante según cada caso. Las siguientes tablas muestran información acerca del número de genes que componen cada red, así como el número de interacciones entre ellos. Los multiplex se crearán combinando Página 38 de 43 una de las redes de regulación con alguna de las redes PPI (de ahí que existan hasta 9 posibles multiplex). Cabe indicar que el número de interacciones y nodos mostrados en las tablas pueden diferir ligeramente de los datos originales. Esto es debido a que durante la búsqueda de la anotación en Ensembl, algunos genes no pudieron ser identificados y por lo tanto no se consideran para la composición de las redes. RED DE REGULACIÓN FL TRRUST TRRUST-FL Número de nodos 4604 2713 5090 Número de interacciones 23851 7900 28252 Máx Número de nodos conexos 4596 2672 Tabla A2: Detalle de las Redes de regulación consideradas RED PPI 5080 HI_II PINA2 KI Número de nodos 4232 17030 10649 Número de interacciones 13428 165704 62474 Máx Número de nodos conexos 4100 16980 Tabla A3: Detalle de las Redes PPI consideradas 10533 Solapar Datos de Expresión en Multiplex [Script Python: functions_multiplex_energy.py] Una vez construidos los multiplex se realiza el solapamiento con los datos de expresión de cada tejido. Para cada muestra se aplica el algoritmo indicado en Figura 4 para el cálculo de nE. Esto se realiza tanto para el multiplex completo como para cada una de las capas. Estos datos se representan luego en gráficos tipo boxplot para una mejor interpretación. [Script Python: functions_multiplex_others.py] De igual manera, y una vez tenidos en cuenta los datos de expresión, en este programa se calculan varios parámetros de la red, como el coeficiente de agrupamiento de la red, el diámetro o el número de nodos total. Estos datos se representan luego en gráficos tipo boxplot para una mejor interpretación. Página 39 de 43 Anexo C. Datos de Expresión El origen de los datos en crudo de expresión de genes utilizados en este estudio (ficheros CEL) se muestra en la siguiente tabla. Para poder luego realizar comparativas adecuadas entre los distintos tipos de muestras, se han utilizado únicamente datos provenientes de la plataforma microarray Affymetrix Human Genome U133 Plus 2.0 (aproximadamente 55,000 sondas). DATOS DE EXPRESIÓN ORIGEN TÍTULO Alzheimer NCBI_GEO: GSE5281 Alzheimer's disease and the normal aged brain (steph-affyhuman-433773) Lung 19188 NCBI_GEO: GSE19188 Expression data for early stage NSCLC Lung 19804 NCBI_GEO: GSE19804 Genome-wide screening of transcriptional modulation in nonsmoking female lung cancer in Taiwan Lung 33532 NCBI_GEO: GSE33532 Intratumor heterogeneity of gene expression profiles in early stage non-small cell lung cancer (NSCLC) Ovary – Normal samples: GSM80757, GSM80758, GSM80759, GSM80780, GSM175789,GSM176131, GSM176136, GSM176237, GSM176318. Varios experimentos – Tumoral samples: GSM38064, GSM38065, GSM38066, GSM38070, GSM38071,GSM38088, GSM38095, GSM46815, GSM46821, GSM46830, GSM46831, GSM46839,GSM46853, GSM46886, GSM46897, GSM46898, GSM46910, GSM46911, GSM46918, GSM46925, GSM249675, GSM249676, GSM249677, GSM249678, GSM249714, GSM249715, GSM249716, GSM249717, GSM249718, GSM249719, GSM249720,GSM249721, GSM249722, GSM249723, GSM249724, GSM249725, GSM249726,GSM249727, GSM249728, GSM249729, GSM249730, GSM249731, GSM249732,GSM249733, GSM249734, GSM249735, Página 40 de 43 GSM249736, GSM249737, GSM249738, GSM249739, GSM249740, GSM249741, GSM249742, GSM249743, GSM249744,GSM249745, GSM249746, GSM249747, GSM249749, GSM249750, GSM249751,GSM249752, GSM249753, GSM249754, GSM249755, GSM249756, GSM249757,GSM249758, GSM249759, GSM249760, GSM249762, GSM249763, GSM249766,GSM249767, GSM249769, GSM249770, GSM249773, GSM249774, GSM249775, GSM249776, GSM249777, GSM249778, GSM249779, GSM249780, GSM249781,GSM249782, GSM249783, GSM249784, GSM249785, GSM249786, GSM249788,GSM249789, GSM249790, GSM249791, GSM249792, GSM249793, GSM249794,GSM249795, GSM249796, GSM249797, GSM249798, GSM249799, GSM249801,GSM249802, GSM249803, GSM249804, GSM249805, GSM249807, GSM249808, GSM249809, GSM249811, GSM249812, GSM249815, GSM249816, GSM249817,GSM249818, GSM249819, GSM249820, GSM249821, GSM249822, GSM249824,GSM249825, GSM249826, GSM249827, GSM249830, GSM249832, GSM249833,GSM249835, GSM249836, GSM249837, GSM249838, GSM249839, GSM249840,GSM249841, GSM249842, GSM249844, GSM249845, GSM249846, GSM249847, GSM249848, GSM249849, GSM249850, GSM249851, GSM249852, GSM249853,GSM249854, GSM249855, GSM249856, GSM249857, GSM249858, GSM249859,GSM249860, GSM249861, GSM249862, GSM249863, GSM249866, GSM249868,GSM249869, GSM249870, GSM249871, GSM249872, GSM249874, GSM249875,GSM249876, GSM249877, GSM249878, GSM249879, GSM249880, GSM249881, GSM249882, GSM249883, GSM249884, GSM249885, GSM249886, GSM249888,GSM249889, GSM249890, GSM249892, GSM249893, GSM249894, GSM249895,GSM249897, GSM249898, GSM249899, GSM249900, GSM249901, GSM249902,GSM249903, GSM249904, GSM249905, GSM249906, GSM249907, GSM249908,GSM249909, GSM249910, GSM249912, GSM249913, GSM249915, GSM249916, GSM249917, GSM249918, GSM249919, GSM249920, GSM249922, GSM249923,GSM249924, GSM249925, GSM249926, GSM249927, GSM249928, GSM249929,GSM249930, GSM249932, GSM249933, GSM249934, GSM249936, GSM249939,GSM249940, GSM249941, GSM249942, GSM249943, GSM249946, GSM249948,GSM249950, GSM249951, GSM249953, GSM249954, GSM249955, GSM249956, GSM249957, GSM249958, GSM249959, GSM249960, GSM249961, GSM249962,GSM249963, GSM249965, GSM249966, GSM249967, GSM249968, GSM249969,GSM249971, GSM249972, GSM249973, GSM249974, GSM249975, GSM249976,GSM249977, Página 41 de 43 GSM249978, GSM249980, GSM249981, GSM249983, GSM249984,GSM249985, GSM249986, GSM249987, GSM249988, GSM249990, GSM249992, GSM249993, GSM249994, GSM249995, GSM249996, GSM249998, GSM249999,GSM250000, GSM250001. Colon – Normal samples: GSM95473, GSM95474, GSM95475, GSM95476, GSM95477, GSM95478, GSM95479, GSM95480, GSM175905. Varios experimentos – Tumoral samples: GSM38055, GSM38061, GSM38074, GSM38075, GSM38089,GSM38105, GSM38107, GSM46823, GSM46832, GSM46841, GSM46845, GSM46857,GSM46861, GSM46864, GSM46865, GSM46877, GSM46878, GSM46887, GSM46895, GSM46899, GSM46915, GSM46921, GSM46924, GSM89103. Liver –Normal samples: GSM279063, GSM279064, GSM279065, GSM80728, GSM80729,GSM80730, GSM80739, GSM138595, GSM138596, GSM155919, GSM155926,GSM155927, GSM155928, GSM155947, GSM155948, GSM155961, GSM155964,GSM155988, GSM155989, GSM176332, GSM176333, GSM176334, GSM176335. – Tumoral samples: GSM38078, GSM38108, GSM46848, GSM139131, GSM143545,GSM143546, GSM143547, GSM143548, GSM143549, GSM143550, GSM143551,GSM143552, GSM143553, GSM248688, GSM248689, GSM248690, GSM248691,GSM248692, GSM248693, GSM248694, GSM248695, GSM248696, GSM248697, GSM248698, GSM248699, GSM248700, GSM248701, GSM248702, GSM248703,GSM248704, GSM248705, GSM248706, GSM248707, GSM248708, GSM248709,GSM248710, GSM248711, GSM248712, GSM248713, GSM248714, GSM248715,GSM248716, GSM248717, GSM248718, GSM248719, GSM248720, GSM248721,GSM248722, GSM248723, GSM248724, GSM248725, GSM248726, GSM248727, GSM248728, GSM248729, GSM248730, GSM248731, GSM248732, GSM248733,GSM248734, GSM248735, GSM248736, GSM248737, GSM248738, GSM248739,GSM248740, GSM248741, GSM248742, GSM248743, GSM248744, GSM248745,GSM248746, GSM248747, GSM248748, GSM248749, GSM248750, GSM248751,GSM248752, GSM248753, GSM248754, GSM248755, GSM248756, GSM248757, GSM248758, GSM248759, GSM248760, GSM248761, GSM248762, GSM248763,GSM248764, GSM248765, GSM248766, GSM248767, GSM248768, GSM248769,GSM248770, GSM248771, GSM248772, GSM248773, GSM248774, GSM248775,GSM248776, GSM248777, GSM248778. Página 42 de 43 Varios experimentos Kidney – Normal samples: GSM279060, GSM279061, GSM279062, GSM281311, GSM281312,45GSM281314, GSM281315, GSM281316, GSM175911, GSM198783, GSM198785,GSM240832, GSM240833, GSM240834, GSM240835, GSM240836, GSM240837,GSM240838, GSM240839, GSM240840, GSM240841, GSM240842, GSM240843, GSM240844, GSM240947, GSM240948. Varios experimentos – Tumoral samples: GSM281278, GSM281279, GSM281280, GSM281281, GSM281282,GSM281283, GSM281284, GSM281285, GSM281286, GSM281287, GSM281288,GSM281289, GSM281290, GSM281291, GSM281292, GSM281293, GSM281294,GSM281295, GSM281296,GSM281297,GSM281298,GSM281299,GSM 281300,GSM281301, GSM281302, GSM281303, GSM281304, GSM281305, GSM281306,GSM281307, GSM281308, GSM281309, GSM281310, GSM281313, GSM281317,GSM281318, GSM281319, GSM281320, GSM281321, GSM281322, GSM281323,GSM281324, GSM281325, GSM281326, GSM281327, GSM281328, GSM281329,GSM281330, GSM281331, GSM281332, GSM281333, GSM281334, GSM281335, GSM281336, GSM281337, GSM281338, GSM281339, GSM281340, GSM281341,GSM281342, GSM281343, GSM281344, GSM305099, GSM305100, GSM305101,GSM305102, GSM305103, GSM305104, GSM305105, GSM305106, GSM305107,GSM305108, GSM305109, GSM305110, GSM305111, GSM305112, GSM305113,GSM305114, GSM305115, GSM305116, GSM38073, GSM46825, GSM46826, GSM46847,GSM46858, GSM46875, GSM46881, GSM46882, GSM46892, GSM89104. Tabla A4: Origen e Identificadores de los Datos de Expresión utilizados organizados por tejido/enfermedad Página 43 de 43