reconstrucción y análisis de redes regulatorias multiplex aplicadas

Anuncio
RECONSTRUCCIÓN Y ANÁLISIS DE REDES
REGULATORIAS MULTIPLEX APLICADAS AL ANÁLISIS
DE DATOS DE EXPRESIÓN DE CÁNCER Y ALZHEIMER
Estudiante: TAYSSIR YOUSEF MARTÍN
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2014-2015
CENTRO/EMPRESA: CNIO
DIRECTOR DE LA TÉSIS: VERA PANCALDI
CODIRECTOR DE LA TÉSIS: MIGUEL PONCE DE LEÓN
FECHA: FEBRERO - 2016
Resumen
El objetivo principal del presente estudio es el de construir un modelo de red de interacción
de proteínas y factores de transcripción, empleando para células de humanos el concepto de
multiplex. Las redes multiplex son sistemas multicapa consistentes en una serie de nodos
distribuidos e interconectados en varios niveles y donde los nodos de cada nivel comparten el
mismo tipo de interacción entre cada par de nodos, y a su vez un mismo nodo puede encontrarse
en más de una capa. La motivación para construir este modelo es usarlo como escenario para
poder interpretar datos de expresión con una aproximación más sistémica. Otra de las principales
motivaciones para el uso del multiplex es que información relevante podría no ser capturada si las
capas se analizaran de manera independiente [1].
Para el presente caso se busca la integración en el multiplex de la red de interacción
proteína-proteína (PPI) PINA2 [2] y de una red de regulación transcripcional construida
combinando las bases de datos TRRUST [3] y una red, aún no publicada, reconstruida por Leitner
et al. (FL) [4].
Con el análisis de dicha red multicapa, al que nos referiremos como multiplex, buscamos
identificar ciertas propiedades estructurales que nos permitan evaluar la influencia de cada capa
cuando estemos tratando muestras tumorales y su comparación con casos no tumorales. Para
ello, nos basaremos en un estudio previo realizado por Ibáñez et al. [5]. En dicho trabajo se
construye una red de interacción proteína-proteína curada partiendo de otras redes (PINA, HIPPIE
y HPRD) y se define una función de energía entre vecinos de la red que mide la estabilidad de la
red en términos de alteraciones y perturbaciones. Una conclusión significativa de este trabajo es
que las redes que contienen información de expresión de cuatro tipos de cánceres (ovario, colon,
riñón e hígado) son menos estables que las redes de control de muestras normales no tumorales.
También se descubre que las redes que contienen datos de expresión de pacientes con Alzheimer
son más estables que las redes de control.
En el presente estudio se busca extender estos resultados previamente obtenidos por
Ibáñez et al. [5] para una red PPI en el caso de un multiplex. De esta manera se tendrán en
cuenta otras capas que operan en la célula (en este trabajo hemos construido el multiplex
añadiendo a la red PPI una capa de regulación transcripcional).
Palabras clave:
cancer; multiplex; alzheimer; ppi; factor de transcripción; redes
Página 2 de 43
Tabla de Contenidos
Resumen................................................................................................2
Tabla de Contenidos...............................................................................3
Capítulo 1. Introducción…......................................................................4
Capítulo 2. Materiales y Métodos….......................................................9
Capítulo 3. Resultados…......................................................................13
Capítulo 4. Discusión…........................................................................28
Capítulo 5. Conclusiones y Perspectivas..............................................31
Referencias….......................................................................................32
Anexo A. Teoría de Grafos…................................................................34
Anexo B. Bases de Datos y Scripts…...................................................36
Anexo C. Datos de Expresión…...........................................................40
Página 3 de 43
Capítulo 1.
Introducción
Muchos sistemas complejos se pueden representar por medio del formalismo de la teoría
de grafos [Anexo A: Teoría de Grafos]. Estos sistemas suelen estar formados por un número
elevado de componentes elementales que interactúan entre ellos, pudiendo existir también
interacción con el entorno. Las interacciones tienen por lo general un comportamiento dinámico,
es decir, la estructura de las redes y sus propiedades varían con el tiempo cuando se añaden o se
quitan elementos.
Algunos ejemplos de red compleja tecnológica incluyen la internet, las redes electricas, o
las redes de transporte entre aeropuertos [25]. Acorde con el concepto de red compleja, se podría
definir como una red de routers conectados por líneas físicas. El cerebro se definiría de esta
manera como un sistema complejo también en que una red de neuronas se conectan por medio
de sinapsis. Si este concepto lo trasladamos al campo de la biología de sistemas nos
encontramos multitud de ejemplos de redes complejas como son las redes de interacción entre
proteínas, las redes de regulación génica, las reacciones bioquímicas que constituyen el
metabolismo celular y a mayor escala las redes tróficas dentro de un ecosistema [26]. Las redes
complejas tienen una serie de propiedades estructurales que son claramente diferentes a las de
una red aleatoria (la distribución de grados, el coeficiente de agrupamiento de la red, el diámetro,
etc). El estudio topológico de estas redes puede describirse mediante la teoría de grafos. Según
esta teoría, se define un grafo como un conjunto de objetos llamados nodos unidos mediante
enlaces llamados aristas. De hecho, la teoría de grafos ha sido utilizada recientemente para
clasificación automática de secuencias de proteínas, detección de jerarquías de proteínas o
análisis de redes genéticas, entre otras aplicaciones [27].
Para entender cómo funcionan las redes complejas es preciso describir aquellas
características más importantes y que son comunes a todos los sistemas complejos:
 Suelen estar compuestas por muchos elementos relativamente parecidos que interactúan
entre sí.
 Las interacciones entre sus elementos son locales, aunque originan comportamientos
emergentes de mayor complejidad que no pueden explicarse simplemente tomando los
elementos de manera aislada [8].
 Dado el gran número de componentes e interacciones entre los mismos, los sistemas
complejos exhiben propiedades emergentes, de tal manera que es muy complicado
describir el efecto global en el sistema ante una perturbación local de un componente.
Por ejemplo, en el caso de las de redes de interacción entre proteínas, se revela la
conectividad de un proteoma dado un contexto celular concreto. Estas redes de interacción son
dinámicas, cambian en el tiempo y en el espacio para amoldarse a las diferentes condiciones
fisiológicas. Una posible aplicación es la captura de los cambios en la conectividad de las
proteínas según avanza cierta enfermedad [9].
Un tipo de relaciones con las que vamos a trabajar son las denominadas redes de
interacción entre proteínas (PPIs) donde los nodos son proteínas unidas por una relación de
interacción física. Las proteínas cumplen multiples roles dentro de una célula (reconocimiento,
catálisis, etc) pudiendo interactuar con otros componentes celulares como ácidos nucleicos,
Página 4 de 43
pequeños metabolitos y otras proteínas, para así constituir subsistemas moleculares que permitan
a la maquinaria celular elaborar multitud de funciones, interviniendo por ejemplo tanto como
catalizadores de reacciones como en procesos de señalización y regulación.
Figura 1. Red de interacción para la proteína TP53 utlizando la herramienta STRING database,
(http://string-db.org, base de datos de interacciones entre proteínas). Por simplicidad, en la figura
sólo se muestran hasta 12 proteínas que interactúan con TP53.
En el caso de redes de regulación génica, los nodos de la red serían por un lado los
factores de transcripción (TF) y por otro los genes a los que regulan y los enlaces son las
relaciones de regulación. Un TF es una proteína que participa en la regulación de la transcripción
del DNA. Los TF pueden actuar reconociendo y uniéndose a secuencias concretas de DNA (ver
Figura 2), uniéndose a otros factores, o uniéndose directamente a la RNA polimerasa. En la
Figura 2 se muestra la función principal de los TF a la hora de iniciar el proceso de transcripción
de un gen. La RNA polimerasa requiere la presencia de TF para poder comenzar la transcripción
de un gen. Las interacciones que ocurren entre los TF, la RNA polimerasa y el promotor permiten
a la RNA polimerasa moverse a lo largo del gen produciendo la síntesis de mRNA. Los TF pueden
inhibir también la expresión de un gen de diversas maneras, por ejemplo bloqueando la unión de
la RNA polimerasa al promotor.
Página 5 de 43
Figura 2. Diagrama que muestra los elementos que intervienen en el proceso de transcripción del
mRNA(http://biowiki.ucdavis.edu/Textbook_Maps/OpenStax_Biology/3%3A_Genetics/16%3A_Gene_Expre
ssion/16.4%3A_Eukaryotic_Transcription_Gene_Regulation)
Los TF son estimulados por señales citoplasmáticas de tal manera que cuando se activan
adquieren la capacidad de regular la expresión génica, bien activando, bien reprimiendo la
transcripción de diversos genes. Ocurre además que ciertos TF pueden sufrir mutaciones que los
mantienen continuamente activos sin necesidad de señales externas (por ejemplo, como sucede
con algunos oncogenes), estimulando sin control la síntesis de proteínas implicadas en la
regulación del ciclo celular. Esto puede dar lugar al crecimiento incontrolado de las células y por
tanto a un tumor. El conocimiento de estas interacciones resulta de vital importancia en el estudio
del origen de múltiples enfermedades. De hecho la base de ciertas enfermedades estriba muchas
veces en la aparición o supresión de interacciones entre proteínas que no se esperan, como
ocurre en los casos de Alzheimer (AD) y cáncer que serán nuestro principal objeto de estudio.
Figura 3. Diagrama que muestra las diferentes etapas de regulación génica
(https://en.wikipedia.org/wiki/Regulation_of_gene_expression#/media/File:Gene_expression_control.png)
Tal y como se muestra en Figura 3, existen diferentes etapas que pueden regular la
expresión de un gen. De hecho los TF pueden intervenir en diferentes etapas de la regulación de
la expresión celular, ya sea uniéndose a promotores facilitando la transcripción o bloqueando la
RNA polimerasa inhibiendo la transcripción. Por ello en el multiplex que se diseñará, los TF
Página 6 de 43
tendrán un rol muy importante tanto en las interacciones a nivel regulatorio como en las
interacciones proteína-proteína.
El objetivo del presente trabajo es la creación de un multiplex que incluya una capa de red
de interacción de proteínas y una capa de regulación génica. A su vez, este modelo será
empleado para el análisis de datos de expresión. Las dos capas que utilizaremos serán por un
lado una red de interacción PPI (PINA2 [2]) y por otro una red de regulación transcripcional
compuesta por factores de transcripción y genes a los que regulan (red combinada entre TRRUST
[3] y la red generada por Leitner et al. [4]).
Una vez que tengamos los datos de expresión proyectados sobre las redes estudiaremos
las propiedades del multiplex que se expresa en distintos estadios celulares. Así en el caso de que
una proteína no esté expresada en cierta condición, producirá que todas las interacciones que
tiene con el resto de nodos de la red aparezcan también desactivados.
El estudio de la estabilidad de dichas redes a través de una expresión para el cálculo de
energía (ver Capítulo 2. Materiales y Métodos – Método para el cálculo de la estabilidad), nos
permitirá establecer diferencias y similitudes entre los diferentes tipos de muestras y tejidos que
serán objeto de análisis. Otra de las métricas que utilizaremos será el coeficiente de agrupamiento
de cada red, el cual se calculará tanto en muestras tumorales como en las no tumorales. Este
parámetro puede ser útil para la evaluación de la organización de complejos proteicos o también,
por ejemplo, para el estudio de la agrupación de proteínas involucradas en el mismo proceso de
señalización.
Según ciertos estudios las proteínas esenciales, las cuales son importantes para la
supervivencia celular, están altamente conectadas de tal manera que cualquier tipo de alteración
en las mismas produce grandes efectos en la red de interacción [10]. Por otro lado existen
diversos trabajos de investigaciones que han estudiado la relación existente entre la topología de
la red y la esencialidad de la proteína, y argumentan que los nodos más conexos (hubs) forman
parte de complejos esenciales. De esta forma las proteínas esenciales tienden a tener más
interacciones conforme estos complejos sean mayores [11].
Paralelamente en el caso del cáncer, se cree que las proteínas relacionadas con el origen
de dicha enfermedad, corresponden a los hubs centrales de la red, los nodos con mayor grado en
la red [12]. Y más en concreto para el caso de cáncer de pulmón, nos encontramos con que los
genes que están diferencialmente expresados tienen una mayor centralidad que aquellos que no
lo están o aquellos elegidos de manera aleatoria [13].
Todos estos estudios muestran indicios de que hay ciertas propiedades estructurales de las
redes de interacción (por ejemplo centralidad, número de interacciones) que capturan ciertas
características de la organización funcional y el comportamiento celular (esencialidad). Si creamos
un multiplex, quizás seamos capaces de elucidar más información por medio de un análisis
topológico de las diferentes capas de la red.
El enfoque que se ha dado en este trabajo para estudiar la influencia de cada capa del
multiplex en la estabilidad celular estará basado en el concepto de Simulated Annealing inspirado
por los autores Kirkpatrick & Vecchi [14] y Cerny [15]. Este procedimiento permite encontrar el
mínimo global de una función genérica de coste. Reproduce la manera en la que un sólido alcanza
su configuración de energía mínima a través de un proceso lento de enfriamiento. En este estudio
se ha utilizado una versión modificada, y será la misma que la utilizada por Ibáñez et al. [5] donde
se calcula la energía basada en las interacciones existentes y la diferencia de energía entre dos
estados (caso y control). En ese mismo estudio, se afirma que las redes PPI expresadas en
células de cáncer son más inestables que aquellas relacionadas con enfermedades neurológicas.
Se argumenta en dicho trabajo que puede ser debido a que hay más interacciones activas entre
las proteínas relacionadas con cáncer y de este modo un cambio o mutación de cualquiera de
ellas puede provocar una desestabilización de la red. Por contra, las proteínas que corresponden
a genes afectados en trastornos neurológicos tienen un menor número de conexiones activas y
son menos susceptibles a la desestabilización. Existen otros estudios en los que se indica que la
Página 7 de 43
frecuencia de desarrollar cáncer en general con el tiempo es significativamente menor en
pacientes con Alzheimer, mientras que en pacientes con un historial de cáncer existe menor
frecuencia de desarrollar Alzheimer. De hecho es conocido que en el cáncer, los mecanismos de
regulación celular se ven afectados con un aumento de la supervivencia y/o proliferación celular,
mientras que por contra, el Alzheimer está asociado con un incremento de la muerte neuronal [6],
[7].
En cuanto a la reconstrucción de las redes de regulación, nos encontramos que uno de los
métodos que se utilizan en la actualidad es ChIP-seq, un método donde se combina
inmunoprecipitación por cromatina con secuenciación masiva del ADN para identificar los sitios de
unión de los factores de transcripción al ADN. El peak calling es el método computacional usado
para identificar las áreas del genoma que han sido enriquecidas con lecturas alineadas como
consecuencia de hacer un ChIP-seq. Estas áreas son aquellas donde las proteínas interaccionan
con el ADN. Sin embargo estos métodos carecen de la precisión y cobertura adecuadas incluso
fallando en casos de eventos de regulación ya conocidos produciendo falsos positivos. Esto es
debido a que el proceso es muy complicado y hay que realizar mucha interpretación para poder
sacar regulación funcional a partir de una masa de picos y de sitios de unión. ChIP-Seq sirve para
detectar eventos de asociación TF-ADN, pero la unión directa no puede asegurarse con certeza y
hay dificultades identificando ciertos aspectos regulatorios como el gen sobre el que actúa el TF o
la direccionalidad [4].
Otro de los métodos comúnmente utilizados para inferir redes de regulación es usando
perfiles de expresión de microarrays. Por ejemplo, ARACNE es un método que está basado en la
teoría de la información. Mediante el uso del concepto de información mutua se determina la
dependencia que existe entre los genes y así se eliminan interacciones indirectas [16].
Para este trabajo se ha utilizado la combinación de dos redes de regulación inferidas por
técnicas de text mining. Tanto en la base de datos curada TRRUST [3] como en el método
desarrollado por Leitner et al. [4] se extraen explícitamente eventos de regulación transcripcional
usando text mining, por lo que la red de regulación resultante es inferida directamente de
experimentos a pequeña escala publicados ofreciendo una clara ventaja respecto a los otros
métodos mencionados.
Como resumen introductorio, destacar que en el presente trabajo se busca extender los
resultados de Ibáñez et al. [5] a una red multicapa, para ver si la topología de la red incluyendo la
capa de regulación y sus interacciones con la PPI puede cambiar las tendencias reportadas en
dicho estudio. Las dos capas que utilizaremos serán por un lado una red de interacción PPI
(PINA2 [2]) y por otro una red de regulación generada por medio de técnicas text mining
compuesta por factores de transcripción y genes a los que regulan (red combinada entre TRRUST
[3] y la red generada por Leitner et al. [4]). Utilizaremos el multiplex creado para analizar sus
propiedades estructurales cuando se tiene en cuenta información de expresión (cáncer y
Alzheimer).
Página 8 de 43
Capítulo 2.
Materiales y Métodos
Por un lado, tenemos datos relativos a redes de interacción y de regulación que nos
servirán para generar las redes, y por otro tenemos datos de expresión. Una vez volcados los
datos de expresión sobre cada una de las redes, podremos construir nuestro multiplex y estudiar
diferencias/similitudes para cada uno de los casos que se van a tratar. Veamos primero qué datos
son de los que partimos para construir el multiplex (redes PPI y de regulación).
Redes de Interacción Física

Protein Interaction Network Analysis platform (PINA2)
La plataforma Protein Interaction Network Analysis (PINA) integra datos de interacción
proteína-proteína de seis bases de datos públicas curadas (IntAct, MINT, BIOGRID, DIP, HPRD y
MIPS/MPact.) y construye un conjunto de datos de interacciones no redundantes para seis
organismos modelos. En nuestro caso utilizaremos la base de datos de Homo sapiens que consta
de un total de 166,776 interacciones [2].

Human Interactome Project – CCSB Interactome Database (HI_II)
Se han utilizado datos correspondientes a la segunda fase del proyecto de interactoma
humano del CCSB (2014), consistente en un conjunto de datos que considera aproximadamente
14,000 interacciones binarias [17]. Al contrario que las interacciones curadas por medio de la
literatura en las que existen genes que son descritos en cientos de experimentos mientras que
otros aparecen apenas en unos pocos, las interacciones de proteínas descritas en HI_II_14 están
distribuidas homogéneamente a lo largo de todo el espacio del interactoma, lo cual disminuye el
sesgo experimental considerablemente.

Red de Ibañez, Kristina (KI)
Esta red ensamblada por Ibáñez et al. [5] está basada en las siguientes bases de datos de
interacción entre proteínas:
- Protein Interaction Network Analysis - PINA
- Human Protein Reference Database - HPRD
- Human Integrated Protein-Protein Interaction Reference - HIPPIE
Se han seleccionado aquellas interacciones con una puntuación de curación de 0,73 en HIPPIE,
para ser más confidente con las parejas de proteínas que interaccionan.
Redes de Regulación Génica
Se van a utilizar dos redes de regulación transcripcional. Estas redes se caracterizan por
indicarnos una relación directa entre factor de transcripción (TF) y gen objetivo (TG) al que regula.
De este modo si un factor de transcripción está activado (expresado) tendrá la capacidad de
regular la expresión de cierto gen, ya sea activando la transcripción de dicho gen o inhibiéndola.
Página 9 de 43
Uno de los métodos más novedosos que se utilizan para enfocar este problema, es el de la
reconstrucción de redes regulatorias por medio de técnicas text mining. Dos bases de datos
generadas con esta filosofía serán las que utilicemos en este estudio.

TRRUST
TRRUST (Transcriptional Regulatory Relationships Unraveled by Sentence-based Text
Mining) es una base de datos curada manualmente de redes de regulación transcripcional
humana [3]. La versión que se ha utilizado contiene 8,015 relaciones reguladoras, que se dan
entre 748 factores de transcripción humanos (TFs) y 1,975 genes que no son TF (non TFs)
derivados de 6,175 artículos de pubmed, en los cuales se describen estudios experimentales a
pequeña escala de regulaciones transcripcionales. Para buscar una verificación experimental de la
relación funcional entre el TF y el gen afectado se han analizado además cientos de miles de
experimentos a pequeña escala mediante técnicas Text Mining.

Red de Leitner, Florian (FL)
Esta base de datos generada por F. Leitner describe relaciones de regulación
transcripcional basadas en miles de experimentos a pequeña escala mediante la aplicación de
técnicas Text Mining [4]. En ella a parte de indicar las relaciones entre distintos factores de
transcripción y su correspondiente gen al que regula, también se indica una puntuación que indica
la fiabilidad de la existencia de esa relación según el número de referencias en los artículos y su
relevancia.
Datos de Expresión
Para cáncer se han utilizado los mismos conjuntos de datos que Kristina Ibáñez en su
estudio [5]. Se incluyen datos de expresión de cáncer de colon, ovario, riñón e hígado. Además se
ha añadido otro conjunto de datos con muestras de pacientes con cáncer de pulmón [Anexo C:
Datos de Expresión].
Los datos de expresión para Alzheimer que se han utilizado se han dividido según el origen
del tejido, pudiendo venir de hasta seis regiones del cerebro distintas, las cuáles están
identificadas como relevantes respecto a la enfermedad de Alzheimer [Anexo C: Datos de
Expresión].
Solapamiento de las Redes
Para realizar el solapamiento de la red PPI y de la red de regulación, debemos de utilizar el
mismo tipo de nomenclatura o identificadores cuando nos refiramos a los nodos, ya que el origen
de las bases de datos es distinto. Se ha utilizado para nombrar los genes, proteínas y factores de
transcripción el sistema de identificadores de Ensembl [28]. De esta manera, una vez tengamos
las redes por separado con la misma nomenclatura, podremos montar el multiplex y realizar el
solapamiento correspondiente, identificando los nodos que se encuentran en múltiples capas.
Durante el proceso de construcción del multiplex perdemos algo de información debido a que hay
ciertos genes y/o TF de los que no encontramos su equivalente en Ensembl. Las interacciones en
las que intervengan estos genes por lo tanto se perderán para los análisis posteriores. Una
situación similar se presenterá al traducir los nombres de las sondas correspondientes a los datos
de expresión del microarreglo.
De esta manera para el caso del solapamiento entre las redes PINA2 y TRRUST+FL nos
encontramos con un total de 17,505 genes y 192,104 interacciones, todos con su anotación en
Ensembl correspondiente.
Página 10 de 43
En cuanto a lo que se refiere a lo datos de expresión utilizados, se han usado datos de
arrays Affymetrix Human Genome U133 Plus 2.0 y habrá también sondas de las que no
encontremos equivalencia en Ensembl. Dichos genes tampoco se tendrán en cuenta para
argumentaciones ulteriores y sus relaciones se perderán en el multiplex generado. Los pasos que
se han seguido han sido los siguientes:
1) Construir el multiplex con sólo genes anotados en Ensembl.
2) Leer datos de expresión.
3) Buscar anotación en Ensembl para todas las sondas y descartar aquellas de las que no
encontremos anotación.
4) Medianizar el valor de expresión asignado a las sondas que apuntan al mismo gen (en
este punto identificamos hasta un total de 18,750 genes).
5) Según los datos de expresión, realizar un proceso de binarización donde
identificamos aquellos genes que están activos [20] [21].
6) Proyectar los datos de expresión en el multiplex y quedarse con la red formada por sólo
aquellos genes que se encuentran activos.
Para más información consultar [Anexo B: Bases de Datos y Scripts].
Método para el cálculo de la estabilidad
La métrica más importante que utilizaremos para comparar los datos de expresión
proyectados sobre las redes será el caĺculo de la energía global previamente propuesto por Ibáñez
et al. [5]. En dicho trabajo se indica cómo calcular la energía para cada gen según su vecindario y
la expresión génica de los mismos. Este parámetro está relacionado con la estabilidad de la red.
En la Figura 4 se indican las fórmulas que se han utilizado para el cálculo de la energía.
Figura 4. Fórmulas utilizadas para el algoritmo modificado de Simulated Annealing (SA) utilizadas
para comparar los datos de expresión una vez proyectados sobre el multiplex (Ibáñez et al. [5])
Página 11 de 43
Se podría describir el algoritmo de cálculo de la siguiente manera:
1) Para cada nodo i se cogen todas las interacciones que tiene con sus vecinos.
2) Para cada interacción se le asigna un peso Wij. Tendrá valor de +1 si uno o ambos de
los dos genes no está expresado y de -1 en el caso de que ambos genes se encuentren
expresados.
3) Se calculan las significancias de cada gen, entendiendo ésta como la probabilidad de
obtener dicho valor de
expresión dada la muestra de valores de expresión asumiendo una
distribución normal. Se multiplican entonces los valores de las significancias (Si, Sj)
de cada
nodo de cada interacción, según los datos de expresión y se pondera por el
valor Wij
calculado en el paso 2.
4) Este cálculo se realiza para todos los vecinos del nodo i, dando su suma una medida
de de energía a nivel local del nodo i.
5) Iterando para todos los nodos de la red y sumando todos los valores de energía local
nos dará una medida de energía a nivel global de la red.
Valores más bajos de energía (nE a partir de ahora siguiendo la notación descrita en
Figura 4) están relacionados con una mayor estabilidad de la red y viceversa.
Página 12 de 43
Capítulo 3.
Resultados
Proyección de datos de expresión en el Multiplex: Cáncer
A continuación vamos a mostrar los resultados obtenidos una vez proyectados los datos de
expresión de cáncer sobre cada uno de los posibles multiplex. De esta manera, podremos ver si
existe alguna diferencia significativa entre las muestras normales y las afectadas por alguno de los
tipos de cánceres considerados: colon, riñón, hígado, pulmón y ovario.
Los datos de expresión de cada muestra se proyectan sobre el multiplex y se realiza el
cálculo basado en la energía de las interacciones existentes. Luego se compara la distribución de
las energías de las distintas muestras entre los dos casos de estudio: normal – tumor. Se aplica el
algoritmo descrito en la Figura 4 del capítulo anterior. Este cálculo se realiza tanto para el
multiplex completo, como para cada una de las dos capas. Y todo ello se repetirá para cada uno
de los 9 posibles multiplex que se han contemplado (ver Tabla A1 [Anexo B: Bases de Datos y
Scripts]).
El estadístico que utilizaremos a lo largo de este trabajo para comparar las medianas de
dos conjuntos de muestras será el p-valor obtenido al realizar una prueba de suma de rangos
Wilcoxon (conocida como Wilcoxon rank-sum Test o Mann-Whitney U Test). Es un test no
paramétrico para comparar la mediana de dos muestras relacionadas y determinar si existen
diferencias entre ellas (el test se puede considerar como la versión no paramétrica del test de la tStudent). Este estadístico nos permitirá ver si las medianas de las energías son significativamente
diferentes entre tumor y control. Cuanto más pequeño sea este valor, mayor confianza hay en que
las dos muestras provengan de poblaciones independientes.
TIPO DE MUESTRA
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Control
9
27
23
50
60
80
9
Tumor
24
90
104
94
60
80
267
Tabla 1. Número de muestras para cada tipo de tejido (COL: colon; KID: kidney; LIV: liver; LUN:
lung; OVA: ovary).
Tal y como se observa en Tabla 1 (menos quizás para los controles de colon y ovario) el
número de muestras que tenemos al respecto para cada tejido es bastante representativo, sobre
todo en muestras de tejido pulmonar, con lo que podremos dar una mayor confiabilidad a la
interpretación de los resultados. Para estos datos consideraremos como significativos aquellos pvalores por debajo de 0,001. Vamos a realizar los cálculos para los tres posibles tipos de red de
regulación contemplados y mostraremos los resultados en Tabla 2 para cada uno de los posibles
multiplex:
a) Red combinada TRRUST-FL + (HI_II ó PINA2 ó KI)
b) Red TRRUST + (HI_II ó PINA2 ó KI)
c) Red FL + (HI_II ó PINA2 ó KI)
MUX1
COL
KID
LIV
Página 13 de 43
LUN
LUN
LUN
OVA
19188
-5
-3
-2
-8
19804
~10-11
~10-2
Multiplex Bi-Capa
~10
~10
~10
~10
Capa PPI - HI_II
~10-5
~10-5
~10-6
~10-1
~10-4
~10-1
~10-5
Capa Reg – TRRUST+FL
~10-4
~10-3
~10-2
~10-9
~10-7
~10-11
~10-1
MUX2
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-5
~10-5
~10-8
~10-2
~10-2
~10-1
~10-7
Capa PPI - PINA2
~10-5
~10-5
~10-8
~10-2
~10-2
~10-1
~10-7
Capa Reg – TRRUST+FL
~10-4
~10-4
~10-6
~10-1
~10-3
~10-2
~10-6
MUX3
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-4
~10-5
~10-6
~10-3
~10-5
~10-8
~10-5
Capa PPI - KI
~10-4
~10-5
~10-6
~10-3
~10-5
~10-7
~10-5
Capa Reg – TRRUST+FL
~10-4
~10-4
~10-4
~10-5
~10-6
~10-11
~10-3
MUX4
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-5
~10-3
~10-2
~10-9
~10-7
~10-11
~10-2
Capa PPI - HI_II
~10-5
~10-5
~10-6
~10-1
~10-4
~10-1
~10-5
Capa Reg – FL
~10-4
~10-2
~10-1
~10-9
~10-8
~10-12
~10-1
MUX5
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-5
~10-5
~10-8
~10-3
~10-2
~10-1
~10-7
Capa PPI - PINA2
~10-5
~10-5
~10-8
~10-3
~10-2
~10-1
~10-7
Capa Reg – FL
~10-4
~10-4
~10-6
~10-1
~10-4
~10-4
~10-6
MUX6
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-4
~10-5
~10-6
~10-3
~10-5
~10-8
~10-5
Capa PPI - KI
~10-4
~10-5
~10-7
~10-2
~10-5
~10-7
~10-6
Capa Reg – FL
~10-4
~10-4
~10-4
~10-6
~10-6
~10-12
~10-3
MUX7
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-5
~10-5
~10-5
~10-4
~10-5
~10-4
~10-6
Capa PPI - HI_II
~10-5
~10-6
~10-8
~10-1
~10-2
~10-1
~10-7
Capa Reg – TRRUST
~10-4
~10-4
~10-2
~10-7
~10-6
~10-7
~10-3
MUX8
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Multiplex Bi-Capa
~10-5
~10-6
~10-9
~10-4
~10-1
~10-2
~10-7
Capa PPI - PINA2
~10-5
~10-6
~10-9
~10-4
~10-1
~10-2
~10-7
Capa Reg – TRRUST
~10-4
~10-5
~10-7
~10-1
~10-2
~10-1
~10-6
MUX9
COL
KID
LIV
LUN
LUN
LUN
OVA
Página 14 de 43
~10
33532
-7
19188
-4
-5
-7
-1
Multiplex Bi-Capa
~10
~10
~10
~10
Capa PPI - KI
~10-4
~10-5
~10-8
~10-1
19804
33532
-4
~10-5
~10-6
~10-4
~10-4
~10-6
~10
Capa Reg – TRRUST
~10-4
~10-5
~10-5
~10-3
~10-4
~10-5
~10-4
Tabla 2: Orden de los p-valores del test Wilcoxon rank-sum para las energías de las redes
resultantes entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo:
energía del tejido normal mayor a la energía del tejido tumoral; sombreado verde: energía del
tejido tumoral mayor a la energía del tejido normal; sin sombreado: p-valor mayor a 0,001). Cada
columna representa el tipo de tejido correspondiente a las muestras utilizadas (COL: colon, colon;
KID: kidney, riñón; LIV: liver, hígado; LUN19188,LUN19804,LUN33532: lung, pulmón; OVA: ovary,
ovario). Los multiplex MUX1, MUX2 y MUX3 utilizan como capa de regulación la red combinada
entre TRRUST y FL. Los multiplex MUX4, MUX5 y MUX6 utilizan como capa de regulación la red
FL. Los multiplex MUX7, MUX8 y MUX9 utilizan como capa de regulación la red TRRUST. Como
capa PPI, MUX1-MUX4-MUX7 utilizan HI_II, MUX2-MUX5-MUX8 utilizan la red PINA2 y MUX3MUX6-MUX9 utilizan la red KI.
En Tabla 2 se indican el orden de los p-valores del test Wilcoxon rank-sum para las
energías de las redes resultantes entre muestras normales y aquellas correspondientes a tumor.
Para saber qué muestras son las que tienen mayor valor energía (nE global) utilizamos un código
de colores, de tal manera que el color amarillo en la tabla significa que la medianas de la energía
de las células normales es mayor a la medianas de la energía de las células tumorales. El color
verde indica lo contrario, que la medianas de la energía de las células tumorales es mayor a la
medianas de la energía de las células normales. En primer lugar se analizaron los resultados
obtenidos empleando el multiplex que contemple mayor número de interacciones, y que
corresponde a MUX2: PINA2 y TRRUST+FL.
MUX2:
CAPA Regulación: Combinación TRRUST-FL
CAPA PPI: PINA2
MULTIPLEX - MUX2
PINA2 / TRRUST-FL
Número de nodos
17505
Número de interacciones
192104
Máx Número de nodos
17473
conexos
Tabla 3: Información detallada referida al Multiplex 2
Página 15 de 43
MULTIPLEX - CAPAS
LIVER (hígado)
Figura 5A
MUX2 (Completo)
Figura 5B
MUX2 – Capa PPI
Figura 5C
MUX2 – Capa Regulación
Figura 5. En la figura 5A se muestra la distribución de energía para hígado para el multiplex
completo MUX2, en la figura 5B para la capa de interacción proteína-proteína y en la figura 5C
para la capa de regulación. En color amarillo aparece la distribución de energía para las muestras
de control, y en verde la distribución de energía para las muestras tumorales de hígado.
Página 16 de 43
MULTIPLEX
LUNG 19804 - MUX1
LUNG 19804 - MUX2
p-value = 2,85E-07
p-value = 6,39E-02
p-value = 6,71E-04
p-value = 6,39E-02
6A1 – 6A2
MUX1/MUX2
(Completo)
6B1 – 6B2
MUX1/MUX2
Capa PPI
6C1 - 6C2
MUX1/MUX2
Capa
Regulación
p-value = 1,45E-07
p-value = 1,66E-03
Figura 6: Distribución de energía para Lung (estudio 19804). En la figura 6A1-6A2 se muestra la
distribución de energía para pulmón para los multiplex completo MUX1 y MUX2. En las figuras
6B1-6B2 para la capa de interacción proteína-proteína y en las figura 6C1-6C2 para la capa de
regulación. En color amarillo aparece la distribución de energía para las muestras de control, y en
verde la distribución de energía para las muestras tumorales de hígado.
Para cada conjunto de datos relacionados con cáncer, se ha estudiado la estabilidad para
ambos casos, tumor y control. Se ha analizado la red de interacción de cada multiplex para cada
muestra, aplicando el algoritmo propuesto en Figura 4 y obteniendo un valor para nE (distribución
de energía) que está relacionado con la estabilidad de la red. Cuanto más pequeño sea este valor,
indicará mayor estabilidad.
En la Figura 5 se muestran empleando boxplots la distribución para la energía calculada
para los datos de hígado en céulas tumorales y normales. En la Figura 5A se calcula nE para todo
Página 17 de 43
el multiplex MUX2, en la Figura 5B sólo se tiene en cuenta los genes encontrados en la capa PPI
y por último en la Figura 5C sólo se consideran los genes encontrados en la capa de regulación.
En color amarillo están representadas las muestras de control y en verde las muestras de tumor.
Se observa directamente que las medianas de nE obtenidas para tumor son mayor que las
obtenidas para control, indicando una mayor estabilidad de las células normales, tal y como se
esperaba según el trabajo de Ibáñez et al. [5]. La diferencia que se observa entre tumor y control
es bastante significativa puesto que el valor obtenido para el multiplex arroja un p-valor para el test
de Wilcoxon rank-sum del orden de 10-8.
En la Figura 6 se muestran los boxplots calculados para un conjunto de datos utilizados de
pulmón (Lung_19804). En esta ocasión mostramos los cálculos para dos tipos de multiplex
distintos, MUX2 (PINA2 – TRRUST+FL) y MUX2 (HI_II – TRRUST+FL). Es decir, cambiando la
capa PPI observamos una diferencia más significativa entre tumor y control en el caso de MUX1.
Además, al contrario que sucedía para muestras de cáncer de hígado (Figura 5) las células de
tejido tumoral en pulmón parecen ser más estables que las células normales.
Proyección de datos de expresión en el Multiplex:
Alzheimer
A continuación mostramos los resultados obtenidos una vez proyectados los datos de
expresión de Alzheimer sobre cada uno de los posibles multiplex. De esta manera, podremos ver
si existe alguna diferencia significativa entre las muestras normales y las afectadas por Alzheimer.
Al igual que para datos de cáncer, utilizaremos el mismo algoritmo para el cálculo de las energía
de cada red (Figura 4). También comprobaremos si hay alguna región del cerebro donde estas
diferencias sean más significativas.
Al igual que en el apartado anterior, para cada muestra se realiza un cálculo basado en la
energía de las interacciones existentes y la diferencia de energía entre los dos casos de estudio:
normal – afectado por Alzheimer. El total de muestras utilizadas asciende a 162, sin embargo,
como hemos separado las muestras según el tipo de tejido, nos encontramos con que la población
muestral queda bastante mermada para cada caso de estudio, por ejemplo para la región Superior
Frontal Gyrus, tenemos sólo 35 muestras. Esto implica que habrá que tener especial cuidado a la
hora de interpretar los resultados que se obtengan.
TIPO DE MUESTRA
EC
HIP
MTG
PC
VCX
SFG
Control
10
10
16
9
19
23
Afectada por Alzheimer
13
13
12
13
12
12
Tabla 4. Número de muestras para cada tipo de tejido (EC: entorhinal cortex; HIP: hippocampus;
MTG: medial temporal gyrus; PC: posterior cingulate; VCX: primary visual cortex; SFG: superior
frontal gyrus).
Página 18 de 43
MUX1
EC
-3
HIP
-1
MTG
-3
PC
VCX
SFG
-1
~10
~10-5
Multiplex Bi-Capa
~10
~10
~10
Capa PPI - HI_II
~10-1
~10-1
~10-1
~10-2
~10-1
~10-1
Capa Reg – TRRUST+FL
~10-4
~10-2
~10-4
~10-3
~10-1
~10-6
MUX2
EC
HIP
MTG
PC
VCX
SFG
Multiplex Bi-Capa
~10-1
~10-2
~10-1
~10-4
~10-2
~10-1
Capa PPI - PINA2
~10-1
~10-2
~10-1
~10-4
~10-2
~10-1
Capa Reg – TRRUST+FL
~10-1
~10-1
~10-1
~10-3
~10-1
~10-1
MUX3
EC
HIP
MTG
PC
VCX
SFG
Multiplex Bi-Capa
~10-1
~10-1
~10-1
~10-3
~10-1
~10-1
Capa PPI - KI
~10-1
~10-1
~10-1
~10-3
~10-1
~10-1
Capa Reg – TRRUST+FL
~10-2
~10-1
~10-3
~10-1
~10-1
~10-5
MUX4
EC
HIP
MTG
PC
VCX
SFG
-1
~10
~10-5
-2
-1
-2
~10
-1
Multiplex Bi-Capa
~10
~10
~10
Capa PPI - HI_II
~10-1
~10-2
~10-1
~10-2
~10-1
~10-1
Capa Reg –FL
~10-4
~10-2
~10-3
~10-3
~10-1
~10-6
MUX5
EC
HIP
MTG
PC
VCX
SFG
-2
~10
~10-1
-1
-2
-1
~10
-1
Multiplex Bi-Capa
~10
~10
~10
Capa PPI - PINA2
~10-1
~10-2
~10-1
~10-4
~10-2
~10-1
Capa Reg – FL
~10-1
~10-1
~10-1
~10-3
~10-1
~10-2
MUX6
EC
HIP
MTG
PC
VCX
SFG
Multiplex Bi-Capa
~10-1
~10-1
~10-3
~10-3
~10-1
~10-1
Capa PPI - IBANEZ
~10-1
~10-1
~10-1
~10-3
~10-1
~10-1
Capa Reg – FLORIAN
~10-2
~10-1
~10-3
~10-1
~10-1
~10-5
MUX7
EC
HIP
MTG
PC
VCX
SFG
Multiplex Bi-Capa
~10-1
~10-1
~10-2
~10-2
~10-1
~10-1
Capa PPI - HI_II
~10-2
~10-3
~10-1
~10-4
~10-2
~10-1
Capa Reg –TRRUST
~10-4
~10-1
~10-4
~10-3
~10-1
~10-6
MUX8
EC
HIP
MTG
PC
VCX
SFG
-2
~10
~10-1
-1
-2
-1
~10
-4
Multiplex Bi-Capa
~10
~10
~10
Capa PPI - PINA2
~10-1
~10-2
~10-1
~10-4
~10-2
~10-1
Capa Reg – TRRUST
~10-2
~10-1
~10-2
~10-2
~10-1
~10-2
MUX9
EC
HIP
MTG
PC
VCX
SFG
-1
~10
~10-1
~10-1
~10-1
-1
-1
-1
Multiplex Bi-Capa
~10
~10
~10
Capa PPI - KI
~10-1
~10-2
~10-1
~10
-4
~10
-4
~10-4
Capa Reg – TRRUST
~10-3
~10-1
~10-4
~10-1
~10-1
~10-5
Tabla 5: Orden de los p-valores del test Wilcoxon rank-sum para las energías de las redes
resultantes entre muestras normales y aquellas afectadas por Alzheimer (sombreado amarillo:
energía del tejido normal mayor a la energía del tejido afectado por Alzheimer; sombreado verde:
Página 19 de 43
energía del tejido afectado por Alzheimer mayor a la energía del tejido normal; sin sombreado: pvalor mayor a 0,01). Cada columna representa el tipo de tejido según la región del cerebro de las
muestras utilizadas (EC: entorhinal cortex; HIP: hippocampus; MTG: medial temporal gyrus; PC:
posterior cingulate; VCX: primary visual cortex; SFG: superior frontal gyrus). Los multiplex MUX1,
MUX2 y MUX3 utilizan como capa de regulación la red combinada entre TRRUST y FL. Los
multiplex MUX4, MUX5 y MUX6 utilizan como capa de regulación la red FL. Los multiplex MUX7,
MUX8 y MUX9 utilizan como capa de regulación la red TRRUST. Como capa PPI, MUX1-MUX4MUX7 utilizan HI_II, MUX2-MUX5-MUX8 utilizan la red PINA2 y MUX3-MUX6-MUX9 utilizan la red
KI.
En Tabla 5 mostramos los datos obtenidos para nueve multiplex distintos. Para considerar
que la información que reportan los datos de expresión sobre el multiplex resulte relevante,
destacaremos en los resultados aquellos p-valores del orden de 10-3 o menores. Valores mayores
consideraremos que no son lo suficientemente significativos (aparecen sin sombrear en las
tablas).
Desde la perspectiva de la expresión de genes proyectados en un multiplex, no se
aprecian diferencias significativas entre control y afectado por Alzheimer respecto a la métrica de
la energía utilizada para las regiones hippocampus y primary visual cortex (HIP y VCX), debido a
que no encontramos p-valores significativos (son del orden de 0,01 o mayores).
Para el MUX1, donde la red PPI utilizada es HI_II, observamos que en la capa de
regulación la diferencia de medianas en las energías (control-AD) es bastante significativa para los
tejidos EC, MTG y SFG. Por último, el tejido donde las diferencia de medianas entre control y AD
es más evidente es en la región posterior cingulate (PC). Además, como indica el sombreado
amarillo en las tablas, para este tejido se observa una tendencia importante a que haya una menor
estabilidad en las células normales que en aquellas que se encuentran afectadas por Alzheimer.
Esto también se aprecia al considerar todas las capas en el caso de que utilicemos el multiplex
con la red PINA2 -TRRUST+FL (MUX2), que además es la que más interacciones contiene.
Comparando los resultados de la red de regulación FL y de la red de regulación TRRUST
no observamos mucha diferencia con los obtenidos al utilizar la red de regulación combinada
TRRUST+FL.
En Figura 8 observamos los boxplots obtenidos para el tejido Posterior Cingulate. Se
muestran tres gráficos, uno para el multiplex MUX2 y otros dos para cada una de las dos capas. Al
igual que sucedía en el caso de Lung_19804, las células afectadas por la enfermedad presentan
mayor estabilidad que las celulas normales.
Página 20 de 43
MULTIPLEX - CAPAS
POSTERIOR CINGULATE
8A
MUX2 (Completo)
8B
MUX2 – Capa PPI
8C
MUX2 – Capa Regulación
Figura 8: Distribución de energía para la región Posterior Cingulate en tejido afectado por
Alzheimer. En la figura 8A se muestra para el multiplex completo MUX2, en la figura 8B para la
capa PPI y en la figura 8C para la capa de regulación. En amarillo aparece la distribución de
energía para las muestras de control, y en verde para las afectadas por Alzheimer.
Página 21 de 43
Análisis de Redes - Coeficiente de Agrupamiento
El coeficiente de agrupamiento local para el vértice i, Ci, se define como el número de
triángulos en los que el vértice i participa normalizado por el máximo número de posibles
triángulos,
Ci es el coeficiente de agrupamiento para el vértice i
ti es el número de triángulos del vértice i
ki es el grado del vértice i
Figura 9: Fórmula para el cálculo del coeficiente de agrupamiento
El coeficiente de agrupamiento de la red según Watts y Strogatz (1998) se define como la
media de los coeficientes de agrupamiento de todos los vértices de la red. Esta propiedad de las
redes será la que utilicemos en este apartado. La evidencia sugiere que en la mayoría de redes
del mundo real, los nodos tienden a crear grupos muy unidos que se caracterizan por una
densidad relativamente alta de enlaces.
A continuación se indica el orden de los p-valores obtenidos al calcular el test de Wilcoxon
rank-sum para los coeficientes de agrupamiento de la red para cada uno de los tipos de tejidos.
Se ha utilizado el multiplex MUX2, PINA2 – TRRUST+FL.
MUX2 (Cáncer)
PINA2 – TRRUST+FL
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Clustering p-value
~10-3
~10-1
~10-1
~10-6
~10-9
~10-7
~10-4
MUX2 (Alzheimer)
PINA2 – TRRUST+FL
EC
HIP
MTG
PC
VCX
SFG
Clustering p-value
~10-3
~10-1
~10-1
~10-3
~10-1
~10-1
Tabla 7: Orden de los p-valores del test Wilcoxon rank-sum para los coeficientes de clustering del
multiplex MUX2 entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo:
coeficiente de clustering en tejido normal mayor al coeficiente de agrupamiento del tejido
tumoral/afectado por AD; sombreado verde: coeficiente de clustering en tejido tumoral/afectado
por AD mayor al coeficiente de agrupamiento del tejido normal; sin sombreado: p-valor mayor a
0,01).
Cabe destacar nuevamente la significancia de los p-valores para las muestras
pertenecientes a tejido pulmonar donde se observa una clara diferencia entre muestras tumorales
y muestras sanas (p-valores por debajo de 0,00001). También es importante observar como en
muestras de pulmón y AD la relación de coeficiente de agrupamiento entre tumor y normal se
invierte con el resto de tejidos considerados relativos a cáncer (colon y ovario). En la Figura 10 se
muestra como ejemplo los boxplots calculados para el coeficiente de agrupamiento de la red para
ovario (ovary) y pulmón (Lung_19804), tanto para muestras tumorales como para control. En la
Figura 11 se muestran los boxplots para AD (posterior cingulate). De nuevo resulta interesante la
similitud de los resultados obtenidos para muestras de Alzheimer con los de las muestras de
Lung_19804 mostrando una relación similar entre tejido afectado y sano (mayor coeficiente de
agrupamiento para muestras tumorales/afectadas por AD que en tejido sano).
Página 22 de 43
Figura 10. Boxplots para el cálculo de los coeficientes de agrupamiento para muestras de
Lung_19804 (izquierda) y Ovario (derecha). En amarillo para las muestras de control y en verde
para las afectadas por tumor.
Figura 11: Boxplot para el cálculo de los coeficientes de agrupamiento para datos de Alzheimer
(región posterior cingulate). En amarillo para las muestras de control y en verde para las
afectadas por Alzheimer.
Página 23 de 43
Análisis de Redes - Número de nodos
Otro parámetro de la red que nos puede aportar información a tener en cuenta a la hora de
describir los multiplex es el número de genes activos en la red una vez tenidos en cuenta los datos
de expresión. A continuación se indica el orden de los p-valores obtenidos al calcular el test de
Wilcoxon rank-sum para los coeficientes de agrupamiento de la red para cada uno de los tipos de
tejidos. Se ha utilizado el multiplex MUX2, PINA2 – TRRUST+FL.
MUX2 (Cáncer)
PINA2 – TRRUST/FL
COL
KID
LIV
LUN
19188
LUN
19804
LUN
33532
OVA
Número de nodos
~10-5
~10-5
~10-4
~10-2
~10-1
~10-1
~10-6
MUX2 (Alzheimer)
PINA2 – TRRUST/FL
EC
HIP
MTG
PC
VCX
SFG
Número de nodos
~10-2
~10-3
~10-2
~10-4
~10-2
~10-2
Tabla 7: Orden de los p-valores del test Wilcoxon rank-sum para el número de nodos del multiplex
MUX2 entre muestras normales y aquellas con tumor cancerígeno (sombreado amarillo: número
de genes expresados en tejido normal mayor al número de genes expresados en tejido tumoral;
sombreado verde: número de genes expresados en tejido tumoral mayor al número de genes
expresados en tejido normal; sin sombreado: p-valor mayor a 0,1).
Se observa nuevamente como la expresión en tejidos con cáncer de pulmón tiene un
comportamiento antagonista al resto de los tipos de cánceres considerados. Para las muestras de
Alzheimer vemos también como el número de genes expresados, al igual que en pulmón, es
mayor en muestras sanas que en aquellas afectadas por la enfermedad, sucediendo justo lo
contrario para el resto de cánceres (colon, ovario, riñón e hígado).
Figura 12A
Página 24 de 43
Figura 12B
Figura 12C
Figura 12: Boxplots para el cálculo del número de genes expresados en el multiplex MUX2. Se
indican los resultados para pulmón Lung_19188 (Figura 12A), hígado (Figura 12B) y Alzheimer
(región posterior cingulate, Figura 12C).
Clasificación de Genes
El objetivo principal de esta clasificación es el de identificar los nodos más conectados de
cada una de las redes y encontrar posibles similitudes y/o divergencias entre los distintos tipos de
cáncer estudiados. Para ello seguiremos los siguientes pasos:
1) Elegir multiplex
2) Elegir tejido
2) Proyectar datos de expresión
4) Hacer una clasificación con los 10 genes expresados que aparecen con más
conexiones (con mayor grado, los que serían los nodos más conectados, hubs, de la red)
Página 25 de 43
para cada muestra y darles una puntuación:
Gen con mayor grado → +10
Gen con segundo mayor grado → +9
[,,,]
Gen con décimo mayor grado → +1
5) Acumular estos valores para todas las muestras.
6) De los diez genes con mayor puntuación, seleccionar aquellos genes que están en
muestras tumorales y no en las normales, y viceversa.
7) Buscar anotación.
TEJIDO
GENES
PUNTUACIÓN
(máximo es 1)
PROTEÍNA
ENSG00000177606
0,296
Transcription factor AP-1
ENSG00000185591
0,167
Transcription factor SP-1
ENSG00000166333
0,2
ENSG00000146648
0,078
Epidermal growth factor receptor
ENSG00000185591
0,164
Transcription factor SP-1
Kidney (Normal) ENSG00000080824
0,148
Heat shock protein HSP 90-alpha
Lung_19188
(Tumor)
ENSG00000116030
0,132
Small ubiquitin-related modifier 1
Lung_19188
(Normal)
ENSG00000166333
0,098
Integrin-linked protein kinase
Lung_19804
(Tumor)
ENSG00000141510
0,23
Cellular tumor antigen p53
Lung_19804
(Normal)
ENSG00000185591
0,16
Transcription factor SP-1
Lung_33532
(Tumor)
ENSG00000141510
0,261
Cellular tumor antigen p53
Lung_33532
(Normal)
ENSG00000115232
0.09
Integrin alpha-4
ENSG00000121022
0,545
COP9 signalosome complex subunit 5
ENSG00000116030
0,214
Small ubiquitin-related modifier 1
ENSG00000185591
0,173
Transcription factor SP-1
Colon (Tumor)
Integrin-linked protein kinase
Colon (Normal)
Kidney (Tumor)
Ovary (Tumor)
Página 26 de 43
Ovary (Normal)
ENSG00000177606
0,356
Transcription factor AP-1
ENSG00000166333
0,278
Integrin-linked protein kinase
ENSG00000080824
0,144
Heat shock protein HSP 90-alpha
ENSG00000116663
0,3
ENSG00000116030
0,134
Small ubiquitin-related modifier 1
ENSG00000177606
0,309
Transcription factor AP-1
ENSG00000169083
0,191
Androgen receptor
Integrin-linked protein kinase
Liver (Tumor)
Liver (Normal)
Tabla 5: Clasificación de genes según el máximo número de interacciones de la red
En la Tabla 5 se indican todos los nodos con más conexiones para cada red, sin tener en
cuenta aquellos genes que se encuentren expresados en ambos casos (normal y tumor)
Página 27 de 43
Capítulo 4.
Discusión
Uno de los objetivos iniciales que nos planteamos en el desarrollo del presente trabajo era
el de la creación de un multiplex que pudiéramos usar como modelo en el análisis de datos de
expresión de humano. Partiendo de las redes de interacción proteína-proteína PINA2, H_II y KI y
de las redes de regulación transcripcional TRRUST y FL hemos creado un multiplex donde se
solapan dos capas. El multiplex que mayor número de nodos e interacciones contiene es el
denominado a lo largo del estudio como MUX2 compuesto por la red de interacción PINA2 y la
capa de regulación combinada TRRUST+FL. Al ser la red multicapa que contiene mayor número
de interacciones podemos decir que las interpretaciones que demos serán menos sesgadas (en el
sentido de que cubren mayor número de interacciones y componentes) que si elegimos los
resultados arrojados por otro multiplex, por ejemplo MUX3 que considera como red PPI a KI. Sin
embargo, el nivel de curación de las redes HI_II y KI es mayor al de la red PINA2. De ahí que se
hayan calculado todos los posibles multiplex, ya que cada uno podrá ofrecernos una interpretación
de los resultados distinta según la métrica y datos de expresión que se utilicen. En este estudio
nos hemos centrado en la interpretación de resultados del multiplex MUX2, ya que para poder
comparar muestras de distintos tejidos entre sí deberemos seleccionar siempre el mismo
multiplex.
En Figura 5 mostramos los resultados de comparación de hígado de la métrica nE cuyo
cálculo está descrito en la Figura 4 y que está relacionado con la estabilidad de la red, tanto para
muestras tumorales como para muestras de control. Desde un punto de vista genérico del
multiplex completo, al igual que en el trabajo de Ibáñez et al. [5] observamos que las muestras
tumorales son más inestables que las normales (el valor de la mediana de nE es mayor en tumor).
0Sin embargo, aprovechando la visión del multiplex, tenemos dos gráficos extra que nos aportan
información adicional. Por un lado vemos que en la capa PPI las células normales tienen una
mediana del valor de nE en torno a -1, la cual se mantiene más o menos para la capa de
regulación. Sin embargo, para el caso de las células tumorales la mediana se encuentra en torno
a +1 en la capa PPI, y en torno a +2 en la capa de regulación transcripcional. Es decir, parece
que si estudiamos el problema por capas, las células tumorales son más inestables que las
células normales, y además ésta inestabilidad tumoral es más acusada en la capa de
regulación. Esta tendencia ocurre para el resto de cánceres considerados colon, ovario y
riñón. Esto no se cumple por contra para ninguno de los casos estudiados de cáncer de
pulmón.
Considerando los resultados para MUX2 en cáncer de pulmón en Figura 6, vemos que
aunque la diferencia no es tan significativa como los otros tipos de cánceres (colon, ovario, riñón e
hígado) se observa una tendencia clara a que las células tumorales muestren más estabilidad que
las células normales. Desde un punto de vista por capas, no sacamos información extra como en
el caso de células de hígado. No obstante, también en la Figura 6, se observan los resultados
para MUX1 en cual la red PPI usada es HI_II en lugar de PINA2. Esta red contiene una menor
cantidad de interacciones, es menos completa que PINA2, aunque tiene menos sesgo y tiene un
mayor nivel de curación. En MUX1 sí que las diferencias son más significativas entre tumor y
control, tal y como demuestran los p-valores calculados. En esta ocasión, las células tumorales en
pulmón parece que mantienen un valor similar de nE en ambas capas mientras que las células
normales tienen un valor mayor de la energía nE en la capa de regulación respecto la red PPI.
Con esto se puede apreciar que dependiendo de la definición de multiplex podremos interpretar
los resultados de una manera o de otra, lo que permite concluir que los resultados arrojados por
un análisis de este tipo, son sensibles a la definición de la red empleada.
Página 28 de 43
En cuanto al análisis para los datos de Alzheimer, a raíz de los resultados de Tabla 5 y
utilizando el multiplex MUX2, observamos que para la región PC (posterior cingulate) encontramos
diferencias significativas en cuanto a la mediana del valor de nE entre células normales y aquellas
afectadas por Alzheimer. Para el resto de regiones cerebrales no encontramos diferencias
significativas, por lo que en este apartado no las pondremos bajo discusión (si hubiéramos elegido
MUX1 como modelo comparativo, habría diferencias significativas para las regiones EC, TG, PC y
SFG; las cuales en MUX2 sólo aparecen para PC). Para la región PC tenemos que las muestras
afectadas por Alzheimer son más estables, con un valor menor para nE, que las muestras de
control. Estos resultados concuerdan nuevamente con los experimentos previamente realizados
[5]. Este comportamiento es similar al encontrado en cáncer de pulmón y contrario al resto de
cánceres considerados. La similitud entre los patrones observado para el caso de cáncer de
pulmón y Alzheimer respecto a sus casos controles es muy llamativa. Sin embargo, el análisis de
las causas subyacentes a dichas similaridades ha quedado fuera del alcance del presente trabajo.
Otro de los parámetros topológicos empleados para analizar las propiedades del multiplex
en distintos fenotipos celulares ha sido analizado el coeficiente de agrupamiento. Para cáncer
observamos diferencias significativas en muestras de cáncer de colon, ovario y de pulmón entre
células tumorales y normales. Para colon y ovario hay una tendencia clara a que las muestras de
control tengan un mayor coeficiente de agrupamiento que las tumorales. Ciertos estudios basados
en proteínas relacionadas con cáncer, también muestran esta tendencia donde los vecinos de las
proteínas asociadas al cáncer tienen menos probabilidad de conectarse unas con otras respecto a
las proteínas de control [22] ,[5]; sin embargo, de acuerdo con los resultados expuestos en este
trabajo, esta tendencia se invierte para cáncer de pulmón (ocurre también para Alzheimer).
Nuevamente ocurre que, con respecto al coeficiente de agrupamiento, el cáncer de pulmón tiene
un comportamiento antagonista con el resto de cánceres considerados (y similar al de las células
afectadas por Alzheimer). Por otro lado, el análisis por separado del coeficiente de agrupamiento
para cada capa no nos ofrece información relevante.
El último parámetro que se ha considerado es el número de genes expresados una vez
que se proyectan los datos de expresión sobre el multiplex. Para los cánceres colon, riñón, ovario
e hígado el número de genes expresados es mayor en muestras tumorales que en aquellas de
control. El que haya un mayor número de genes expresados en muestras tumorales indica de
manera indirecta que probablemente haya mayor número de interacciones nuevas que
anteriormente no existían, produciendo una mayor inestabilidad en la célula. Para cáncer de
pulmón no encontramos diferencias realmente significativas, pero sí en Alzheimer donde existe
una cierta tendencia a que haya más genes expresados en células normales que en afectadas por
la enfermedad. En este caso, hay un menor número de interacciones en el tejido afectado, por lo
que lo podemos relacionar este hecho con que las células afectadas son más estables que las
células de control, las cuales tendrían una mayor actividad celular. Esta interpretación de los
resultados coincide con la obtenida anteriormente al utilizar la métrica de energía nE.
El último análisis que se ha realizado es buscar la anotación de aquellos genes con mayor
número de interacciones en cada una de las muestras de los diferentes casos de estudio
relacionados con cáncer. Se ha realizado una clasificación de genes donde se han identificado
aquellos que aparecen con más conexiones en casos de control y no en muestras afectadas, y
viceversa. A la luz de estos resultados, nos encontramos con algunos genes conocidos por su
relación con el cáncer, como por ejemplo ILK (integrin-linked kinase), gen que cuando aparece
sobreexpresado está relacionado con la supresión de la apoptosis y la proliferación celular [22],
[23].
Destacar finalmente que una de las limitaciones que nos hemos encontrado en el presente
estudio es el tamaño muestral para cierto tipo de tejidos, sobre todo en la relación desigual o
desbalance que nos encontramos entre muestras de control y muestras de tumor. En la mayoría
de los casos (ver Tabla 1 y Tabla 4) el número de muestras de tumor es mucho mayor que el de
muestras de control. Debido a esto, los resultados que obtengamos serán más realistas en el caso
de analizar sólo muestras tumorales, pero una vez pasamos a comparar con las muestras
normales, hemos de realizar las interpretaciones de los resultados con cierta precaución (por
Página 29 de 43
ejemplo para el caso de cáncer de ovario tenemos 267 muestras tumorales frente a sólo 9 de
control). En las muestras relacionadas con cáncer de pulmón nos encontramos cierta equidad en
el número de muestras control/tumor por lo que los análisis comparativos sobre estos datos serán
más fiables.
Página 30 de 43
Capítulo 5.
Conclusiones y Perspectivas
La motivación principal del presente trabajo es la construcción de un multiplex para la
identificación de ciertas propiedades estructurales, para así evaluar la influencia de cada capa
cuando estemos tratando células tumorales y su comparación con células no afectadas. Con el
multiplex construido hemos reproducido el estudio de Ibáñez et al. [5] pero esta vez utilizando una
red de interacción de proteínas con un mayor número de relaciones, PINA2 [2], junto con una
capa de regulación, la cual ha sido creada a partir de las bases de datos TRRUST [3] y la red
construida por Leitner et al. [4].
Hemos empleado el multiplex reconstruido para el análisis de datos de expresión de
cáncer y Alzheimer utilizando una métrica relacionada con la energía global de la red. Esta métrica
nos ha permitido analizar las diferencias en la estabilidad de las redes construidas en casos con
muestras tumorales o afectadas por Alzheimer y casos con muestras de control. Se verifica, al
igual que en el trabajo de Ibáñez et al. [5], que las redes correspondientes a células de cáncer de
colon, hígado, riñón y ovario son más inestables que las redes en células normales. Además, si
estudiamos el problema analizando por separado las distintas capas que componen el multiplex,
se observa que la inestabilidad tumoral es más acusada para la capa de regulación (para los
casos de cánceres de colon, ovario, hígado y riñón). Sin embargo, no se observa esta tendencia
para el caso de cáncer de pulmón, el cual presenta un patrón que se asemeja en mayor medida al
observado para el caso de muestras de Alzheimer, donde las células afectadas tienen una mayor
estabilidad que las células normales.
Agregar más capas al multiplex es una posible vía futura de investigación. Entre otras,
puede añadirse una nueva capa que incluya todas las relaciones entre el micro-ARN y los genes a
los que afecta (el micro ARN es un ARN monocatenario capaz de regular la expresión de otros
genes mediante diversos procesos). Otros ejemplos serían ampliar el multiplex, separando la
información del Reactoma, una base de datos donde se recogen todas las reacciones o
interacciones moleculares que se producen en una célula, separando las interacciones dentro de
complejos proteicos y las de señalización.
Otra posible línea futura de investigación sería la de realizar un análisis parecido al que se
ha desarrollado en este trabajo, pero esta vez creando una red de complejos proteicos, agrupando
los genes por complejos. La red estaría más simplificada y podría ayudarnos a realizar un
diagnóstico general sobre qué rutas metabólicas y complejos aparecen activados o no según el
tipo de células que tratemos.
Página 31 de 43
Referencias.
[1] Menichetti G, Remondini D, Panzarasa P, Mondragón RJ, Bianconi G (2014) Weighted
Multiplex Networks. PLoS ONE 9(6): e97857. doi:10.1371/journal.pone.0097857
[2] Cowley, M.J., Pinese, M., Kassahn, K.S., Waddell, N., Pearson, J.V., Grimmond, S.M., Biankin,
A.V., Hautaniemi, S. and Wu, J. (2012) PINA v2.0: mining interactome modules. Nucleic Acids Res,
40, D862-865
[3] Han H., Shim H., Shin D., Shim JE., Ko Y., Shin J., Kim H., Cho A., Kim E., Lee T., Kim H., Kim
K., Yang S., Bae D., Yun A., Kim S., Kim CY., Cho HJ., Kang B., Shin S., Lee I. (2015). TRRUST: a
reference database of human transcriptional regulatory interactions. Jun 12;5:11432. doi:
10.1038/srep11432.
[4] Leitner, F., Krallinger, M., Tripathi, S., Kuiper, M., Lgreid, A., Valencia, A. (2013). Mining cisRegulatory Transcription Networks from Literature. BioLINK, July 20th, 2013,ISMB/ECCB
[5] Ibáñez, K., Guijarro, M., Pajares, G. & Valencia, A. (2015). A computational approach inspired
by simulated annealing to study the stability of protein interaction networks in cancer and
neurological disorders
[6] Roe CM, Behrens MI, Xiong C, Miller JP, Morris JC. Alzheimer disease and cancer. Neurology
2005;64:895-8.
[7] Behrens MI, Lendon C, Roe CM. A common biological mechanism in cancer and Alzheimer’s
disease? Current Alzheimer research. 2009;6(3):196-204.
[8] Moriello, S. (Mar 2003) Sistemas complejos, caos y vida artificial. Revista REDcientífica.
http://www.redcientifica.com/autores/smoriello.html
[9] Samuel Bader, Sebastian Kühner, Anne-Claude Gavin. Interaction networks for systems
biology, FEBS Letters, Volume 582, Issue 8, 9 April 2008, Pages 1220-1224, ISSN 0014-5793,
http://dx.doi.org/10.1016/j.febslet.2008.02.015.
[10] Jeong, H., Mason, S. P., Barabási, A. L., & Oltvai, Z. N. (2001). Lethality and centrality in
protein networks. Nature, 411(6833), 41–2. doi:10.1038/35075138
[11] Song J, Singh M (2013) From Hub Proteins to Hub Modules: The Relationship Between
Essentiality and Centrality in the Yeast Interactome at Different Scales of Organization. PLoS
Comput Biol 9(2): e1002910. doi:10.1371/journal.pcbi.1002910
[12] Jonsson, P. F., & Bates, P. A. (2006). Global topological features of cancer proteins in the
human interactome. Bioinformatics (Oxford, England), 22(18), 2291–7.
doi:10.1093/bioinformatics/btl390
[13] Wachi, S., Yoneda, K., & Wu, R. (2005). Interactome-transcriptome analysis reveals the high
centrality of genes differentially expressed in lung cancer tissues. Bioinformatics, 21(23), 4205–
4208. doi:10.1093/bioinformatics/bti688
[14] Kirkpatrick, S., Gelatt, c. D., & Vecchi, M. b. (1983). Optimization by simulated annealing.
Science (New York, N.Y.), 220(4598), 671–80. doi:10.1126/science.220.4598.671
Página 32 de 43
[15] Cerny, V. (1985). Thermodynamical Approach to the Traveling Salesman broblem: An Efficient
Simulation Algorithm c. Journal of Optimization Theory and Applications, 45(l), 41–51.
[16] Margolin AA, Nemenman I, Basso K, Wiggins C, Stolovitzky G, Dalla Favera R, Califano A
(2006) ARACNE: an algorithm for the reconstruction of gene regulatory networks in a mammalian
cellular context.BMC Bioinformatics. 2006 Mar 20;7 Suppl 1:S7.
[17] Rolland, Thomas et al. A Proteome-Scale Map of the Human Interactome Network. cell ,
Volume 159 , cssue 5 , 1212 - 1226. bublished: November 20, 2014
[18] Havugimana, P.C. et al. A census of human soluble protein complexes. Cell 150, 1068–1081
(2012).
[19] Sancho Caparrini, F. (2015) Introducción a las redes complejas.
http://www.cs.us.es/~fsancho/?e=80
[20] Mccall MN, Jaffee HA, Irizarry RA (2012). fRMA ST: Frozen robust multiarray analysis for
Affymetrix Exon and Gene ST arrays, bioinformatics, 28(23):3153-3154.
[21] Mccall MN, Uppal K, Jaffee HA, Zilliox MJ, and Irizarry RA (2011). The Gene Expression
barcode: leveraging public data repositories to begin cataloging the human and murine
transcriptomes, Nucleic Acids Research, 39:D1011-5.
[22] Sun, J., & Zhao, Z. (2010). A comparative study of cancer proteins in the human proteinprotein interaction network. BMC Genomics, 11(Suppl 3), S5. http://doi.org/10.1186/1471-2164-11S3-S5
[23] Yoganathan N, Yee A, Zhang Z, Leung D, Yan J, Fazli L, Kojic DL, Costello PC, Jabali M,
Dedhar S, Sanghera J. (2002). Integrin-linked kinase, a promising cancer therapeutic target:
biochemical and biological properties.
[24] Persad S, Dedhar S (2003). The role of integrin-linked kinase (ILK) in cancer progression.
http://www.ncbi.nlm.nih.gov/pubmed/12884912
[25] Watts y Strogatz (1998). Collective dynamics of 'small-world' networks.
[26] Barabasi & Oltavi (2004). Network biology: understanding the cell's functional organization.
[27] Aguirre, C. Algoritmos. Métodos basados en grafos.
http://pdg.cnb.uam.es/pazos/cursos/bionet_UAM/Grafos_CAguirre.pdf
[28] Paul Flicek, M. Ridwan Amode, Daniel Barrell, Kathryn Beal, Konstantinos Billis, Simon Brent,
Denise Carvalho-Silva, Peter Clapham, Guy Coates, Stephen Fitzgerald, Laurent Gil, Carlos
García Girón, Leo Gordon, Thibaut Hourlier, Sarah Hunt, Nathan Johnson, Thomas Juettemann,
Andreas K. Kähäri, Stephen Keenan, Eugene Kulesha, Fergal J. Martin, Thomas Maurel, William
M. McLaren, Daniel N. Murphy, Rishi Nag, Bert Overduin, Miguel Pignatelli, Bethan Pritchard,
Emily Pritchard, Harpreet S. Riat, Magali Ruffier, Daniel Sheppard, Kieron Taylor, Anja Thormann,
Stephen J. Trevanion, Alessandro Vullo, Steven P. Wilder, Mark Wilson, Amonida Zadissa,
Bronwen L. Aken, Ewan Birney, Fiona Cunningham, Jennifer Harrow, Javier Herrero, Tim J.P.
Hubbard, Rhoda Kinsella, Matthieu Muffato, Anne Parker, Giulietta Spudich, Andy Yates, Daniel R.
Zerbino, and Stephen M.J. Searle
Ensembl 2014 Nucleic Acids Research 2014 42 Database issue:D749-D755 doi:
10.1093/nar/gkt1196
[29] Eric J. Nestler, Steven E. Hyman (2002). Regulation of gene expression.
Neuropsychopharmacology: The Fifth Generation of Progress. American College of
Neuropsychopharmacology
Página 33 de 43
Anexo A.
Teoría de Grafos
Introducción
El campo de interés de la Teoría de Grafos reside en el estudio de los grafos y de sus
propiedades. Un grafo lo podemos definir como un conjunto de puntos (también llamados vértices
o nodos) que se encuentran unidos por medio de una serie de enlaces (también llamados aristas o
ramas). De este modo un grafo G estaría constituido por el par (V,E) siendo V y E:
- V es un conjunto de elementos denominados vértices.
- E es un conjunto de elementos denominados enlaces.
Definiendo de esta manera un grafo, pasaremos a definir ciertas propiedades y métricas a las
cuales nos referiremos directa o indirectamente a lo largo del presente estudio.
Definiciones [19]
- Grafo Conexo: Un grafo es conexo si cada par de vértices está conectado por un camino; es
decir, si para cualquier par de vértices (a, b), existe al menos un camino posible desde a hacia b.
- Orden del Grafo: El número de vértices o nodos del grafo.
- Grado de un vértice: El número de enlaces o aristas que tienen como extremo dicho vértice. Este
número equivale al número de vecinos de dicho vértice.
- Bucle: Es una arista que sale y termina en el mismo vértice.
- Grafo Dirigido: Importa el orden de los vértices que definen las aristas, donde existe un vértice
inicial y un vértice final. Las aristas tienen asociado un sentido.
- Coeficiente de Agrupamiento Local (Watts & Strogatz, 1998): Es una medida asociada a un nodo
de un grafo y se podría definir como la proporción media de pares de vecinos de un nodo que
también son vecinos entre sí.
- Assortativity: Un concepto bastante interesante en la descripción de las redes complejas es la
correlación de conectividad entre nodos (assortative mixing). Esta propiedad mide el nivel en que
los nodos de mayor grado están conectados. De esta manera aquellas redes en las que los nodos
con un alto grado indican una alta preferencia por conectarse con otros nodos de grado alto se les
llama de tipo assortative. Por contra existen otro tipo de redes donde los nodos de grado elevado
(por ejemplo servidores en la WWW) están generalmente conectados a nodos con un grado
menor. En este caso se les llama de tipo dissasortative.
- Distribución de grados: La distribución de grados de los nodos en una red viene dado por la
función de distribución P(k), que es la probabilidad de que un nodo seleccionado al azar tenga
exactamente k enlaces.
Página 34 de 43
Figura A1. Ejemplos de tres tipos de redes complejas y su distribución de grados (imagen extraída
de http://www.cs.us.es/~fsancho/?e=80 [19])
Página 35 de 43
Anexo B.
Bases de Datos y Scripts
Introducción
Todos los datos que se han utilizado en este estudio se han guardado en una base de
datos para facilitar el acceso de los mismos desde los diferentes programas que se utilizarán. El
gestor de base de datos que se ha utilizado es PostgreSQL. Para la implementación de los scripts
se han utilizado tanto el lenguaje de programación Python como R. Se ha elegido un lenguaje u
otro dependiendo del tipo de análisis que se quisiera realizar.
La razón de guardar todo en una base de datos y de no almacenar los datos en memoria
es por comodidad y porque a través de conectores SQL podremos fácilmente hacer cualquier tipo
de consultas de una manera mucho más cómoda y limpia que manteniendo todos los datos en
memoria. También de esta manera tenemos la posibilidad de exportar los datos de una manera
estructurada y compacta a otros posibles colaboradores.
Crear las Tablas de la BBDD
[Script SQL: create_tables.sql]
TFTG_TRRUST : Contiene las relaciones regulatorias entre los factores de transcripción
y los genes a los que regula de la red TRRUST. También contiene su correspondencia en
Ensembl. Además se incluye el tipo de relación en caso de ser conocida: activación o
represión. Contiene 8,215 entradas.
TFTG_TRRUST_PMID: Están asociados a entradas de la tabla TFTG_TRRUST y
contiene los índices PubMed de los artículos de donde se ha sacado dicha relación.
Contiene 9,618 entradas.
TFTG_FLORIAN : Contiene las relaciones regulatorias entre los factores de transcripción
y los genes a los que regula de la red FL. También contiene su correspondencia en
Ensembl. Además se incluye un score relativo a la confidencia de dicha relación.
Contiene 49,442 entradas.
PPI_HI_II_14: Contiene las interacciones proteína-proteína de la red HI_II. También
contiene la correspondencia de dichas proteínas en Ensembl. Contiene 13,945 entradas.
PPI_PINA_IBANEZ: Contiene las interacciones proteína-proteína de la red KI. También
contiene la correspondencia de dichas proteínas en Ensembl. Contiene 63,119 entradas.
PPI_PINA2: Contiene las interacciones proteína-proteína de la red PINA2. También
contiene la correspondencia de dichas proteínas en Ensembl. Contiene 166,676
entradas.
Página 36 de 43
PPI_PINA2_PUBMED: Están asociados a entradas de la tabla PPI_PINA2 y contiene los
índices bubMed de los artículos de donde se ha sacado dicha interacción. Contiene
237,224 entradas.
PPI_PINA2_METHODS: Están asociados a entradas de la tabla PPI_PINA2 y contiene
los métodos experimentales utilizados para elucidar tales interacciones. Contiene
241,291 entradas.
HASH_IDENTIFIERS: Contiene las anotaciones en Ensembl de todos los genes
utilizados en las diferentes bases de datos. Contiene 30,217 entradas.
Inserción de Datos
[Script Python: insertDataEntriesNormalized.py]
Este script crea/limpia la base de datos e introduce los datos según su origen en sus tablas
correspondientes. Los datos de origen provienen de los siguientes archivos.
- TRRUST: trrust_rawdata.txt
- FL: Florians_TFTGnet.txt
- HI_II: PPI_HI-II-14.tsv
- PINA2: PPI_PINA2_20140521.tsv
- KI: PPI_pina_ibanez_2015.tsv
Antes de introducir los datos en las tablas, el programa se conecta a un servidor del CNIO
(Centro Nacional de Investigaciones Oncológicas) para poder anotar la lista de todos los genes
que aparecen en los datos de origen (http://se.bioinfo.cnio.es/Translation/tsv_translate). De esta
forma se guarda en cada tabla la anotación en Ensembl para cada gen. Si no existe
correspondencia se guarda el nombre original y aunque no será utilizado para formar parte de
ninguna red, se almacena con el fin de no perder nada de infornación y tenerlo como guía de
referencia en la base de datos.
Leer Datos de Expresión
[Script R: readExpression.R]
[CEL files: consultar Anexo B – Datos de Expresión]
Para leer los datos de expresión utilizaremos entre otros, dos paquetes desarrollados para
el lenguaje de programación R. Por un lado para leer los datos en sí, utilizaremos la librería affy
que extraerá de los datos en crudo (ficheros CEL) los datos de expresión correspondientes a cada
una de las sondas Affymetrix. Para normalizar dichos datos de expresión y sacar los genes
diferencialmente expresados haremos uso de la librería frma, Frozen robust Multi-Array Analysis
[20,21]. El objetivo de este método es obtener intensidades a nivel de gen fiables partiendo de los
datos en crudo de los microarrays, corrigiendo ruido de fondo y normalizando. Este algoritmo
permite analizar datos provenientes de microarrays y utiliza información proveniente de múltiples
bases de datos disponibles. bara nuestro caso, aparte de los datos en crudo de entrada, el
algoritmo utilizará una serie de parámetros fijos específicos para Affymetrix HGU133Plus2. El
método mapea las intensidades de los genes o zscores a un vector de unos y ceros conforme a
un umbral, que por defecto está en 4,98. Aquellos valores de intensidad por encima de este
umbral se considerarán genes diferencialmente expresados.
Una vez leídos los datos, tenemos que buscar las anotaciones de cada sonda, de tal
manera que finalmente nos quedamos con aquellas sondas que apuntan a genes conocidos en
Página 37 de 43
Ensembl. De esta manera, de las cerca de 55,000 sondas nos quedamos con 39,472 anotados.
Medianizar Datos de Expresión
[Script Python: medianize_duplicated_genes.py]
De este total de 39,472 genes, tendremos genes duplicados, por lo que debemos de
buscar un estimador para el zscore que identifique la expresión de dicho gen. En este estudio
hemos utlizado el zscore medianizado. Una vez eliminados los duplicados, trabajaremos con un
total de 18,750 genes anotados en Ensembl. Esto lo hemos realizado utilizando un script que toma
como argumento los ficheros obtenidos en el paso anterior y devuelve el mismo número de
ficheros pero ya procesados sin genes duplicados, medianizando los z-score.
Crear Redes y Multiplex
[Script Python: functions_multiplex_energy.py]
[Script Python: functions_multiplex_others.py]
Una vez tenemos ya los zscores asociados a cada gen, pasamos a analizar las redes
basándonos en los datos guardados en la base de datos creada inicialmente en el punto 1. Por un
lado tenemos las redes basadas en relaciones regulatorias entre factor de transcripción con su
gen objetivo, y por otro lado las redes de interacción entre proteínas. bara formar el multiplex se
plantean varias alternativas, debido a que tenemos orígenes de datos distintos. En la siguiente
tabla se muestran todas las posibles combinaciones que se han contemplado.
MULTIPLEX
CapaTF-TG
Capa PPI
FL
TRRUST
KI
HI_II
PINA2
FL - KI
X
-
X
-
-
FL - HI_II
X
-
-
X
-
FL - PINA2
X
-
-
-
X
TRRUST - KI
-
X
X
TRRUST - HI_II
-
X
-
X
-
TRRUST - PINA2
-
X
-
-
X
[FL-TRRUST] - KI
X
X
X
-
-
[FL-TRRUST] - HI_II
X
X
-
X
-
[FL-TRRUST] - PINA2
X
X
Tabla A1. Diferentes alternativas para el Multiplex
X
Nuestra primera aproximación será la elección del multiplex que más relaciones e
interacciones contenga. Por ello, para la red de regulación transcripcional nuestra elección ideal
para el diseño del multiplex sería la unión de las dos redes TF-TG que tenemos: FL y TRRUST. De
esta manera, nuestra red de regulación contendrá todas las relaciones que se encuentren en
ambas redes. Por otra parte, la red de interacción proteína-proteína ideal para completar el
multiplex sería PINA2 por ser aquella que más interacciones contempla. No obstante,
estudiaremos todas las posibilidades con más detalle para posteriormente analizar los resultados
y decidir qué multiplex es el nos aporta información más relevante según cada caso.
Las siguientes tablas muestran información acerca del número de genes que componen
cada red, así como el número de interacciones entre ellos. Los multiplex se crearán combinando
Página 38 de 43
una de las redes de regulación con alguna de las redes PPI (de ahí que existan hasta 9 posibles
multiplex). Cabe indicar que el número de interacciones y nodos mostrados en las tablas pueden
diferir ligeramente de los datos originales. Esto es debido a que durante la búsqueda de la
anotación en Ensembl, algunos genes no pudieron ser identificados y por lo tanto no se
consideran para la composición de las redes.
RED DE REGULACIÓN
FL
TRRUST
TRRUST-FL
Número de nodos
4604
2713
5090
Número de interacciones
23851
7900
28252
Máx Número de nodos conexos
4596
2672
Tabla A2: Detalle de las Redes de regulación consideradas
RED PPI
5080
HI_II
PINA2
KI
Número de nodos
4232
17030
10649
Número de interacciones
13428
165704
62474
Máx Número de nodos conexos
4100
16980
Tabla A3: Detalle de las Redes PPI consideradas
10533
Solapar Datos de Expresión en Multiplex
[Script Python: functions_multiplex_energy.py]
Una vez construidos los multiplex se realiza el solapamiento con los datos de expresión de
cada tejido. Para cada muestra se aplica el algoritmo indicado en Figura 4 para el cálculo de nE.
Esto se realiza tanto para el multiplex completo como para cada una de las capas. Estos datos se
representan luego en gráficos tipo boxplot para una mejor interpretación.
[Script Python: functions_multiplex_others.py]
De igual manera, y una vez tenidos en cuenta los datos de expresión, en este programa se
calculan varios parámetros de la red, como el coeficiente de agrupamiento de la red, el diámetro o
el número de nodos total. Estos datos se representan luego en gráficos tipo boxplot para una
mejor interpretación.
Página 39 de 43
Anexo C.
Datos de Expresión
El origen de los datos en crudo de expresión de genes utilizados en este estudio (ficheros
CEL) se muestra en la siguiente tabla. Para poder luego realizar comparativas adecuadas entre
los distintos tipos de muestras, se han utilizado únicamente datos provenientes de la plataforma
microarray Affymetrix Human Genome U133 Plus 2.0 (aproximadamente 55,000 sondas).
DATOS DE
EXPRESIÓN
ORIGEN
TÍTULO
Alzheimer
NCBI_GEO: GSE5281
Alzheimer's disease
and the normal aged
brain (steph-affyhuman-433773)
Lung 19188
NCBI_GEO: GSE19188
Expression data for
early stage NSCLC
Lung 19804
NCBI_GEO: GSE19804
Genome-wide
screening of
transcriptional
modulation in nonsmoking female lung
cancer in Taiwan
Lung 33532
NCBI_GEO: GSE33532
Intratumor
heterogeneity of
gene expression
profiles in early
stage non-small cell
lung cancer
(NSCLC)
Ovary
– Normal samples: GSM80757, GSM80758, GSM80759,
GSM80780, GSM175789,GSM176131, GSM176136,
GSM176237, GSM176318.
Varios experimentos
– Tumoral samples: GSM38064, GSM38065, GSM38066,
GSM38070, GSM38071,GSM38088, GSM38095,
GSM46815, GSM46821, GSM46830, GSM46831,
GSM46839,GSM46853, GSM46886, GSM46897,
GSM46898, GSM46910, GSM46911, GSM46918,
GSM46925, GSM249675, GSM249676, GSM249677,
GSM249678, GSM249714, GSM249715, GSM249716,
GSM249717, GSM249718, GSM249719,
GSM249720,GSM249721, GSM249722, GSM249723,
GSM249724, GSM249725, GSM249726,GSM249727,
GSM249728, GSM249729, GSM249730, GSM249731,
GSM249732,GSM249733, GSM249734, GSM249735,
Página 40 de 43
GSM249736, GSM249737, GSM249738,
GSM249739, GSM249740, GSM249741, GSM249742,
GSM249743, GSM249744,GSM249745, GSM249746,
GSM249747, GSM249749, GSM249750,
GSM249751,GSM249752, GSM249753, GSM249754,
GSM249755, GSM249756, GSM249757,GSM249758,
GSM249759, GSM249760, GSM249762, GSM249763,
GSM249766,GSM249767, GSM249769, GSM249770,
GSM249773, GSM249774, GSM249775,
GSM249776, GSM249777, GSM249778, GSM249779,
GSM249780, GSM249781,GSM249782, GSM249783,
GSM249784, GSM249785, GSM249786,
GSM249788,GSM249789, GSM249790, GSM249791,
GSM249792, GSM249793, GSM249794,GSM249795,
GSM249796, GSM249797, GSM249798, GSM249799,
GSM249801,GSM249802, GSM249803, GSM249804,
GSM249805, GSM249807, GSM249808,
GSM249809, GSM249811, GSM249812, GSM249815,
GSM249816, GSM249817,GSM249818, GSM249819,
GSM249820, GSM249821, GSM249822,
GSM249824,GSM249825, GSM249826, GSM249827,
GSM249830, GSM249832, GSM249833,GSM249835,
GSM249836, GSM249837, GSM249838, GSM249839,
GSM249840,GSM249841, GSM249842, GSM249844,
GSM249845, GSM249846, GSM249847,
GSM249848, GSM249849, GSM249850, GSM249851,
GSM249852, GSM249853,GSM249854, GSM249855,
GSM249856, GSM249857, GSM249858,
GSM249859,GSM249860, GSM249861, GSM249862,
GSM249863, GSM249866, GSM249868,GSM249869,
GSM249870, GSM249871, GSM249872, GSM249874,
GSM249875,GSM249876, GSM249877, GSM249878,
GSM249879, GSM249880, GSM249881,
GSM249882, GSM249883, GSM249884, GSM249885,
GSM249886, GSM249888,GSM249889, GSM249890,
GSM249892, GSM249893, GSM249894,
GSM249895,GSM249897, GSM249898, GSM249899,
GSM249900, GSM249901, GSM249902,GSM249903,
GSM249904, GSM249905, GSM249906, GSM249907,
GSM249908,GSM249909, GSM249910, GSM249912,
GSM249913, GSM249915, GSM249916,
GSM249917, GSM249918, GSM249919, GSM249920,
GSM249922, GSM249923,GSM249924, GSM249925,
GSM249926, GSM249927, GSM249928,
GSM249929,GSM249930, GSM249932, GSM249933,
GSM249934, GSM249936, GSM249939,GSM249940,
GSM249941, GSM249942, GSM249943, GSM249946,
GSM249948,GSM249950, GSM249951, GSM249953,
GSM249954, GSM249955, GSM249956,
GSM249957, GSM249958, GSM249959, GSM249960,
GSM249961, GSM249962,GSM249963, GSM249965,
GSM249966, GSM249967, GSM249968,
GSM249969,GSM249971, GSM249972, GSM249973,
GSM249974, GSM249975, GSM249976,GSM249977,
Página 41 de 43
GSM249978, GSM249980, GSM249981, GSM249983,
GSM249984,GSM249985, GSM249986, GSM249987,
GSM249988, GSM249990, GSM249992,
GSM249993, GSM249994, GSM249995, GSM249996,
GSM249998, GSM249999,GSM250000, GSM250001.
Colon
– Normal samples: GSM95473, GSM95474, GSM95475,
GSM95476, GSM95477, GSM95478, GSM95479,
GSM95480, GSM175905.
Varios experimentos
– Tumoral samples: GSM38055, GSM38061, GSM38074,
GSM38075, GSM38089,GSM38105, GSM38107,
GSM46823, GSM46832, GSM46841, GSM46845,
GSM46857,GSM46861, GSM46864, GSM46865,
GSM46877, GSM46878, GSM46887, GSM46895,
GSM46899, GSM46915, GSM46921, GSM46924,
GSM89103.
Liver
–Normal samples: GSM279063, GSM279064,
GSM279065, GSM80728, GSM80729,GSM80730,
GSM80739, GSM138595, GSM138596, GSM155919,
GSM155926,GSM155927, GSM155928, GSM155947,
GSM155948, GSM155961, GSM155964,GSM155988,
GSM155989, GSM176332, GSM176333, GSM176334,
GSM176335.
– Tumoral samples: GSM38078, GSM38108, GSM46848,
GSM139131, GSM143545,GSM143546, GSM143547,
GSM143548, GSM143549, GSM143550,
GSM143551,GSM143552, GSM143553, GSM248688,
GSM248689, GSM248690, GSM248691,GSM248692,
GSM248693, GSM248694, GSM248695, GSM248696,
GSM248697,
GSM248698, GSM248699, GSM248700, GSM248701,
GSM248702, GSM248703,GSM248704, GSM248705,
GSM248706, GSM248707, GSM248708,
GSM248709,GSM248710, GSM248711, GSM248712,
GSM248713, GSM248714, GSM248715,GSM248716,
GSM248717, GSM248718, GSM248719, GSM248720,
GSM248721,GSM248722, GSM248723, GSM248724,
GSM248725, GSM248726, GSM248727,
GSM248728, GSM248729, GSM248730, GSM248731,
GSM248732, GSM248733,GSM248734, GSM248735,
GSM248736, GSM248737, GSM248738,
GSM248739,GSM248740, GSM248741, GSM248742,
GSM248743, GSM248744, GSM248745,GSM248746,
GSM248747, GSM248748, GSM248749, GSM248750,
GSM248751,GSM248752, GSM248753, GSM248754,
GSM248755, GSM248756, GSM248757,
GSM248758, GSM248759, GSM248760, GSM248761,
GSM248762, GSM248763,GSM248764, GSM248765,
GSM248766, GSM248767, GSM248768,
GSM248769,GSM248770, GSM248771, GSM248772,
GSM248773, GSM248774, GSM248775,GSM248776,
GSM248777, GSM248778.
Página 42 de 43
Varios experimentos
Kidney
– Normal samples: GSM279060, GSM279061,
GSM279062, GSM281311, GSM281312,45GSM281314,
GSM281315, GSM281316, GSM175911, GSM198783,
GSM198785,GSM240832, GSM240833, GSM240834,
GSM240835, GSM240836, GSM240837,GSM240838,
GSM240839, GSM240840, GSM240841, GSM240842,
GSM240843,
GSM240844, GSM240947, GSM240948.
Varios experimentos
– Tumoral samples: GSM281278, GSM281279,
GSM281280, GSM281281, GSM281282,GSM281283,
GSM281284, GSM281285, GSM281286, GSM281287,
GSM281288,GSM281289, GSM281290, GSM281291,
GSM281292, GSM281293, GSM281294,GSM281295,
GSM281296,GSM281297,GSM281298,GSM281299,GSM
281300,GSM281301, GSM281302, GSM281303,
GSM281304, GSM281305, GSM281306,GSM281307,
GSM281308, GSM281309, GSM281310, GSM281313,
GSM281317,GSM281318, GSM281319, GSM281320,
GSM281321, GSM281322, GSM281323,GSM281324,
GSM281325, GSM281326, GSM281327, GSM281328,
GSM281329,GSM281330, GSM281331, GSM281332,
GSM281333, GSM281334, GSM281335,
GSM281336, GSM281337, GSM281338, GSM281339,
GSM281340, GSM281341,GSM281342, GSM281343,
GSM281344, GSM305099, GSM305100,
GSM305101,GSM305102, GSM305103, GSM305104,
GSM305105, GSM305106, GSM305107,GSM305108,
GSM305109, GSM305110, GSM305111, GSM305112,
GSM305113,GSM305114, GSM305115, GSM305116,
GSM38073, GSM46825, GSM46826,
GSM46847,GSM46858, GSM46875, GSM46881,
GSM46882, GSM46892, GSM89104.
Tabla A4: Origen e Identificadores de los Datos de Expresión utilizados organizados por
tejido/enfermedad
Página 43 de 43
Descargar