Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Telecomunicaciones y Electrónica TRABAJO DE DIPLOMA Teoría de la Información aplicada al desarrollo de Descriptores Moleculares Autor: Marvin Feyt Leyva Tutor: Dr. Vitalio Alfonso Reguera Santa Clara 2013 "Año 55 de la Revolución" Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Telecomunicaciones y Electrónica TRABAJO DE DIPLOMA Teoría de la Información aplicada al desarrollo de Descriptores Moleculares Autor: Marvin Feyt Leyva fleiva@uclv.edu.cu Tutor: Dr. Vitalio Alfonso Reguera vitalio@uclv.edu.cu Cotutores: Dr. Yovani Marrero Ponce yovanimp@uclv.edu.cu Lic. Stephen Jones Barigye stephen@uclv.edu.cu Santa Clara 2013 "Año 55 de la Revolución" Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Telecomunicaciones y Electrónica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada. Firma del Autor Firma del Jefe de Departamento donde se defiende el trabajo Firma del Responsable de Información Científico-Técnica PENSAMIENTO PENSAMIENTO Somos lo que hacemos cada día. De modo que la excelencia no es un acto, sino un hábito. Aristóteles i DEDICATORIA DEDICATORIA A mi madre por regalarme mi vida y la suya. A mi padre, porque a pesar de no tenerlo tan cerca siempre, ha sabido ser un buen padre. A mi hermano, porque no creo que haya otro mejor que él, gracias por tu ejemplo. A mi bella novia, porque nada paga su incondicional amor estos casi 7 años. A mis tías Nora y María por ser 2 madres más, para mí y mi hermano. A Katia y Geisy, gracias por formar parte también de mi familia. A toda mi familia en general, a Edua, Ara, Christian, Cinthia y Chicho, gracias por todo. A todos mis profesores de cada enseñanza, gracias por ejercer su tan noble labor. A mis amigos y a todos mis compañeros de grupo. ii AGRADECIMIENTOS AGRADECIMIENTOS A mi Tutor Vitalio, gracias por su ayuda, su dedicación y su tiempo. A mis cotutores Yovani y Stephen quienes realmente me impulsaron a realizar esta investigación. A mi tía María, Edua, Chicho y Ara, a los cuales les debo mucho. A todo aquel que de una forma u otra haya aportado un grano de arena en este empeño. iii TAREA TÉCNICA TAREA TÉCNICA 1. Revisión bibliográfica general sobre la Teoría de la Información, estudio de los trabajos de Shannon sobre el tema. 2. Revisión de las investigaciones previas relacionadas con el tema de los descriptores moleculares usando índices basados en la Teoría de la Información. 3. Modelar matemáticamente las estructuras moleculares como fuentes de información y proponer nuevos índices de información aplicables a determinadas estructuras moleculares. 4. Implementar un algoritmo en MATLAB para el cálculo de los nuevos índices de información a una base de datos molecular dada. 5. Comprobar la calidad de los nuevos índices de información obtenidos según los parámetros que deben cumplir los descriptores moleculares. _______________________ Firma del Autor ______________________ Firma del Tutor iv RESUMEN RESUMEN La aplicación de la Teoría de la Información alcanza hoy casi todos los campos de investigación de la ciencia y en especial la Química es una de las ramas científicas que no está exenta de esta situación. Los índices de información basados en la aplicación de las ecuaciones de la Teoría de la Información a un modelo molecular, son un caso especial de descriptores moleculares, los cuales juegan un rol fundamental en el desarrollo de modelos para la ciencia química y farmacéutica, políticas de protección medioambiental, toxicología, eco-toxicología, investigaciones para la salud y control de la calidad, entre otros. En este trabajo se realiza una revisión bibliográfica sobre los principales postulados de la teoría de la información y se recogen además algunas aplicaciones de esta revolucionaria teoría. Se realiza una modelación de las bases moleculares como fuentes de información y se propone una nueva familia de índices de información que son implementados para su cálculo en un algoritmo con la herramienta MATLAB , además se compara la información estructural química que logran captar estos nuevos IFIs y los otros IFIs recogidos actualmente en la literatura. Por último se comprueba la calidad de los índices propuestos por medio de distintos análisis estadísticos. v ÍNDICE PENSAMIENTO ............................................................................................................................. i DEDICATORIA ............................................................................................................................. ii AGRADECIMIENTOS ................................................................................................................. iii TAREA TÉCNICA ........................................................................................................................ iv RESUMEN ..................................................................................................................................... v INTRODUCCIÓN .......................................................................................................................... 1 Organización del informe ........................................................................................................... 3 CAPÍTULO 1. 1.1 MARCO TEÓRICO .......................................................................................... 5 TEORÍA DE LA INFORMACIÓN ................................................................................ 5 1.1.1 Teorema fundamental de la Teoría de la Información. ............................................. 6 1.1.2 Sistema de Transmisión de la Información. .............................................................. 6 1.1.3 Fuente Discreta de Información. ............................................................................... 7 1.1.4 Autoinformación. ...................................................................................................... 8 1.1.5 Entropía. .................................................................................................................. 10 1.1.6 Entropía de una Fuente Discreta sin Memoria. ....................................................... 10 1.1.7 Entropía de una Fuente Discreta con Memoria....................................................... 11 1.1.8 Transmisión de Información sobre un Canal Discreto no Ruidoso (Ideal). ........... 12 1.1.9 Transmisión de Información sobre un Canal Discreto Ruidoso. ............................ 12 1.1.10 Función métrica. Propiedades. ................................................................................ 16 1.1.11 Información Mutua promedio como métrica. ......................................................... 17 1.2 APLICACIONES DE LA TEORÍA DE LA INFORMACIÓN. .................................. 18 1.2.1 Lingüística matemática. .......................................................................................... 18 1.2.2 Física Estadística. .................................................................................................... 19 1.2.3 Minería de datos basada en teoría de la información .............................................. 20 1.2.4 Aplicaciones de la Teoría de la Información al campo de la Química. .................. 20 1.2.4.1 Índices de Información. ................................................................................... 21 1.2.4.1.1 Análisis de Componentes Principales (ACP). ............................................. 23 1.2.4.1.2 Análisis de Variabilidad (AV)..................................................................... 24 1.2.4.1.3 Modelación QSAR/QSPR. .......................................................................... 24 1.2.4.1.4 Regresión lineal múltiple con Algoritmo Genético (RLM-AG). ................ 26 1.2.4.1.5 Análisis de la Varianza (ANOVA).............................................................. 27 1.2.4.1.6 Validación Cruzada. .................................................................................... 29 1.2.4.1.7 Remuestreo (Bootstrapping). ...................................................................... 30 1.2.4.1.8 Revuelto (Y-Scrambling). ............................................................................ 31 CAPÍTULO 2. 2.1 MATERIALES Y MÉTODOS ........................................................................ 32 Modelado de una base de datos molecular como fuente de información. .................... 32 2.1.1 Distribución conjunta de probabilidades. ............................................................... 37 2.1.2 Definición de los nuevos IFIs. ................................................................................ 39 2.2 Implementación del algoritmo para el cálculo de los nuevos IFIs. ............................... 41 2.3 Análisis a posteriori de las propiedades de los IFIs obtenidos. .................................... 43 2.3.1 Estudio basado en el AV. ........................................................................................ 43 2.3.2 Estudio basado en el ACP. ...................................................................................... 43 2.3.3 Estudio basado en la Modelación QSPR usando RLM-AG. ................................. 44 CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ..................................................................... 46 3.1 Análisis de los resultados obtenidos según las fuentes de información analizadas. ..... 46 3.2 Análisis de Variabilidad (AV) de los nuevos IFIs. ....................................................... 47 3.3 Análisis del contenido de Información estructural captada por los nuevos IFIs. Comparación con los índices del DRAGON. ........................................................................... 48 3.4 Modelación QSPR basada en los nuevos IFIs. Comparación con los modelos obtenidos de los IFIs del DRAGON. ......................................................................................................... 50 CONCLUSIONES Y RECOMENDACIONES ........................................................................... 58 Conclusiones ............................................................................................................................. 58 Recomendaciones ..................................................................................................................... 59 REFERENCIAS BIBLIOGRÁFICAS.......................................................................................... 60 ANEXOS ...................................................................................................................................... 64 GLOSARIO .................................................................................................................................. 76 INTRODUCCIÓN INTRODUCCIÓN INTRODUCCIÓN Los estudios de Claude Elwood Shannon y la publicación en 1948 de su trabajo clásico “A Mathematical Theory of Communication”(Shannon, 1948) contribuyeron a lo que hoy se denomina „‟Teoría de la Información „‟, la cual tiene un impacto de tal magnitud que aún no es explotada del todo por la ciencia, desde aplicaciones cotidianas como la telefonía móvil y la navegación por Internet hasta disciplinas como Lingüística, Bioquímica, Física Estadística, Neurobiología y técnicas como la minería de datos, entre otras, llega el alcance de esta teoría. Recientemente, la aplicación de la Teoría de Información a la Química ha recibido creciente interés, una de las aplicaciones más importantes de los conceptos brindados por Shannon en este campo son los Índices de información (IFIs), los cuales, son una familia de descriptores moleculares (DMs). En las últimas décadas gran parte de la investigación científica ha estado enfocada en los principios teóricos para capturar y convertir la información codificada de la estructura molecular en números útiles y así establecer relaciones cuantitativas entre estructuras y propiedades, actividades biológicas u otras propiedades experimentales. Los descriptores moleculares (DMs) son una representación matemática formal de una molécula, obtenidos de un algoritmo específico y aplicado a una representación molecular definida o a un procedimiento experimental específico(Puzyn et al., 2010): ’’El descriptor molecular es el resultado final de un procedimiento lógico y matemático que transforma la información química codificada dentro de una representación simbólica de una molécula en un numero útil o el resultado de un experimento estandarizado’’.(Todeschini and Consonni, 2009) Los DMs juegan un rol fundamental en el desarrollo de modelos para la ciencia química y farmacéutica, política de protección medioambiental, toxicología, eco- toxicología, investigaciones para la salud y control de la calidad. Los IFIs están clasificados como Índices Topológicos (ITs) de 1 INTRODUCCIÓN Tercera Generación y resultan del análisis de la estructura estadística de modelos moleculares empleando la medida del grado de incertidumbre en la selección aleatoria de un suceso en el modelo. (Barigye, 2013) A menudo sucede que gran cantidad de los índices topológicos calculados poseen alto grado de degeneración. El concepto de degeneración de un descriptor molecular se aplica a aquellos descriptores que posean el mismo valor numérico para estructuras diferentes. La Teoría de la Información ofrece una alternativa para disminuir el grado de degeneración de los descriptores topológicos. Los ITs recogidos hasta el momento en la literatura, son definidos a partir de la representación de los grafos químicos usada en la Química GrafoTeórica, gracias a la Teoría de los Grafos se ha logrado una representación topológica de las moléculas usando grafos moleculares, además, las representaciones matriciales proporcionan una descripción numérica de estos grafos moleculares. A partir de la representación matricial de la molécula es posible obtener una distribución de probabilidades de los grafos moleculares presentes en la misma. En el caso de los IFIs, se pueden definir como DMs calculados como el contenido de información de las moléculas, basándose en el cálculo de clases de equivalencia a partir de los grafos moleculares, por lo que la Fuente de Información en estas circunstancias la constituye la propia estructura molecular. A partir de lo mencionado anteriormente surge la siguiente situación problémica: ¿Cómo modelar el espacio químico aplicando los principios de la teoría de la información con vistas a proponer descriptores moleculares novedosos? El objetivo general de esta investigación es: Definir y validar nuevos IFIs a partir de considerar las bases de datos moleculares como fuentes de información discretas y sin memoria. Los objetivos específicos planteados son: 1. Modelar y representar matemáticamente las bases de datos moleculares como fuentes de Información. 2 INTRODUCCIÓN 2. Proponer nuevos índices de información aplicando las medidas de información propuestas por Shannon. 3. Implementar algoritmos que permitan calcular los nuevos IFIs propuestos. 4. Comparar la información estructural codificada por los nuevos IFIs con los definidos anteriormente en el software DRAGON utilizando diferentes métodos estadísticos. La principal contribución y novedad de esta investigación radica en la definición de un nuevo tipo de IFIs basados en el uso de una Fuente de Información más universal, como son las extensas Bases de datos de moléculas reportadas y en la utilización de „‟huellas moleculares„‟ definidas por distintos criterios de partición. Este trabajo posee además los siguientes aportes: Valor Teórico: La definición de una nueva familia de DMs basados en la aplicación de las ecuaciones de la Teoría de la Información a las Bases de datos moleculares según distintos criterios de partición. Valor Práctico: La programación de un algoritmo en MATLAB que dada una Base de datos de moléculas para un criterio específico, permite el cálculo de los IFIs propuestos a las estructuras de la misma o a otra molécula cualquiera (si se descompone según el mismo criterio de partición de la Base de datos). Valor metodológico: La aplicación de un conjunto de métodos y procedimientos para evaluar la calidad de los IFIs, tales como el análisis de componentes principales, el análisis de variabilidad y un poco más generalmente los estudios de modelación QSPR, lo cual podría servir de ejemplo a futuros estudios sobre el tema. Organización del informe El informe de la investigación se estructura en introducción, capitulario, conclusiones, referencias bibliográficas y anexos: Introducción: Contempla los antecedentes, necesidad, importancia y objetivos de la investigación realizada. Desarrollo 3 INTRODUCCIÓN CAPITULO I: Recoge la Historia, desarrollo y elementos de la Teoría de la Información. Se plasman también algunas aplicaciones de la Teoría de la Información en la Química y otros campos. Se definen además algunos de los principales métodos estadísticos usados para comprobar la calidad de los DMs. CAPITULO II: Recoge la definición e implementación de los nuevos IFIs. CAPITULO III: Se recogen los resultados obtenidos de la aplicación de métodos y procedimientos estadísticos para evaluar y comparar la calidad de los IFIs propuestos. Conclusiones Valoración de los resultados, expresar las recomendaciones para futuros estudios sobre el tema. Bibliografía Se hará un listado de las referencias bibliográficas consultadas siguiendo la norma Harvard. Anexos Se incluirán aquellos temas que son de vital importancia para el trabajo y requieran ser tratados en el mismo aunque no estén directamente relacionados con el tema propuesto, además otras figuras y/o tablas de interés. Glosario 4 1. MARCO TEÓRICO. MARCO TEÓRICO CAPÍTULO 1. MARCO TEÓRICO 1.1 TEORÍA DE LA INFORMACIÓN A partir de la década de 1940, la „‟Teoría matemática de la Comunicación‟‟ o „‟Teoría de la Información‟‟, como comúnmente se conoce, cumple una función de bisagra en la dinámica de transferencia y transposición de modelos científicos propios de las ciencias exactas. Basada en las máquinas de comunicar generadas por la guerra, la noción de „‟información‟‟ adquiere definitivamente su condición de símbolo calculable. Con ello se convierte en la divisa fuerte que asegura el libre cambio conceptual entre disciplinas. (Mattelart et al., 1988) ‘’La Teoría de la Información es una disciplina matemática que trata tres conceptos básicos: la medida de la información, la capacidad de un canal de comunicaciones para transferir la información, y la codificación como medio de utilizar el canal a plena capacidad.’’ (Carlson et al., 2002) Ya antes de la década de 1940 se dieron los primeros pasos hacia esta teoría, fundamentalmente con las investigaciones telegráficas de Nyquist y Hartley. Pero no fue hasta 1948 que aparecieron las dos obras de mayor impacto, Cibernética de Norbert Wiener, y Teoría matemática para las comunicaciones de Claude E. Shannon. Tomadas en conjunto, las ideas de Wiener y Shannon establecieron las bases de la teoría moderna (estadística) de las comunicaciones. Ambos científicos estuvieron interesados en la extracción de la información de un fondo de ruido, y ambos aplicaron los conceptos de estadística al problema. Sin embargo, hubo diferencias en el enfoque. Wiener trato el caso en el que las señales que contenían la información estaban totalmente o en parte fuera del alcance del diseñador, estando concentrado todo el proceso en el receptor. (El radar es un buen ejemplo de esto pues la naturaleza de la señal reflejada depende en gran medida de la 5 MARCO TEÓRICO forma y movimiento del blanco), el problema en este enfoque se puede resumir de la siguiente forma: Dado un conjunto de señales posibles, no de nuestra elección, más el inevitable ruido, ¿Cómo podemos hacer la mejor estimación de los valores presentes y futuros de los valores que se están recibiendo? La solución óptima de este problema y otros similares dieron lugar a las disciplinas de la teoría de la detección y la teoría de la decisión estadística. El trabajo de Shannon se basó en la asunción de que la información a transmitir es una prerrogativa de la fuente, pero la forma en que realmente se transmite (el tipo de señal empleado), está dentro del control del diseñador. Shannon, por lo tanto, se planteó el siguiente problema: ¿Cómo podemos representar de la mejor forma el mensaje para llevar la información a través de un sistema dado con sus limitaciones físicas inherentes? Para dar solución a este problema es necesario concentrarse más el concepto de información que en las señales, como respuesta de solución a este problema surge la Teoría de la Información.(Carlson, 1992) 1.1.1 Teorema fundamental de la Teoría de la Información. Teorema: „‟ Dada una fuente de información y un canal de comunicaciones, existe una técnica de codificación tal que la información puede ser transmitida a través del canal a cualquier velocidad menor que la capacidad del canal y con una frecuencia de ocurrencia de errores arbitrariamente pequeña independientemente de la presencia de ruido.‟‟ 1.1.2 Sistema de Transmisión de la Información. Un sistema de transmisión de información (STI) como el planteado por Shannon (Shannon, 1948) se puede representar como muestra la Figura 1.1. Figura 1.1. Sistema de Transmisión de la Información. Este STI cuenta esencialmente de cinco partes: 6 MARCO TEÓRICO Fuente de Información: Produce un mensaje o secuencia de mensajes para ser enviado(s) al terminal receptor. Transmisor: Manipula el mensaje de alguna forma para transformarlo en una señal apropiada para su transmisión sobre el canal. Canal: Es simplemente el medio para trasmitir la señal desde el transmisor al receptor. Receptor: El receptor opera de manera inversa al transmisor, reconstruyendo el mensaje a partir de la señal. Destino: Es la persona (objeto) a la cual el mensaje está dirigido. Los sistemas de transmisión de la información Shannon pueden clasificarse en discretos, continuos o mixtos. Un sistema discreto es aquel en el cual el mensaje y la señal son elementos discretos (Por ejemplo la telegrafía, en la que el mensaje es una secuencia de letras y la señal es una secuencia de puntos, líneas y espacios). En un sistema continuo la señal y el mensaje son tratados como funciones continuas (Ejemplos de estos sistemas son la radio y la televisión). Un sistema mixto es en el que aparecen variables discretas y continuas, un caso típico de estos sistemas es la transmisión de la voz a partir de la Modulación por Codificación del Pulso (P.C.M).(Shannon, 1948) 1.1.3 Fuente Discreta de Información. La parte esencial de todo sistema de comunicaciones es la „‟Fuente de Información‟‟, una Fuente Discreta de Información se puede definir como: Fuente Discreta de Información: „‟En un sistema físico o modelo matemático de un sistema, cuando se produce una secuencia de símbolos gobernada por un conjunto de probabilidades, se puede decir que estamos en presencia de un proceso estocástico, podemos considerar entonces que la fuente discreta está representada por un proceso estocástico. De manera inversa, cualquier proceso estocástico que produzca una secuencia discreta de símbolos de un conjunto finito, puede ser considerado una fuente discreta de información ‘’.(Shannon, 1948) Algunos ejemplos de Fuentes Discretas de Información son: 7 MARCO TEÓRICO 1. Los alfabetos o conjunto de letras que conforman distintos idiomas naturales como inglés, alemán, chino, etc. 2. Fuentes de información continuas que han sido discretizadas por algún proceso de cuantizacion por ejemplo una señal de televisión cuantizada. 3. Conjunto matemático (de letras o símbolos) donde se ha definido de forma abstracta un proceso estocástico (conjunto con probabilidades definidas) que genera cierta secuencia de símbolos. Si la información o conjunto de datos a transmitir representa un conjunto finito, discreto, de N símbolos o mensajes distintos e independientes, cuyo significado es conocido en el destino del sistema. La fuente de información se denomina entonces “Fuente Discreta sin Memoria” .(Briceño Márquez, 2005) A menudo las Fuentes Discretas son constreñidas por ciertas reglas, las cuales limitan la posibilidad de seleccionar símbolos sucesivos. La influencia entre símbolos reduce la incertidumbre y por tanto la cantidad de información producida. (Carlson, 1992) Si se cumple la situación anterior se puede clasificar la fuente como: „‟ Fuente Discreta con Memoria „‟. 1.1.4 Autoinformación. El concepto de información es muy amplio y se asocia a la existencia de noticias, datos, etc. La información, tal como se utiliza en la teoría de las comunicaciones es una magnitud medible y presupone la existencia de una fuente y un destinatario de la información que se asocian a los extremos transmisor y receptor del canal de comunicaciones. En la Teoría de la Información, la cantidad de información que porta un mensaje se relaciona con la incertidumbre asociada al mismo y no con su contenido semántico. Mientras menos probable es un mensaje, mayor es su contenido de información y viceversa. Considerando una fuente que produce varios mensajes. Sean A: el mensaje, y PA la probabilidad de que este sea seleccionado para su transmisión, según lo planteado anteriormente, la autoinformación IA del mensaje, puede ser hallada como una función de la probabilidad PA: I A f ( PA ) 8 MARCO TEÓRICO Como requisitos que pueden ayudar a inferir la función f 1. están(Carlson, 1992): La autoinformación lógicamente debe ser un número real positivo. Esto es: f ( PA ) 0 , donde: 0 PA 1 2. Si PA=1, el mensaje es cierto, por ende no lleva información: IA=0. Consecuentemente: lím PA 1 f ( PA ) 0 3. Si el mensaje A es menos probable que el mensaje B: PA PB , por lo que: f ( PA ) f ( PB ) Hay muchas funciones que satisfacen las condiciones 1 a la 3. Una condición decisiva proviene de considerar la transmisión de mensajes independientes. Si se envía el mensaje A, el destinatario recibe IA unidades de información, si se envía también un segundo mensaje B, el contenido total de información recibida por el destinatario debe ser la suma de las autoinformaciones: IA+IB. Suponiendo que ambos mensajes provienen de la misma fuente, entonces tendríamos el mensaje compuesto C=AB. Dada la condición de estadísticamente independientes de A y B: PC = PA PB I C f PA PB Como la información que arriba al destinatario sigue siendo IA+IB, entonces: I C I A I B f ( PA ) f ( PB ) Por lo tanto, la condición decisiva es: 4. f ( PA PB ) f ( PA ) f ( PB ) Hay solo una función que satisface las condiciones 1 a la 4, la función logarítmica f K log b , donde K es una constante positiva y b es la base logarítmica. Por simplicidad se toma K=1, además, por convenio en Teoría de la Información la unidad de la Información es el bit, por lo que b=2, el signo menos se usa para satisfacer la condición 1 debido a que las probabilidades están comprendidas entre 0 y 1. (Carlson, 1992) Concluyendo, la Autoinformación de un mensaje o símbolo A esta dada por: 9 MARCO TEÓRICO I ( A) log 2 PA bits 1.1.5 (1.1) Entropía. El concepto básico de Entropía en Teoría de la Información plantea que la misma „‟es una medida de la incertidumbre asociada a una variable aleatoria’’. En los sistemas de comunicaciones, el diseño no se realiza sobre la base de un mensaje en particular sino más bien basándose en todos los mensajes posibles, es decir, debe distinguirse lo que la fuente puede producir de lo que la fuente produce en una ocasión dada. Para describir la fuente se debe por lo menos tomar en consideración todos los mensajes posibles y así hallar la información promedio que entrega la fuente en un instante dado, que no es más que la Entropía. (Carlson, 1992) Si la fuente fuese no estacionaria (la probabilidad de los símbolos varia en el tiempo), el valor la Entropía no tendría sentido ya que el promedio de conjunto sería diferente al promedio en el tiempo, por lo tanto se considera una fuente ergódica (el promedio en el tiempo y de conjunto son iguales). 1.1.6 Entropía de una Fuente Discreta sin Memoria. Para una Fuente Discreta sin Memoria, si la misma tiene un alfabeto de tamaño M y denotamos como X al conjunto de símbolos {x1, x2, x3,…xM} que produce, si además los símbolos cumplen con una distribución de probabilidad Pi {p1, p2, p3…pM}, tiene que cumplirse: M P =1 i 1 i Entonces la expresión de la entropía para este tipo de fuente , según Shannon(Shannon, 1948) es: H X i1 Pi log 2 Pi i1 Pi I i bits / símbolo M M (1.2) Propiedades de la Entropía de Información: La entropía es una magnitud real y no negativa, ya que para cualquier valor i (1 ≤ i ≤ M), Pi varía en el intervalo de 0 a 1. 10 MARCO TEÓRICO La entropía se reduce a cero solo en el caso en que cuando la probabilidad de uno de los estados es igual a la unidad; entonces las probabilidades de todos los demás estados, naturalmente, serán iguales a cero. La entropía es máxima cuando todos los estados de la fuente son equiprobables. La entropía de unión de varias fuentes de información estadísticamente independientes es igual a la suma de entropías de las fuentes iniciales. La entropía caracteriza la indeterminación media de la elección de uno de los estados del conjunto. Para determinarla solo se utilizan las probabilidades de los estados, menospreciando por completo su contenido sustancial.(Barigye, 2013) Para este tipo de Fuente se cumple que: 0 H ( X ) log 2 M 1.1.7 Entropía de una Fuente Discreta con Memoria. La Entropía de una Fuente Discreta con Memoria se formula considerando la historia pasada completa de la fuente (más precisamente, todas las historias pasadas posibles).(Carlson et al., 2002) El efecto ‟‟memoria‟‟ de la fuente reduce la incertidumbre y por lo tanto disminuye la cantidad de información promedio (entropía) que entrega la misma. Con el objetivo de simplificar el análisis, se supone que una fuente con memoria de primer orden(es decir, que „‟recuerda‟‟ solo el símbolo previo). Dado el conjunto X= {x1, x2, x3,…xM} de posibles M símbolos de la fuente, si xi representa el próximo símbolo a transmitir y xj es el símbolo precedente, entonces la información condicional que tiene el conocimiento de que antes se transmitió el símbolo xj está dada por: I xi / x j log 2 Pxi / x j bits (1.3) La información promedio por símbolo, dado que el símbolo previo fue xj, o sea: la entropía condicional, está dada por: 1 bits / símbolo H X / x j Pxi / x j log P x / x i i j (1.4) 11 MARCO TEÓRICO Promediando por todos los posibles símbolos previos, la entropía de la fuente es: H X Px j H X / x j bits / símbolo (1.5) j Una expresión similar puede ser planteada para el caso de una fuente con memoria de orden n, pero la notación se torna extensa debido a que xj en este caso debe ser reemplazado por un estado de la fuente definido en términos de n símbolos previos y existen M n posibles estados a considerar. (Carlson et al., 2002) 1.1.8 Transmisión de Información sobre un Canal Discreto no Ruidoso (Ideal). La entropía de una fuente que transmite la información codificada por un Canal Discreto sin ruidos (la secuencia de símbolos transmitida es recibida en el destino sin modificación alguna) puede ser calculada usando la ecuación 1.2. 1.1.9 Transmisión de Información sobre un Canal Discreto Ruidoso. Suponiendo que una fuente transmite sobre un canal en presencia de algún tipo de ruido, si el alfabeto transmitido es X= {x1, x2, x3,…xM} y a consecuencia del ruido se producen modificaciones en los símbolos transmitidos, en el destino se recibe un alfabeto Y= {y1, y2, y3,…yM}, para medir la cantidad de información transferida se definen algunos de los posibles casos que se pueden dar durante el proceso: Figura 1.2. Probabilidades de transición „‟hacia delante‟‟ para 2 símbolos de entrada y 3 de salida en un Canal Discreto Ruidoso. (Carlson et al., 2002) 12 MARCO TEÓRICO Si el objetivo del Sistema de Transmisión de Información es que si se transmite el símbolo x1, en el destino se reciba y1, o sea que para un xi transmitido se recibe un yj para i=j. La probabilidad de error de símbolo está dada entonces por: P y j / xi , si y solo si j i La información mutua (IM) o información mutua puntual (PMI) que se produce cuando el símbolo xi es transmitido y se recibe el símbolo yj está definida como(Fano, 1961): Pxi / y j bits I xi ; y j log 2 P x i (1.6) La IM es una medida de la información compartida por xi e yj, „’es una medida de en cuánto, el conocimiento que se tenga sobre una variable, reduce la incertidumbre sobre la otra’’. Nótese que si P (x i / y j ) = 1 (Canal sin ruido ideal) el hecho de que se haya recibido el símbolo yj, no brinda ninguna información sobre el símbolo xi, de modo que sustituyendo en la ecuación 1.6: 1 I xi ; y j log 2 bits = I ( xi ) P( xi ) Además, si P (x i / y j ) = P(x i ) (Canal muy ruidoso) esto quiere decir que en realidad estos dos símbolos no tienen ningún tipo de relación a causa de la alteración producida por el ruido, por lo que son estadísticamente independientes (Carlson et al., 2002). En este caso la información mutua es nula, sustituyendo en la ecuación 1.6: I xi ; x j log 2 (1) 0 La IM promedio (IMP) (en realidad es una entropía) puede ser calculada por medio del promedio estadístico sobre ambos alfabetos (transmitido y recibido) de la siguiente forma: Pxi / y j bits / símbolo (1.7) I ( X ; Y ) H X ; Y P( xi , y j ) I ( xi ; y j ) P( xi , y j ) log 2 X ,Y x, y Pxi Es importante destacar que la cantidad I(X, Y) representa la cantidad de información promedio producida por la fuente por símbolo recibido, como una forma de diferenciarla de la información promedio por símbolo H(X). (Carlson et al., 2002) En esta ecuación si: 13 MARCO TEÓRICO Pxi , y j px1 , y1 , px2 , y2 ,...., pxM , y M es la función de distribución conjunta de probabilidades de las variables aleatorias X e Y, tiene que cumplirse que: px , y 1 M i j i, j La Entropía de unión de X e Y se puede definir como: H X , Y P( xi , y j ) log 2 P( xi , y j ) bits / símbolo (1.8) X ,Y Si las 2 variables X e Y son independientes, entonces: H X , Y H X H Y Algunas expresiones diferentes pero equivalentes de la IMP pueden ser halladas, para ello se pueden usar las relaciones 1.9a, b, c y d. Pxi , y j Pxi / y j P y j P y j / xi Pxi (1.9a) Dividiendo en todos los miembros de la igualdad 1.9a por P xi P y j : Pxi , y j Pxi P y j Pxi / y j Pxi P y j / xi Py j (1.9b) P xi Pxi , y j (1.9c) P y j Pxi , y j (1.9d) y x Usando las ecuaciones 1.9 a, c, d en 1.7, es fácilmente demostrable que: I ( X ; Y ) H X H X / Y bits / símbolo (1.10) Si el término H(X) en la ecuación 1.10 es una medida de la incertidumbre acerca de la variable X, entonces H(X/Y) es una medida de cuanto Y „‟no dice‟‟ acerca de X, esto es: la cantidad de incertidumbre acerca de X después de conocida la Y, entonces el miembro derecho de la ecuación puede leerse como: „‟la cantidad de incertidumbre en X menos la cantidad de incertidumbre restante en X después de conocida la Y ’’, lo cual es equivalente a la cantidad de incertidumbre reducida sobre X dado el conocimiento previo de Y. Esto 14 MARCO TEÓRICO corrobora la definición anteriormente dada acerca de la IM. El término H(X/Y) puede ser llamado la entropía de equivocación la cual es la cantidad de información perdida en un canal ruidoso; la ecuación expresa que la información promedio transferida por símbolo es igual a la entropía de la fuente menos la equivocación. (Carlson et al., 2002) Otra posible relación a plantear según 1.7 es: I X ; Y H Y H Y / X bits / símbolo (1.11) Una interpretación similar a la anterior ,en relación a la incertidumbre, puede ser hecha a partir de la ecuación 1.11, el término H(Y/X) se denomina entropía de ruido, este término es derivado de la asunción previa de que el conjunto de probabilidades transicionales „‟hacia delante‟‟ P y j / xi contiene a las probabilidades de error de símbolo(para i≠j); la ecuación 1.11 expresa que la información promedio transferida por símbolo es igual a la ’’entropía del destino’’ menos la entropía de ruido introducida por el canal. (Carlson et al., 2002) Usando las relaciones 1.7 y 1.9b se puede hallar que: I X ; Y H X H Y H X , Y bits / símbolo (1.12) Esta relación reafirma la idea de que la IMP es una medida de la dependencia entre dos variables aleatorias y puede ser considerada como una extensión del coeficiente de correlación lineal entre las mismas.(Li, 1990) A partir de las ecuaciones1.10, 1.11, 1.12 se tiene el siguiente Diagrama de Venn: Figura 1.3. Diagrama de Venn para relaciones derivadas de la IMP. Partiendo del diagrama anterior se puede establecer otra relación para la IMP: I X ; Y H X , Y H X / Y H Y / X bits / símbolo (1.13) 15 MARCO TEÓRICO 1.1.10 Función métrica. Propiedades. En matemáticas, una métrica o función distancia es una función que define la distancia entre 2 elementos de un conjunto, el conjunto donde se define una métrica es llamado Espacio métrico. Es importante resaltar que una métrica produce una topología sobre un conjunto pero no todas las topologías pueden ser generadas por una métrica, a su vez el espacio topológico que pueda ser descrito por una métrica es llamado „‟metrizable‟‟. Definición de espacio métrico: Un espacio métrico es un conjunto M (a cuyos elementos se les denomina puntos) con una función distancia asociada (también llamada una métrica). d :M M R R es el conjunto de los números reales. Decir „‟d es una distancia sobre M‟‟ es decir que para todo x, y, z en M, esta función debe satisfacer las siguientes condiciones o propiedades de una distancia: 1. d(x, y) ≥0 (no negatividad o axioma de separación) 2. si d(x, y) = 0 si y solo si x = y (identidad de los indiscernibles o axioma de coincidencia) 3. d(x, y) = d (y, x) (simetría) 4. d(x, z) ≤ d(x, y) + d (y, z) (subaditividad o desigualdad triangular). La primera condición está implícita en las otras. Una métrica es llamada „‟ ultra–métrica‟‟ si satisface la siguiente versión más fuerte de la desigualdad triangular, donde los puntos nunca pueden caer "entre" otros puntos: 4.1 Ɐ x, y, z € M, d(x, z) ≤ max (d(x, y), d (y, z)) Si se elimina la propiedad 3, se obtiene un espacio pseudométrico. Sacando, en cambio, la propiedad 4, se obtiene un espacio quasimétrico. No obstante, perdiéndose simetría en este caso, se cambia usualmente la propiedad 3 tal que ambas d(x, y) = 0 y d (y, x) = 0 son necesarias para que x e y se identifiquen. Todas las combinaciones de lo anterior son posibles y referidas por sus respectivas nomenclaturas (por ejemplo como quasi-pseudoultramétrico). 16 MARCO TEÓRICO Para conjuntos sobre los que una adición +: M x M→ R es definida, d es llamada métrica invariante de traslación si: Ɐ x, y, a € M, d (x, y) = d(x+a, y+a) Las condiciones anteriores expresan nociones intuitivas acerca del concepto de distancia. Por ejemplo, que la distancia entre 2 puntos distintos es positiva y la distancia de un punto x a uno y es la misma distancia de y hacia x. El termino desigualdad triangular significa que la distancia desde x hacia z pasando por y, es igual o mayor que la medida desde x hacia z directamente. En los trabajos de Euclides la desigualdad triangular se veía plasmada en la afirmación que la distancia más corta entre dos puntos cualesquiera es la recta.(Arkhangel'skii and Pontryagin, 1990) 1.1.11 Información Mutua promedio como métrica. Una interpretación „‟semi-métrica‟‟ de la IMP se propone por Kullback y Leibler(Kullback and Leibler, 1951) como un caso especial de una medida más general denominada la entropía relativa o la divergencia de Kullback-Leibler, la divergencia de Kullback-Leibler no se considera una métrica ya que no cumple con la condición de simetría (propiedad 3): D p q ≠ D q p . La entropía relativa, denotada por D (p||q) es la “distancia” entre dos distribuciones de probabilidades, p(x) y q(x). Puede también entenderse como una medida de los bits de información adicional necesarios para corregir el error en asumir una distribución de probabilidad como q(x) siendo en realidad p(x). La D (p||q) viene dada por la fórmula: p(x) D p q p(x)log q(x) xX (1.14) En un canal con ruidos, una adecuada transmisión requiere un balance entre los casos extremos correspondientes a la transmisión por un canal sin ruido y un canal inútil, respectivamente. Este balance es equivalente a la entropía relativa para las dos distribuciones de probabilidades P xi , y j y P xi P y j . Si P xi , y j ˃˃˃ P xi P y j , quiere decir que X e Y son altamente correlacionadas, mientras que si P xi , y j - P xi P y j →0, X e Y son pobremente correlacionadas. 17 MARCO TEÓRICO La IMP según la ecuación 1.7, con ayuda de la relación 1.9b y 1.14, puede expresarse entonces como: Pxi , y j bits / símbolo D Pxi , y j Pxi Py j I ( X ; Y ) P( xi , y j ) log 2 Px Py x, y i j (1.15) Se puede afirmar entonces, según la ecuación 1.15 (cumple con las condiciones 1, 2, 3 y 4 definidas en 1.1.8), que la IMP como métrica, es la medida de la ineficiencia en asumir que la distribución de probabilidades para canales es P xi P y j , cuando en realidad es P xi , y j .(Barigye, 2013) 1.2 APLICACIONES DE LA TEORÍA DE LA INFORMACIÓN. El hecho de que la Teoría de la Información es una teoría matemática que estudia la información y todo lo relacionado con ella: canales para la transmisión de datos, compresión de datos, criptografía, etc., hace que sus aplicaciones encuentren lugar en casi todos los campos de la ciencia actual. 1.2.1 Lingüística matemática. La lingüística matemática se refiere a la aplicación de técnicas estadísticas, probabilísticas o esquemas matemáticos abstractos a la comprensión de los fenómenos lingüísticos. Aunque algunos de los primeros trabajos que hacían amplio uso de la estadística, la probabilidad y la teoría de la información datan de 1964, la lingüística matemática no constituye hoy en día un área establecida de la ciencia normal, ya que constituye una colección de trabajos heterogéneos, algunos de gran complejidad y muy ambiciosos, pero en general poco conocidos por la mayoría de los lingüistas.(Kornai, 2001) Un enfoque posible de la lingüística matemática es la cuantificación de la cantidad de información. Algunos estudios revelaron inicialmente la altísima redundancia existente en las lenguas naturales, esta redundancia está dada por el hecho de que si por ejemplo se desea transmitir el mensaje perteneciente al idioma español: QUE, el uso de la U es redundante, ya que la probabilidad P (U/Q)=1, así en muchos casos de idiomas el uso de algunas letras es innecesario para transmitir un mensaje con claridad. Shannon calculó la entropía 18 MARCO TEÓRICO condicional de textos escritos en inglés y probó que en esos textos la redundancia estadística es cercana al 50%.(Shannon, 1948) 1.2.2 Física Estadística. La física estadística es una rama de la física que mediante técnicas estadísticas es capaz de deducir el comportamiento de los sistemas físicos macroscópicos a partir de ciertas hipótesis sobre los elementos o partículas que conforman dichos sistemas. Los sistemas macroscópicos son aquellos que tienen un número de partículas parecido al número de Avogadro, cuyo valor aproximadamente igual a 1023 es increíblemente grande. Un ejemplo de un sistema macroscópico es, por ejemplo, un vaso de agua. La importancia del uso de las técnicas estadísticas para estudiar estos sistemas radica en que al ser sistemas tan grandes es imposible, incluso para las más avanzadas computadoras, llevar un registro del estado físico de cada partícula y predecir el comportamiento del sistema mediante las leyes de la mecánica. La utilidad de la física estadística consiste en ligar el comportamiento microscópico de los sistemas con su comportamiento macroscópico, de modo que conociendo el comportamiento de uno se pueden averiguar detalles del comportamiento del otro. Permite describir numerosos campos de naturaleza estocástica como las reacciones nucleares; los sistemas biológicos, químicos, neurológicos; etc. El postulado fundamental de la física estadística, conocido también como postulado de equiprobabilidad a priori, es el siguiente: ‘’Dado un sistema aislado en equilibrio, el sistema tiene la misma probabilidad de estar en cualquiera de los microestados accesibles. ’’ Este postulado fundamental afirma que un sistema en equilibrio no tiene ninguna preferencia por ninguno de los microestados disponibles para ese equilibrio. Si N es el número de microestados disponibles para una cierta energía, entonces la probabilidad de encontrar el sistema en uno cualquiera de esos microestados es p = 1/N. El postulado es necesario para poder afirmar que, dado un sistema en equilibrio, el estado termodinámico (macroestado) que está asociado a un mayor número de microestados es el macroestado más probable del sistema. (Merhav, 2010) La cantidad de información promedio de un macroestado, se calcula usando la función logarítmica Shannon(Shannon, 1948): de Información definida por 19 MARCO TEÓRICO I i ln i ln (1.16) i 1.2.3 Minería de datos basada en teoría de la información Este tipo de minería de datos se basa en la siguiente afirmación: ‘’Una base de datos es un canal que transmite información’’, por un lado está el mundo real que captura datos generados por el negocio, por el otro están todas las situaciones y problemas importantes del negocio y la información fluye desde el mundo real y a través de los datos, hasta la problemática del negocio. Con esta perspectiva y usando la Teoría de la información, es posible medir la cantidad de información disponible en los datos y qué porción de la misma podrá utilizarse para resolver la problemática del negocio. Como un ejemplo práctico, podría encontrarse que los datos contienen un 65% de la información necesaria para predecir qué cliente rescindirán sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que generó el modelo hizo un buen trabajo capturando la información disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podría valer la pena. La capacidad de medir información contenida en los datos tiene otras ventajas importantes. Al analizar los datos desde esta nueva perspectiva se genera un mapa de información que hace innecesario la preparación previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar un grupo de variables óptimo que contenga la información necesaria para realizar un modelo de predicción. Una vez que las variables son procesadas con el fin de crear el mapa de información y luego seleccionadas aquellas que aportan la mayor información, la elección de la herramienta que se usará para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.(Pyle, 1999) 1.2.4 Aplicaciones de la Teoría de la Información al campo de la Química. En los últimos años la aplicación de la teoría de información a la Química ha recibido creciente interés tanto con el objetivo de proporcionar mejor interpretación a conceptos químicos tradicionales como para caracterizar fenómenos y especies químicas. Así por ejemplo, se ha demostrado que la interpretación más precisa de la entropía termodinámica 20 MARCO TEÓRICO clásica es en términos de la medida de información de Shannon en lugar de la definición tradicional (medida del desorden), dado que mientras que la primera exégesis se cumple para todos los procesos termodinámicos, existen otros procesos donde la definición de la entropía como una medida de desorden no es sustentable.(Barigye, 2013) El concepto de la „‟Comunicación Molecular‟‟ es una aplicación de la Teoría de la Información a las ciencias Bioquímicas, es universalmente usado en todos los niveles de Sistemas biológicos extendiéndose desde las moléculas y células hasta los tejidos y órganos. Las comunicaciones moleculares, usando un modelo de Sistema de Transmisión de Información a través de un canal, han servido de base para una mejor comprensión de muchos procesos celulares de interés biológico, además son de gran interés en el área del diseño e ingeniería de sistemas biológicos sintéticos desde el punto de vista de la teoría de la información.(Nakano and Liu, 2010) A su vez, los principios de la Teoría de la Información pueden ser usados para evaluar la cantidad de información obtenida de la medición de magnitudes físicas, usando esta cantidad de información y la correlación entre las magnitudes, pueden seleccionarse un conjunto de características que brinden la máxima cantidad de información. Hace algunos años el concepto de información definido por Shannon fue introducido en el campo químico de la Espectrometría de masa, la espectrometría de masa da una gran cantidad de información dependiendo exactamente del número de bandas presentes y de los niveles de intensidad que pueden distinguirse midiendo esas bandas, está demostrado que para un espectro codificado binario (bandas presentes o no), el número de bits obtenido ronda los 150 (dependiendo del nivel umbral definido para decidir si está o no presente la banda),esto permitió descubrir que las bandas que realmente brindan información pueden ser en un rango más pequeño.(van Marlen and Dijkstra, 1976) 1.2.4.1 Índices de Información. Una de las aplicaciones más importantes del concepto de información brindado por Shannon en el campo de la Química son los IFIs. Esta amplia familia de DMs incluye índices muy sencillos como los que se derivan de la composición elemental de un átomo o molécula (índices de composición) hasta los más complejos como por ejemplo: los índices de simetría de vecindad. Los IFIs están clasificados como Índices Topológicos de Tercera 21 MARCO TEÓRICO Generación y resultan del análisis de la estructura estadística de modelos moleculares empleando la medida del grado de incertidumbre en la selección aleatoria de un suceso en el modelo. (Barigye, 2013) Los IFIs más relevantes definidos hasta el momento, según el modelo molecular o Fuente de Información analizada son(Barigye, 2013): Formula Química (Representación 0D de la Estructura Molecular): Este índice se denomina el índice de información sobre la composición química y es una medida de la diversidad composicional de los compuestos químicos. Grafos Químicos como Fuente de Información: Estos IFIs han sido utilizados exitosamente en estudios de redes complejas demostrando poder discriminatorio superior a la mayoría de los IFIs tradicionales, así como ITs bien conocidos tales como el índice J de Balaban, el índice de Randić y el índice de Harary, por solo citar algunos de los más representativos. Representaciones Matriciales como una Fuente de Información: Las representaciones matriciales vistas como una fuente de información han permitido la definición de numerosos IFIs a través del análisis de patrones estadísticos de matrices. Como casos particulares de estos índices se han definido los índices de información globales y los índices de información como invariantes locales para vértices (LOVIs). En general los DMs deben satisfacer algunos requerimientos básicos. Una lista de requerimientos básicos sugeridos por Randić(Randić, 1991) es mostrada a continuación: 1. Interpretación estructural. 2. Mostrar buena correlación con al menos una propiedad. 3. Preferiblemente permitir la discriminación de isómeros. 4. Aplicables a estructuras locales. 5. Generalizable a DMs superiores. 6. Independencia. 7. Simplicidad. 8. No estar basados en propiedades. 9. No estar relacionados con otros descriptores al azar. 10. Permitir una „‟construcción‟‟ eficiente. 11. Usar conceptos de familia estructural. 22 MARCO TEÓRICO 12. Mostrar la correcta dependencia del tamaño. 13. Mostrar cambios graduales según el cambio estructural. A continuación se referirán los métodos estadísticos usados para demostrar el cumplimiento de algunos de estos requerimientos básicos por los nuevos IFIs propuestos. 1.2.4.1.1 Análisis de Componentes Principales (ACP). El ACP comprende un procedimiento matemático que transforma un conjunto de variables correlacionadas de respuesta en un conjunto menor de variables no correlacionadas llamadas Componentes Principales (CPs) o simplemente factores. (Malinowski and Howery, 1980) El ACP permite explorar a priori la posible existencia de ortogonalidad entre las variables, un requisito importante para nuevos DMs. (Franke, 1984) Las principales aplicaciones de la técnica de ACP son: (1) reducir el número de variables pertenecientes a un conjunto y (2) detectar una estructura de relaciones entre las variables del conjunto como una vía para clasificar las variables(Basilevsky, 1994). Si se tiene una recta de regresión lineal que represente la relación existente entre 2 variables según los coeficientes de correlación de las mismas, es posible obtener una „‟nueva variable‟‟ o factor, que represente en gran medida la esencia de las variables originales. Entonces se puede afirmar que un factor es una combinación lineal de dos o más variables, se define como la „‟carga‟‟ en un factor al coeficiente de correlación entre una variable original (en nuestro caso: un DM) y un factor dado („‟nueva variable‟‟). El ACP permite entonces obtener combinaciones lineales no correlacionadas de descriptores a partir del cálculo de los autovalores y autovectores de la matriz de correlación. Los autovectores o vectores propios son los Componentes Principales y constituyen una nueva base ortonormalizada en el espacio descriptor multidimensional (la base original está definida por las coordenadas del descriptor), cada punto representativo en el espacio descriptor multidimensional está entonces proyectado en dichos autovectores. La razón entre los autovalores y la suma del total de estos, multiplicada por 100, es igual al porcentaje de varianza explicada por los correspondientes CPs. Por ejemplo, el primer CP: Y1, se define como una combinación lineal normalizada de descriptores que explica la máxima varianza de los puntos representativos. El segundo CP: Y2 es definido como la máxima cantidad de dispersión entre todas las combinaciones lineales normalizadas de 23 MARCO TEÓRICO descriptores, no correlacionadas con Y1, a su vez el tercer CP: Y3 se define como la máxima cantidad de dispersión entre todas las combinaciones lineales normalizadas de descriptores, no correlacionadas con Y1 ni Y2, etc., por lo tanto, los factores hallados son ortogonales entre sí y el primer factor calculado esta generalmente más correlacionado con las variables originales que los otros factores.(Golbraikh, 2000) Algunas conclusiones extrapolables del ACP son: (1) las variables con una alta carga en el mismo factor están tan correlacionadas como alto sea el valor de la carga y (2) las variables con carga en diferentes factores son completamente ortogonales entre sí (o sea, DMs que captan información estructural completamente distinta). 1.2.4.1.2 Análisis de Variabilidad (AV). El método de AV, propuesto por Godden y colaboradores,(Godden et al., 2000) cuantifica el contenido de información y, por lo tanto, la variabilidad de los DMs, basado en el concepto de entropía de Shannon. Para esto se introduce un procedimiento de discretización empleando los histogramas de distribución de frecuencias. Sea px i la probabilidad de que el caso c esté en intervalo i, para un número de intervalos M se construye una función de distribución de probabilidades P X , a la cual se le aplica la ecuación 1.2. De esta forma se obtiene la entropía de cada variable(Frank and Friedman, 1993), siendo elevada para variables(DMs) de alta variabilidad y mínima para las de poca variabilidad en la Base de datos analizada. De esta manera, esta técnica permite evaluar la calidad de los DMs como entidades independientes y se ha utilizado en la literatura para comparar el desempeño de conjuntos de DMs implementados de diferentes paquetes computacionales, así como en estudios de diversidad molecular.(Barigye et al., 2013) 1.2.4.1.3 Modelación QSAR/QSPR. El concepto de estructura molecular, su representación por DMs teóricos y la relación de estos con propiedades experimentales de las moléculas es un proceso de estudio interdisciplinario, como muestra el siguiente gráfico.(Puzyn et al., 2010) 24 MARCO TEÓRICO Figura 1.4. Esquema general de relaciones entre la estructura molecular, DMs, Quimioinformática y la modelación QSAR/QSPR, etc. Desde los años 1960-1970 la modelación molecular principalmente consistió en la búsqueda de relaciones matemáticas entre cantidades experimentalmente medidas, actualmente está enfocada en relacionar una propiedad medida y DMs capaces de capturar información de la estructura química. Los mejores DMs son aquellos en los que su contenido de información es comparable con el contenido de información de la „‟respuesta‟‟ para la cual se busca el modelo. En efecto, mucha información en la variable independiente (descriptores) con respecto a la „‟respuesta‟‟ es a menudo vista como „‟ruido‟‟ del modelo.(Puzyn et al., 2010) El uso de modelos matemáticos para explicar la relación entre propiedades físico-químicas medidas experimentalmente y la estructura molecular es de gran utilidad para predecir un vínculo entre estas propiedades químicas y actividades biológicas de algún compuesto, estos modelos se conocen como modelos QSAR/QSPR (Quantitative-Structure-Activity (Property)-Relationship). El proceso de desarrollo de modelos QSAR puede ser generalmente dividido en tres etapas: preparación de los datos, análisis de los datos y validación del modelo. 25 MARCO TEÓRICO La primera etapa incluye la selección de una base de datos de moléculas, el cálculo de los descriptores moleculares y la selección del método QSAR (análisis estadístico y correlacional), estos pasos representan una práctica estándar para cualquier modelación QSAR aunque algunos detalles específicos son generalmente determinados por los intereses del investigador y la disponibilidad del software. La segunda parte del desarrollo del modelo QSAR consiste en la aplicación de enfoques estadísticos al mismo, muchos algoritmos y software son utilizados con este fin, de los cuales la mayoría están basados en Regresión Lineal Múltiple (con selección de variable o mínimos cuadrados parciales), o en métodos no lineales (algoritmos genéticos y otros), en todos los enfoques los descriptores constituyen las variables independientes y alguna propiedad física-química-biológica es la variable dependiente. La última y más importante etapa es la validación del modelo, para ello se utilizan numerosas técnicas estadísticas con enfoque predictivo.(Golbraikh and Tropsha, 2002) La aplicabilidad de los modelos QSAR puede ser vista, por ejemplo, en la Química, con la predicción de los puntos de ebullición de sustancias dentro de una misma familia química, en la Biología: la predicción del coeficiente de partición octanol/agua (log P) es de especial interés debido a que constituye una medida importante en la identificación de sustancias con potencial farmacológico de acuerdo con la regla de cinco de Lipinsky(regla que establece condiciones para las drogas o medicamentos para su consumo humano oral). Es importante señalar que, la mayoría de las investigaciones QSAR/QSPR han sido realizadas usando la técnica de RLM,(Frank and Friedman, 1993, Kubinyi, 1996) fundamentalmente por su carácter lineal, paramétrico y su “simplicidad”.(Barigye, 2013) 1.2.4.1.4 Regresión lineal múltiple con Algoritmo Genético (RLM-AG). La RLM estudia las relaciones entre una variable dependiente o criterio y un conjunto de variables independientes o predictores X= {x1, x2,..., xk}. Así mismo, la regresión múltiple remite a la correlación múltiple, que se representa por R. Sus fundamentos se hallan en la correlación de Pearson(Alzina, 1989). La recta de regresión múltiple tiene la siguiente forma: Y = a + b1 x1 + b 2 x 2 + ... + b k x k (1.17) 26 MARCO TEÓRICO Donde a es un valor constante y (b1…bk) son los coeficientes de correlación.(Barigye, 2013) El AG es una técnica de Inteligencia Artificial usada en este caso como método de selección optimizada de variables y junto a la RLM es una parte importante en la modelación QSAR. El AG está basado en la evolución darwiniana e imita el proceso de selección natural, análogamente a la selección natural, los parámetros a ser optimizados (modelos) son codificados en una cadena de bits (cada cadena de longitud igual al número de variables) formando un conjunto de cromosomas. En la población, cada cromosoma representa un genotipo en particular o una solución a determinada tarea. Cada subconjunto de cromosomas a reproducir es sometido a operaciones análogas a la evolución, como mutación, cruzamiento, etc. Para generar nuevos cromosomas (progenie). La „‟buena salud‟‟ de la progenie es evaluada, y el modelo con un poder predictivo mayor: Q2loo (explica la mayor parte de la varianza en la predicción) es admitido para reproducirse, mutar o cruzarse con otro modelo „‟padre‟‟ de otra población generada, para así dar lugar a una nueva población‟‟ hija‟‟. Este proceso es repetido hasta que la „‟salud‟‟ de la población converge o hasta un numero predefinido de iteraciones.(Goldberg, 1989) 1.2.4.1.5 Análisis de la Varianza (ANOVA). El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La variabilidad total de la variable dependiente se divide entre la parte atribuible a la regresión y la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide en dos partes:(Alzina, 1989) Yi Y Yi Yˆi Yˆi Y (1.18) Siendo Yˆi el valor predicho por la ecuación de predicción. El valor Yi Yˆi se denomina residual de la regresión y Yˆi Y corresponde a la distancia explicada por la regresión y representa el aumento en la estimación de Yi mediante la recta de regresión.(Barigye, 2013) En el ANOVA, la razón F (razón de Fisher-Snedecor) sigue una distribución F con grados de libertad v1 = υ, v2 = n- υ -1; siendo υ el número de variables de la ecuación y n el número 27 MARCO TEÓRICO de objetos del conjunto de entrenamiento (Conjunto de datos objeto del análisis de regresión), además , F se puede expresar como(Frank and Todeschini, 1994): F MSS / v1 RSS / v2 (1.19) Donde v1 y v2 representan los grados de libertad del modelo y el error respectivamente. MSS (Model Sum Squares) es la suma de las diferencias al cuadrado entre la respuesta predicha Yˆi y el valor promedio de la misma Y y se define como(Frank and Todeschini, 1994): MSS= Yˆi Y n 2 i 1 El valor de MSS representa además la proporción de varianza de la variable de respuesta explicada por el modelo de regresión. RSS (Residual (error) Sum Squares) representa la suma de las diferencias al cuadrado entre la respuesta observada experimentalmente Yi y el valor Yˆi predicho de la misma, se define como(Frank and Todeschini, 1994): RSS= Yi Yˆi n 2 i 1 Se puede decir que F es una comparación entre la varianza explicada por el modelo y la varianza residual (varianza del error), un modelo confiable está asociado a valores altos de F.(Frank and Todeschini, 1994) La F sirve para comprobar si el modelo de regresión se ajusta a los datos y permite evaluar si se rechaza la hipótesis nula, según la cual R2 = 0. A su vez, la varianza total de la variable de respuesta se define como: TSS= Yi Y n 2 i 1 Si el modelo se ajusta a los datos, el coeficiente de determinación (R2) puede calcularse a partir de la siguiente relación del ANOVA(Barigye, 2013): 28 MARCO TEÓRICO Y Yˆ n R2 MSS RSS 1 1 TSS TSS i 1 n 2 i i (1.20) Y Y i 1 2 i R2 se conoce también como coeficiente de correlación múltiple y no es más que la varianza total de la respuesta Yi (obtenida experimentalmente) que explica el modelo obtenido por regresión. 1.2.4.1.6 Validación Cruzada. La Validación Cruzada o Cross-Validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar cómo de preciso es un modelo que se llevará a cabo a la práctica.(Devijver and Kittler, 1982) Suponiendo que se tiene un modelo con uno o más parámetros de ajuste desconocidos y datos de entrenamiento a analizar. El proceso de ajuste optimiza los parámetros del modelo para que éste se ajuste a los datos de entrenamiento tan bien como pueda. Si se escoge una muestra independiente como dato de prueba (validación) del mismo grupo que los datos de entrenamiento, normalmente el modelo no se ajustará a los datos de prueba igual de bien que a los datos de entrenamiento, esto se denomina sobreajuste y acostumbra a pasar cuando el tamaño de los datos de entrenamiento es pequeño o cuando el número de parámetros del modelo es grande. La validación cruzada es una manera de predecir el ajuste de un modelo a un hipotético conjunto de datos de prueba cuando no disponemos del conjunto explícito de datos de prueba. El poder predictivo del modelo R2cv (R2 cross-validated) puede expresarse como Q2, denominado como la „varianza predictiva‟ o la „varianza de la validación cruzada‟(Barigye, 2013), y puede ser calculada acorde a la siguiente fórmula: n R 2 cv Q 2 1 PRESS 1 TSS (y i 1 n i (y i 1 yˆ i / i ) 2 i y)2 (1.21) 29 MARCO TEÓRICO El término PRESS (PREdictive Sum of Squares) es la suma de las diferencias al cuadrado entre la respuesta observada experimentalmente y la respuesta estimada mediante la técnica de validación, yˆ i / i representa la respuesta estimada del i-ésimo objeto usando un modelo hallado omitiendo este i-ésimo objeto. La más sencilla y general técnica de Validación Cruzada es la técnica de LOOCV o simplemente LOO (siglas de Leave-one –out -Cross Validation), que consiste en separar los datos de forma que para cada iteración se tenga una sola muestra para los datos de prueba y todo el resto conformando los datos de entrenamiento. En este tipo de validación cruzada el error es muy bajo, pero en cambio, a nivel computacional es muy costoso, puesto que se tienen que realizar un elevado número de iteraciones, tantas como N muestras hallan y para cada una analizar los datos tanto de entrenamiento como de prueba.(Refaeilzadeh et al., 2008) Figura 1.4. Validación Cruzada dejando uno fuera (LOO)(Refaeilzadeh et al., 2008). 1.2.4.1.7 Remuestreo (Bootstrapping). En el ámbito de la estadística, se denomina remuestreo (en inglés resampling) a una variedad de métodos que permiten realizar algunas de las siguientes operaciones: Estimar la precisión de muestras estadísticas (medianas, variancias, percentiles) mediante el uso de subconjuntos de datos disponibles (jackknifing) o tomando datos en forma aleatoria de un conjunto de datos (bootstrapping). Intercambiar marcadores de puntos de datos al realizar test de significancia (test de permutación, también denominados test exactos, test de aleatoriedad, o pruebas de realeatoriedad). 30 MARCO TEÓRICO Validar modelos para el uso de subconjuntos aleatorios (bootstrapping, validación cruzada. Entre las técnicas comunes de remuestreo se encuentran bootstrapping, jackknifing y pruebas de permutación.(Good, 2005 ) Un ejemplo de técnica de remuestreo es el Bootstrapping, con esta técnica de validación el tamaño del conjunto de datos de muestra es preservado por el conjunto de entrenamiento debido a la selección de objetos con repetición, de esta manera el conjunto de entrenamiento usualmente consiste en objetos repetidos y el de prueba consta de los objetos dejados fuera; el modelo es calculado en el set de entrenamiento y las respuestas son precedidas en el set de prueba, más específicamente, la validación es desarrollada mediante la creación (aleatoria) varias veces de sets de entrenamiento con repeticiones de muestras y la evaluación predictiva de respuestas a las muestras no incluidas en el set de entrenamiento, el resultado de esta técnica es el poder predictivo promedio (Q2boot) , este parámetro es deseable que sea por lo menos mayor a 0.5.(Efron, 1982, Efron, 1987) 1.2.4.1.8 Revuelto (Y-Scrambling). Esta técnica de validación se adopta con el objetivo de chequear modelos con posibilidades de correlación casual (modelos en los que las variables independientes están aleatoriamente correlacionadas con las variables de respuesta), el nombre Scrambling proviene del verbo scramble(que significa mezclar en inglés), esta técnica mide la calidad del modelo en cuestión modificando aleatoriamente el vector de respuesta Y, esto lo hace asignando a cada objeto una respuesta aleatoriamente seleccionada del vector Y. Los resultados de esta técnica están caracterizados en términos de correlación de la respuesta mezclada con la respuesta de los datos sin perturbar. Si el modelo original no tiene ninguna correlación casual, existirá una diferencia significativa en la calidad del modelo obtenido con respuesta mezclada aleatoriamente y el modelo original. Este procedimiento consta de numerosas iteraciones y brinda los parámetros a [Q2] y a [R2]. Los modelos inestables se caracterizan por valores altos de estos parámetros, mientras que lo contrario ocurre en modelos que podemos considerar estables.(F.Lindgren et al., 1996) 31 2. MATERIALES Y MÉTODOS MATERIALES Y MÉTODOS CAPÍTULO 2. MATERIALES Y MÉTODOS En este capítulo se recoge la definición e implementación de nuevos IFIs basados en la utilización de una Fuente de Información distinta a las reportadas en la literatura, la programación de los IFIs se realiza usando el lenguaje del software MATLABR2010a(MathWorks, 2010). Se recogen además los métodos estadísticos usados para analizar las propiedades de los nuevos IFIs propuestos con el objetivo de verificar el cumplimiento de algunos requerimientos básicos de los DMs. 2.1 Modelado de una base de datos molecular como fuente de información. Existen distintos criterios que aportan „‟huellas‟‟ diferentes para cada molécula, basándose en la aparición o no de „‟subestructuras‟‟ o „‟fragmentos‟‟ moleculares diferentes en la misma, cada huella constituye un vector que contiene tantas posiciones como „‟fragmentos‟‟ definidos en el criterio y cada una de las posiciones representa la cantidad de veces que aparecen dichos fragmentos dentro de la estructura molecular en cuestión. La representación matricial de la base de datos de moléculas es vital para la modelación matemática como una fuente de información, si se representa una matriz que tiene en sus filas las moléculas presentes en la base de datos y en las columnas las subestructuras o fragmentos moleculares definidos para un criterio en específico, la cantidad de veces que está presente cada „‟fragmento‟‟ en una molécula es la intersección fila-columna, es posible modelar entonces la fuente de información como se describe a continuación: 32 MATERIALES Y MÉTODOS Para poder interpretar el análisis de forma sencilla se definirá una analogía entre la base de datos y por ejemplo el alfabeto del Idioma Ingles. El espacio que contiene todos los posibles símbolos de salida se denomina el alfabeto de la fuente. Tabla 2.1. Analogía con el idioma inglés. Fuente de información Base de datos de moléculas Idioma Ingles Alfabeto o Diccionario Conjunto de „‟fragmentos‟‟ en la Base Alfabeto Símbolo „‟fragmento‟‟ molecular Letra Mensaje Molécula Palabra Dada una matriz M: [mxn] que representa una base de datos de moléculas con una huella definida para un criterio en específico, analizándola como una fuente de información con un „‟alfabeto‟‟ de tamaño n, que además produce m mensajes, se puede plantear que: m Fa Kai i 1 (2.1) Fa constituye la frecuencia relativa natural de aparición de cada símbolo, donde Ka representa un símbolo en particular, Kai es el número de veces que aparece el símbolo Ka dentro de un mensaje cualquiera, a= {1 23…. n} ; por ejemplo: K11 es la cantidad de veces que aparece el símbolo K1 dentro del mensaje 1. El número total de símbolos producidos por la fuente se puede calcular como la suma de todas las frecuencias relativas naturales de aparición de los símbolos, esto es: N a1 Fa n (2.2) En un experimento repetido N veces, si el suceso A ocurre m veces, entonces P(A): la probabilidad de que el suceso A ocurra, se define en la forma: PA lim N m N Esta definición de probabilidad se conoce con el nombre de “definición empírica de la probabilidad”, se conoce también como “la definición de la frecuencia relativa”, por cuanto define la probabilidad como la frecuencia relativa de ocurrencia del suceso. Nótese que al definir P(A) se supone implícitamente que el límite N→∞ existe.(Briceño Márquez, 2005) 33 MATERIALES Y MÉTODOS En este caso, si el evento o suceso Ki ocurre Fa veces dentro de un experimento o espacio muestral de tamaño N, entonces la probabilidad de ese evento es: P ( xi ) Fa N (2.3) Si los Kn sucesos del experimento son „‟exhaustivos‟‟ entonces se cumple que: n i 1 P( xi ) 1 (2.4) P(X) es la función de probabilidad discreta de la variable X (Variable que describe la frecuencia relativa natural de aparición de cada símbolo), que se define como: X= {f1 f2 f3…. fn}. Con la obtención de un vector de probabilidades dado por la función P(X), es posible hallar la autoinformacion en bits de cada símbolo, Ai. Shannon definió la medida de información como la función logarítmica(Shannon, 1948): Ai log 2 Pxi (2.5) Es posible con los cálculos realizados hasta ahora hallar la entropía (valor medio o esperado de la información en bits por símbolo) de la fuente de información; la entropía para una fuente de información discreta, estacionaria (las probabilidades de los símbolos no varían en el tiempo) y con símbolos estadísticamente independientes entre sí, está definida como(Shannon, 1948): H X i 1 Pxi log 2 Pxi [bits/símbolo] n (2.6) O sea: H X i 1 Pxi Ai n En la Tabla 2.2 se pueden observar los parámetros anteriores hasta la ecuación 2.5. (2.7) 34 MATERIALES Y MÉTODOS Tabla 2.2. Modelación matemática de la base de datos como fuente de información según la variable X. Moléculas Ka1 Ka2 Ka3 . . Kan mol.1 1 0 3 . . 0 mol.2 0 0 2 . . 0 mol.3 3 2 0 . . 0 . . . . . . . . . . . . . . . . . . . . . mol.m 1 4 0 . . 3 Cálculo de parámetros a la representación matricial de la Base molecular. X f1 f2 f3 . . fn P(x1) P(x2) P(x3) . . P(xn) a1 a2 a3 . . an N P(X) Ai Si se tiene una variable Y, como variable binaria que describa solamente si un símbolo aparece o no dentro de cada mensaje, se puede modelar un nuevo tipo de fuente de información, definiendo Y= {b1 b2 b3….bn b0}, donde b es la frecuencia de aparición booleana de cada símbolo generado por la fuente y b0 es la frecuencia de conteo del resto de los símbolos que conforman el mensaje: En este caso, b se puede calcular usando la ecuación 2.1 con la diferencia de que el conteo de símbolos se realiza de forma binaria. Si Kbj representa un valor binario que describe la aparición o no de determinado símbolo y Kaj cuenta el número de veces que está presente el mismo dentro de un mensaje j cualquiera, entonces K0j se define como: 35 MATERIALES Y MÉTODOS K0 j K n a ,b1 aj K bj (2.8) Se puede calcular bo según: m b0 K 0 j j 1 (2.9) La probabilidad asociada a la variable Y para cada símbolo puede ser entonces calculada por P (yj), donde: Py j b N (2.10) La probabilidad de la variable de conteo residual y0, se puede calcular como: P y0 b0 N (2.11) En concordancia con lo planteado en la condición 2.4, debe cumplirse que: n j o P( y j ) 1 (2.12) A partir de la obtención del vector de probabilidades P (Y), es posible entonces hallar la autoinformacion Aj de cada símbolo y la entropía H (Y) de la fuente usando las ecuaciones 2.5 y 2.7. En aras de lograr una mejor comprensión de la anterior formulación matemática, en la Tabla 2.3 se pueden observar los parámetros anteriores hasta la ecuación 2.11. 36 MATERIALES Y MÉTODOS 37 Tabla 2.3. Modelación matemática de la base de datos como fuente de información según la variable Y. Moléculas Kb1 Kb2 Kb3 . . Kbn K0 mol.1 1 0 1 . . 0 2 mol.2 0 0 1 . . 0 1 mol.3 1 1 0 . . 0 3 . . . . . . . . . . . . . . . . . . . . . . . . mol.m 1 1 0 . . 1 5 bn bo P(Puzyn P(y0) Cálculo de parámetros a la representación matricial de la Base molecular. Y b1 b2 b3 . . P(y1) P(y2) P(y3) . . a1 a2 a3 . . N P(yj) Aj et al.) an a0 2.1.1 Distribución conjunta de probabilidades. A partir de las distribuciones de probabilidad de X e Y, es posible obtener una distribución conjunta de probabilidad P(X, Y) siguiendo el siguiente razonamiento: MATERIALES Y MÉTODOS Espacios Muestrales de las Variables X e Y Xi Yi Yo Figura 2.1. Espacios muestrales de las Variables X e Y. Nótese que las variables X e Y están en el mismo Espacio Muestral, además, la variable Y es un caso „‟truncado‟‟ de la variable X: Yi X i Por lo tanto, según las expresiones 2.10 y 2.11, la función P(X, Y) se puede definir como: Pxi , y j Py j , j i, j 0 Pxi , y j Pxi , y0 , j 0 Pxi , y j 0, otros (2.13) La función P (xi, y0) se define como: N Pxi , y0 x , y i 1 i 0 N (2.14) Esto es la sumatoria de la cantidad de veces que aparece la dupla (xi, y0) sobre el número total de símbolos producidos por la fuente. La distribución de probabilidad conjunta P(X, Y) debe cumplir que: Px , y 1 n n i 1 j 0 i j A partir de la ecuación 1.6 es posible calcular la medida de cuánto el conocimiento sobre una de las dos variables reduce la cantidad de incertidumbre sobre la otra, esto da una idea 38 MATERIALES Y MÉTODOS de cuan correlacionadas están estas 2 variables. Es posible también con ayuda de las ecuaciones de entropía condicional 1.10 y 1.11 calcular la cantidad de incertidumbre acerca de una variable con un conocimiento previo sobre la otra, esto es: cuánto una variable „‟no dice‟‟ acerca de la otra. La ecuación 1.12 puede interpretarse como una extensión del coeficiente de correlación lineal entre 2 variables. 2.1.2 Definición de los nuevos IFIs. Dados el mensaje mol.1:{K1K3K3K3} producido por la fuente de información según la variable X y el vector Ai= {a1, a2,…, an} (Ver Tabla 2.2), la Información en bits del mensaje sería: I mol a1 3 a3 [bits] De forma general, cada mensaje producido por la fuente tendría: n I ( X ) mol. K ai Ai [bits] i 1 (2.15) Donde mol= {1 23… m}. Se puede definir entonces otro índice de información derivado de la ecuación 2.15: NR( X ) I ( X ) mol n K ai H ( X ) i 1 (2.16) La expresión 2.16 constituye la razón normalizada NR(X) entre la información de un mensaje y la entropía H(X) de la fuente generadora. Este índice da una idea de que tan comunes son los símbolos que componen el mensaje dentro del espacio completo de mensajes producidos por la fuente, si NR(X) <<1 entonces los símbolos son por lo general bastante comunes, si NR(X) >>1 el mensaje lleva símbolos que aparecen con poca frecuencia en el resto de los mensajes generados. Es un parámetro adimensional. 39 MATERIALES Y MÉTODOS Por otra parte, si se tiene el mensaje mol.1:{K1K3K0K0} producido por la fuente de información según la variable Y, además del vector Aj= {a1, a2,…, an, a0}, (Ver Tabla 2.3) la Información en bits del mensaje sería: I mol a1 a3 2 a0 [bits] De forma general, cada mensaje producido por la fuente tendría: I (Y ) mol K bj A j K 0 A0 [bits] n j 1 (2.17) Similarmente a 2.16, se puede plantear que: NR(Y ) I (Y ) mol n K bj K 0 H (Y ) j 1 (2.18) El índice NR (Y) tiene la misma interpretación que en 2.16. A su vez, dados los siguientes mensajes, generados según las fuentes de información basadas en las variables X e Y respectivamente: mol.1X:{K1K3K3K3} mol.1Y:{K1K3K0K0} La Información Mutua Puntual (PMI) entre las duplas (xi, yj) que componen los mensajes, se puede calcular como(Fano, 1961): PMI ( xi , y j ) PMI ( x1 , y1 ) PMI ( x3 , y3 ) 2 PMI ( x3 , y0 ) Lo cual según 1.6 y 1.9b, se puede expresar como: n n Pxi , y j PMI mol ( xi , y j ) log 2 Px Py i 1 j 0 i j (2.19) El índice PMI da una medida de cuánta información en bits se pierde en el mensaje debido a la reducción de la incertidumbre sobre una variable a consecuencia del conocimiento de la 40 MATERIALES Y MÉTODOS otra, para calcular la PMI es necesario hacer uso de las ecuaciones 2.3, 2.10, 2.11, 2.13 y 2.14. La PMI puede ser normalizada entre [-1,+1], los valores límite -1 y 1 significan que las variables nunca o siempre ocurren juntas respectivamente, un valor de 0 indicaría que son independientes.(Fano, 1961) La PMI Normalizada promedio (NAPMI) en un mensaje dado puede definirse como: n PMI mol xi , y j n NAPMI mol ( xi , y j ) i 1 j 0 (2.20) n log Pxi , y j K aj j 1 En caso de que este índice tenga un valor de 1 para determinado mensaje, significa que los símbolos que conforman el mismo, tienen un comportamiento totalmente binario (de aparecer, solo lo hacen una vez). Los nuevos IFIs propuestos quedan recogidos en la Tabla 2.4. Tabla 2.4. Nuevos IFIs propuestos. Moléculas I(X)mol NR(X) I(Y)mol NR(Y) PMI mol(X,Y) NAPMImol(X,Y) mol.1 ix1 nrx1 iy1 nry1 pmimol1 napmimol1 mol.2 ix2 nrx2 iy2 nry2 pmimol2 napmimol2 mol.3 ix3 nrx3 iy3 nry3 pmimol3 napmimol3 . . . . . . . . . . . . . . . . . . . . . ixm nrxm iym nrym pmimol.m napmimol.m mol.m 2.2 Implementación del algoritmo para el cálculo de los nuevos IFIs. Los IFIs propuestos en este trabajo han sido implementados y automatizados en un algoritmo de varias funciones auxiliares llamado ITD.m (Information Theory Descriptors) 41 MATERIALES Y MÉTODOS usando el lenguaje de programación del software MATLABR2010a (acrónimo de MATrix LABoratory).El algoritmo procesa uno o varios ficheros de datos (Bases de datos de moléculas según distintos criterios de partición) separados por comas, con extensión *.csv y devuelve una Hoja de cálculo de Excel, con extensión *.xls, donde se recogen los IFIs propuestos para cada molécula de la Base. El diagrama de flujo del algoritmo ITD es el que se muestra a continuación: Figura 2.1. Diagrama de flujo del algoritmo ITD.m. Para el cálculo de los nuevos IFIs se desarrollaron 10 funciones auxiliares (Ver Anexos). A continuación se muestra el diagrama donde se puede observar la jerarquía funcional del algoritmo creado. findmq.m lltítulos.m llenado.m ITD.m IFIs.m lldatos.m match.m títulos.m Figura 2.2. Jerarquía Funcional ITD. probvector.m putIFnames.m arreglar.m 42 MATERIALES Y MÉTODOS 2.3 Análisis a posteriori de las propiedades de los IFIs obtenidos. Después de definidos los nuevos IFIs, es necesario analizar si cumplen con los requerimientos básicos para un DM planteados por Randić(Randić, 1991) , para esto se realizaron algunos estudios estadísticos de naturaleza distinta con el objetivo de comprobar su calidad y cuán bien codifican la información estructural química, además se realiza una comparación con los otros IFIs definidos en la literatura. Para la comparación se usaron los índices implementados en el software DRAGON,(Todeschini et al., 2002) el DRAGON es un software representativo en el campo de los DMs ya que posee una colección diversa y numerosa de DMs entre los que se encuentran definidos los únicos 47 IFIs existentes en la actualidad. 2.3.1 Estudio basado en el AV. Una forma de comprobar la calidad de los 6 IFIs propuestos es medir de alguna forma la variabilidad de los mismos, para esto se puede hallar la Entropía de Shannon al conjunto de IFIs calculados a una Base molecular lo suficientemente grande. Se empleó un AV por medio del software IMMAN(Barigye et al., 2011). Con esta técnica se estimó la cantidad de información codificada por los diferentes parámetros moleculares, como entidades independientes y luego se compararon los valores entrópicos de estos. Es importante en este método definir el número de intervalos discretos a emplear (esquema de binning), el cual es único para todas las variables que se comparen, en este caso se analizó una Base molecular de 1940 moléculas (Spectrum), por lo que el esquema de binning usado fue precisamente de 1940 intervalos, esta técnica permite que los DMs de diferentes unidades y rangos de valores sean comparables. Adicionalmente, para comparaciones lógicas, es deseable que los conjuntos de datos que se comparen tengan el mismo número de variables, de no ser así, es necesario aplicar puntos de corte según la cantidad mínima de variables.(Barigye, 2013). Finalmente los mejores 5 IFIs en cuanto a variabilidad fueron seleccionados para validarlos en análisis estadísticos posteriores. 2.3.2 Estudio basado en el ACP. El método de ACP fue desarrollado con la ayuda del software STATISTICA (StatSoft, 2011) y la estrategia rotacional usada para obtener la carga de los factores a partir del análisis de factores fue la de „‟varianza máxima normalizada‟‟, el objetivo de este 43 MATERIALES Y MÉTODOS procedimiento rotacional es obtener un patrón lo más claro posible de cargas( Por ejemplo: factores marcados con alta carga para algunas variables y baja carga para otras) sin que se pierda la ortogonalidad entre los factores. Para hallar el número máximo de factores se usó el criterio de Kaiser(Kaiser, 1960 ), este criterio es el más comúnmente usado y plantea que: ‘’Se deben retener solo los factores con valores propios mayores a 1, esto es que logren representar al menos el contenido de una variable original ‘’, para este estudio se hallaron solamente 10 factores. La Base molecular utilizada fue PrimScreen15, con 15000 moléculas originalmente, las cuales, después de un proceso de limpieza quedaron en 13750. Las comunalidades (carga de factores) que se tuvieron en consideración fueron las mayores a 0.7. Fueron comparados los 5 nuevos IFIs escogidos del AV con el conjunto de 47 IFIs del software DRAGON en base a la información estructural captada por los mismos, para ello se calcularon 92 variables(45=9 criterios de partición *5 IFIs nuevos escogidos+47 IFIs del DRAGON). 2.3.3 Estudio basado en la Modelación QSPR usando RLM-AG. Para esta modelación se utilizó la Base de Datos de 34 moléculas derivadas del compuesto 2-Furiletileno, esta base de moléculas ha sido utilizada por muchos autores para validar los IFIs propuestos en la literatura. Se definieron 90 variables independientes(18 criterios de partición*5 IFIs) y una variable dependiente (propiedad experimental LogP) con el objetivo de evaluar la capacidad predictiva del coeficiente de partición octanol/agua (LogP) partiendo de los IFIs propuestos, los modelos predictivos se calcularon usando el software Moby-Digs(Todeschini et al., 2004). La herramienta de optimización estocástica usada fue la Regresión Lineal Múltiple con Algoritmo Genético (RLM-AG) y la configuración del AG empleada fue: Tamaño inicial de la población: 100 cromosomas (variables). El AG converge rápidamente (200 generaciones). Probabilidad de cruzamiento/mutación: 0.7. Número de iteraciones: Los modelos QSPR convergieron en este caso en un número 5 6 elevado de iteraciones comprendido entre: 5 10 iteraciones 1 10 44 MATERIALES Y MÉTODOS Los modelos obtenidos del AG fueron optimizados evaluando su poder predictivo usando el método de Validación Cruzada „‟dejando uno fuera‟‟:Q2loo, la validación de los modelos finales se realizó por medio de las técnicas de Remuestreo o bootstrapping (Q2boot) y revuelto o Y-Scrambling [a (R2), a (Q2)]. La búsqueda de los mejores modelos finales puede basarse en términos del coeficiente de correlación más elevado (R2), o en ecuaciones de la razón F (razón de Fisher) más elevada. Muchos autores consideran elevados valores de Q2loo (por ejemplo, Q2loo > 0.5) como un indicador de elevado poder predictivo de un modelo QSAR/QSPR. Sin embargo, es conocido que esta afirmación es solo cierta para datas pequeñas (< de 100 casos), y que en datas de gran dimensionalidad solo es una condición necesaria pero no suficiente para afirmar que un modelo posee un adecuado poder predictivo.(Golbraikh and Tropsha, 2002) Finalmente se escogieron los modelos de 7, 6, 5, 4, 3 y 2 variables independientes con mejor poder predictivo Q2 , mejor poder predictivo promedio Q2boot, coeficiente R2 más elevado y valores más bajos de a (R2) y a (Q2). Hay que destacar que todos estos parámetros para elegir el modelo varían de forma distinta y por lo tanto es necesario mantener un nivel de compromiso a la hora de elegir los mejores modelos. 45 3. RESULTADOS Y DISCUSIÓN RESULTADOS Y DISCUSIÓN CAPÍTULO 3. RESULTADOS Y DISCUSIÓN En este Capítulo se recogen los resultados de distintos métodos estadísticos realizados a los nuevos IFIs propuestos y calculados a distintas bases moleculares, se analizan los valores entrópicos calculados para las 9 fuentes de información modeladas; se comparan los resultados obtenidos con otros IFIs definidos anteriormente en la literatura y se realiza una modelación QSPR con modelos de regresión obtenidos a partir del cálculo de los mismos. 3.1 Análisis de los resultados obtenidos según las fuentes de información analizadas. Con el cálculo de los IFIs a distintas bases moleculares se obtuvieron además las entropías de intersección, unión y condicionales de la distribución conjunta de probabilidad entre las 2 variables definidas X e Y, lo cual da una idea de la relación real entre las mismas. Como se muestra en la tabla 3.1, de los valores obtenidos para las entropías de las 9 bases moleculares (9 criterios) se puede concluir que: 1. En la fuente de información basada en la base molecular del criterio PubChem, la cantidad de incertidumbre acerca de una variable después de conocida la otra es nula, por lo que la cantidad de incertidumbre reducida sobre una variable con el conocimiento previo de la otra es máximo y en este caso: H(X) = H (Y) = I(X; Y) = H(X, Y) Es decir que el valor promedio de la información de cada una de las variables coincide, esto se debe a que en realidad los símbolos que produce esta fuente solo aparecen en forma booleana dentro de un mensaje, lo cual hace que los valores para las variables X e Y definidas anteriormente sean exactamente iguales. 2. En todas las fuentes de información analizadas, la cantidad de incertidumbre acerca de la variable X después de conocida la Y es mayor que la cantidad de incertidumbre acerca 46 RESULTADOS Y DISCUSIÓN de la variable Y después de conocida la X, nótese que precisamente la entropía H (Y/X) presenta en todos los casos un valor inferior a la unidad debido a la propia naturaleza de las variables Y e X (ver epígrafe 2.1). Tabla 3.1. Entropías mutuas de (X, Y) para 9 Fuentes de Información distintas. Criterios de partición I(X;Y) H(X,Y) H(X/Y) H(Y/X) AlogP 2.45050124 5.24497505 2.07763195 0.71684186 Elements 0.51056413 1.80615358 0.8102189 0.48537056 Estate 2.07762711 4.09402116 1.17974996 0.83664408 Klekota 2.91865198 8.17899667 4.54037699 0.7199677 MACC 1.15441139 5.66877494 4.02000135 0.4943622 PubChem 8.23163316 8.23163316 0 0 Subestructure 1.14291561 4.08929091 2.35929836 0.58707694 TPSA 2.76569182 4.20200696 0.68259061 0.75372454 XlogP 2.84427307 5.26091561 1.64446146 0.77218108 3.2 Análisis de Variabilidad (AV) de los nuevos IFIs. Es necesario comparar los nuevos IFIs propuestos entre sí en base a seleccionar los 5 IFIs con patrones de distribución más variables, para esto fueron calculadas 18 variables (una por cada criterio de partición utilizado) a cada nuevo IFI, se usó una Base molecular de 1940 moléculas, por lo que a partir del esquema de binning propuesto, la entropía máxima alcanzable (suponiendo equiprobabilidad para cada intervalo) se calcula como: H M log 2 1940 10.92[bits] Como se puede observar en la Figura 3.1, los IFIs resultado de la normalización: NR (Y), NR(X) y NAPMI presentan una entropía máxima de 9.395, 8.94 y 9.39 bits 47 RESULTADOS Y DISCUSIÓN respectivamente, a su vez los índices I (Y), I(X) y PMI presentan valores de entropía máxima de 9.2935, 9.2135 y 9.4382 bits respectivamente; a medida que aumenta el número de variables, los patrones de distribución de los índices resultados de la normalización disminuyen su entropía, por lo que presentan una variabilidad menor a los otros IFIs propuestos; del total de índices, el que presenta peor variabilidad es el NAPMI debido a que existen criterios de partición en los que el comportamiento de los símbolos es booleano, por lo que de las 18 variables calculadas para este IFI hay algunas que tienen el mismo valor de 1 para todas las moléculas de la base molecular analizada. Finalmente se seleccionan los otros 5 IFIs: NR(X), NR (Y), I(X), I (Y) y PMI para llevar a cabo los otros análisis estadísticos de esta investigación. Figura 3.1. Distribución de Shannon de los 6 nuevos IFIs propuestos. 3.3 Análisis del contenido de Información estructural captada por los nuevos IFIs. Comparación con los índices del DRAGON. A partir del Análisis de Componentes Principales aplicado a los nuevos IFIs escogidos y a los del DRAGON usando la data PrimScreen15, se obtuvieron 10 factores, los cuales explican aproximadamente el 89.09 % de la varianza acumulada de las variables. En la 48 RESULTADOS Y DISCUSIÓN Tabla 3.2 se muestran los valores propios y los porcientos de la varianza explicada por los 10 factores. Tabla 3.2. Resultado del análisis de factores usando el método de componentes principales para los 5 nuevos IFIs y los definidos en el DRAGON. Valor % Varianza Valor Propio %Varianza Propio Total Acumulativo Acumulativa 1 32.36643 35.18091 32.36643 35.18091 2 20.53164 22.31701 52.89808 57.49791 3 9.19296 9.99235 62.09104 67.49026 4 4.72999 5.14129 66.82103 72.63155 5 4.21439 4.58086 71.03542 77.21242 6 2.80252 3.04621 73.83794 80.25863 7 2.51346 2.73203 76.35140 82.99065 8 2.31116 2.51213 78.66256 85.50278 9 1.87768 2.04096 80.54024 87.54374 10 1.43001 1.55436 81.97026 89.09810 Factor Analizando los componentes principales (factores) se tiene que: aproximadamente el 74.5% de los índices del DRAGON están fuertemente cargados en los Factores 1 y 2, explicando en conjunto el 57.49% de la varianza total, el 4.25% de los IFIs del DRAGON están cargados en el factor 4 explicando solo el 5.14% de la varianza total y hay un 21,28% de estos índices que no tiene carga significativa en ningún factor ; por otro lado, el 8.88% de los nuevos IFIs están fuertemente cargados en el Factor 1 (35.18%) , el 40.00% en los Factores 3 al 9(20.05%) y hay un 42.22% de estos índices que no tienen carga significativa en ningún factor . Más específicamente, de los IFIs del DRAGON: las familias de índices 49 RESULTADOS Y DISCUSIÓN basadas en la composición atómica de la molécula y en la distancia entre los grafos moleculares dentro de la representación topológica de la molécula, están en su totalidad cargados en el Factor 1(32.72%). En el Factor 1 aparecen cargados además, los descriptores derivados del grado de los vértices de los átomos en la estructura, de la matriz de distancias topológicas entre pares de átomos, los IFIs Balaban (U, V, Y, X) y los índices de simetría de vecindad de orden 0. Los IFIs basados en la simetría de vecindad de orden 1 y 2 están fuertemente cargados en el Factor 1 y el Factor 3 (9.99235%). Los índices basados en la simetría de vecindad de orden 3, 4 y 5 están fuertemente cargados en el Factor 1 y el Factor 2 (57.49791%). A su vez, de los nuevos IFIs propuestos, las familias de índices de los criterios AlogP y XlogP están fuertemente cargados en el Factor 1 y el Factor 4(5.14129%), además la familia de índices basada en el criterio TPSA aparece cargada en los Factores 5(4.58086%) y 8(2.51213%), por último las familias de índices basados en los criterios: Elements, Estate, Klekota, MACC, PubChem y Substructure están fuertemente cargados en los Factores 3, 5, 6(3.04621%), 8, 7(2.73203%) y 9(2.04096%) respectivamente. 3.4 Modelación QSPR basada en los nuevos IFIs. Comparación con los modelos obtenidos de los IFIs del DRAGON. A partir de los resultados obtenidos de la modelación QSPR, las mejores variables fueron agrupadas y se seleccionaron los mejores modelos predictivos de la propiedad Log P con 7, 6, 5, 4, 3, y 2 variables para cada grupo de índices. Los resultados de la comparación son mostrados en la tabla 3.3. Como puede apreciarse en la tabla 3.3, los modelos obtenidos en base a los nuevos IFIs propuestos, poseen todos mejores indicadores que los respectivos modelos obtenidos a partir del software DRAGON. Cabe destacar que todos los modelos de regresión obtenidos a partir de los nuevos IFIs son mucho más confiables que los derivados de los índices de información definidos hasta ahora en la literatura, esto se debe a que la razón F entre la varianza explicada por los modelos para cada valor de N y la varianza residual (varianza del error), presenta valores bastante mayores a los respectivos modelos basados en los IFIs del software DRAGON. 50 RESULTADOS Y DISCUSIÓN En la tabla 3.3 se ve como los modelos derivados de los nuevos IFIs presentan coeficientes respectivos de Q2 (Poder predictivo o Varianza total de la validación cruzada) y Q2boot (Poder predictivo promedio) superiores al mejor modelo obtenido a partir de los 47 IFIs definidos actualmente en la literatura. Es relevante también el hecho de que todos los modelos predictivos finales para los nuevos IFIs presentan un poder predictivo promedio superior al 70%( por encima de la condición de 50 %), a diferencia de los IFIs implementados en el software DRAGON. 51 RESULTADOS Y DISCUSIÓN 52 Tabla 3.3. Comparación de los indicadores para los mejores modelos de la propiedad Log P en la base de moléculas 2furietiletilenos. IFIs N R2 Q2loo Q2boot Nuevos IFIs 7 0.9791 0.9627 0.9467 F 174.14 Modelo Log P = 0.1123(±0.99923) + 0.05429 (±0.00549) I_X_Fi_KA_ES -1.98401(±0.31836) NR_I_X_Fi_KA_H_S +0.02419(±0.00514) PMI_Fi_KA_H_S -3.36944(±0.55761) NR_I_X_Fi_KA_H_T -0.00495(±0.00061) I_X_Fi_KA_P +4.53851(±0.73336) NR_I_Y_Fi_KA_S -0.14997(±0.02394) PMI_Fi_KA_T 6 0.9770 0.9571 0.9510 191.25 Log P = 0.23842(±1.05066) + 0.08389(±0.00467) I_X_Fi_KA_ES -0.05331(±0.00701) I_X_Fi_KA_H_ES + 2.18896(±0.37388) NR_I_X_Fi_KA_H_ES -0.00578(±0.00052) PMI_Fi_KA_H_P -6.5002(±0.29554) NR_I_X_Fi_KA_H_T +4.24179(±0.6706) NR_I_Y_Fi_KA_S RESULTADOS Y DISCUSIÓN 53 Tabla 3.3.(Continuación) IFIs Nuevos IFIs N R2 Q2loo Q2boot 5 0.968 0.9488 0.9344 F 168.60 Modelo Log P = 0.40334(±1.18498) + 0.07465(±0.00473) I_X_Fi_KA_ES -4.76991(±0.43988) NR_I_X_Fi_KA_H_T -0.00502(±0.00061) PMI_Fi_KA_P +4.30219(±0.72883) NR_I_Y_Fi_KA_S -0.08598(±0.01448) I_X_Fi_KA_T 4 0.9274 0.8980 0.8886 92.57 Log P = -2.01298(±1.64319) + 0.06113 (±0.00612) I_X_Fi_KA_ES -0.00576(±0.00088) I_Y_Fi_KA_H_P +6.40351(±0.94055) NR_I_Y_Fi_KA_S -6.46507(±0.49397) NR_I_X_Fi_KA_T 3 0.8619 0.8276 0.7324 62.40 Log P = 2.96247(±0.8934) + 0.02675(±0.00237) I_X_Fi_KA_A +0.1387(±0.01941) PMI_Fi_KA_EL -0.00521(±0.0011) I_Y_Fi_KA_P RESULTADOS Y DISCUSIÓN 54 Tabla 3.3.(Continuación) IFIs Nuevos IFIs N R2 Q2loo Q2boot F 2 0.8040 0.7635 0.7595 63.5646 Modelo Log P = 3.42083(±0.69914) + 0.04813(±0.0056) PMI_Fi_KA_H_S -5.73286(±0.61973) NR_I_X_Fi_KA_H_T IFIs DRAGON 7 0.884 0.747 0.628 28.22 Log P = - 66.0347 (±7.8796) -59.6957 (±5.7647) AAC + 0.9001 (±0.3971) IDDE + 20.3886 (±2.7804) IDDM - 0.3027 (±0.0597) Uindex + 254.7160 (±23.7811) BIC0 + 0.0883 (±0.0088) TIC2 + 1.9215 (±0.3232) CIC5 RESULTADOS Y DISCUSIÓN 55 Tabla 3.3.(Continuación) IFIs IFIs DRAGON N R2 6 0.859 Q2loo 0.728 Q2boot 0.646 F 27.37 Modelo Log P = - 51.0329 (±6.2716) -56.6744 (±6.1604) AAC + 18.2024 (±2.1853) IDDM - 0.0014 (±2.7804) IDMT + 239.1162 (±25.0312) BIC0 + 0.1131 (±0.0128) TIC3 - 2.6285 (±0.4250) IC5 5 0.816 0. 678 0.510 24.8 Log P = - 66.2169 (±9.5872) + 0.3208 (±0.0418) IAC - 68.5296 (±8.0362) AAC + 23.9184 (±3.4520) IDDM - 0.4121 (±0.0770) Uindex + 267.1489 (±31.2452) BIC0 RESULTADOS Y DISCUSIÓN 56 Tabla 3.3.(Continuación) IFIs IFIs DRAGON N R2 Q2loo 4 0.718 0. 555 Q2boot 0.330 F 18.44 Modelo Log P = - 66.0088 (±10.2806) - 33.3703 (±5.7960) AAC + 26.4569 (±5.7758) HDcpx + 7.5201 (±1.2782) CIC0 + 182.0227 (±28.0688) BIC0 3 0.502 0. 317 0.265 10.07 Log P = 23.7391 (±4.6790) - 135.7864 (±28.3305) Vindex + 32.9117 (±7.1460) Yindex -1.1398 (±0.5066) IC1 2 0.456 0. 318 0.306 13.02 Log P = 23.1775 (±4.5021) - 64.9841 (±14.7787) Xindex + 17.0750 (±4.2112) Yindex RESULTADOS Y DISCUSIÓN Según los resultados obtenidos en los estudios 3.3 y 3.4 se puede concluir que: los nuevos IFIs logran captar información codificada dentro de la estructura química que hasta el momento no era captada por los índices existentes y los modelos de RLM obtenidos del estudio QSPR a partir de los nuevos IFIs, presentan propiedades predictivas muy superiores a los derivados de los índices de información implementados en el software DRAGON. 57 CONCLUSIONES Y RECOMENDACIONES CONCLUSIONES Y RECOMENDACIONES Conclusiones La realización de este trabajo permitió arribar a las siguientes conclusiones: 1. Es posible obtener novedosos índices de información a partir del modelado de las bases de datos moleculares como fuentes de información, los nuevos IFIs derivados del análisis de un patrón estadístico de la estructura química y de las ecuaciones de Shannon logran captar gran parte de la información química codificada dentro de la estructura molecular. 2. Los nuevos IFIs, basados en los criterios de partición de la estructura química: Elements, Estate, Klekota, MACC, PubChem y Substructure son ortogonales entre ellos y ortogonales a cualquier otro IFI definido anteriormente, por lo que codifican información estructural completamente distinta al resto. 3. De los índices del DRAGON solamente los basados en la simetría de vecindad de orden 3, 4 y 5 captan información estructural que no captan los nuevos IFIs. 4. Los índices basados en los criterios de partición AlogP y XlogP son colineales entre sí, por lo tanto captan la misma información estructural. 5. Los resultados obtenidos en la modelación QSPR sugieren que los nuevos IFIs podrían ser importantes para predecir propiedades físico-químicas, biológicas o químicas de determinadas moléculas, los poderes predictivos calculados de los modelos para la propiedad Log P(de cierta importancia en descubrimientos farmacéuticos) así lo demuestran. 58 CONCLUSIONES Y RECOMENDACIONES Recomendaciones Ya concluido este trabajo, sería pertinente hacer la siguientes recomendaciones. 1. Profundizar en el estudio y la creación de nuevos IFIs para explotar las potencialidades y futuro que tiene esta área de investigación, así como validar la calidad de los índices propuestos en otras bases de datos no usadas en esta investigación. 2. Programar una aplicación visual o interfaz de usuario para el algoritmo creado en MATLAB, con el objetivo de lograr una mejor interacción en el cálculo de los nuevos IFIs. 3. Usar este documento como una guía para el estudio de futuras definiciones de descriptores moleculares basados en la aplicación de patrones estadísticos y en las ecuaciones de información de Shannon, así como para la validación de la calidad de los IFIs usando diversos métodos estadísticos. 59 REFERENCIAS BIBLIOGRÁFICAS REFERENCIAS BIBLIOGRÁFICAS 1. ALZINA, R. B. 1989. Introducción conceptual al análisis multivariable. Un enfoque informático con los paquetes SPSS-X, BMDP, LISREL Y SPAD. Barcelona. 2. ARKHANGEL'SKII, A. V. & PONTRYAGIN, L. S. 1990. General Topology I: Basic Concepts and Constructions Dimension Theory, Springer. 3. BARIGYE, S. J. 2013. Teoria de Información en la codificación de la estructura química. Tesis Doctoral, UCLV. 4. BARIGYE, S. J., MARRERO-PONCE, Y., MARTINEZ-LOPEZ, Y., ARTILES- MARTINEZ, L. M., PINO-URIAS, R. W., MARTINEZ-SANTIAGO, O. & TORRENS, F. 2013. Relations Frequency Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information Indices. . Comput. Chem., 34, 259-274. 5. BARIGYE, S. J., PINO URIAS, R. W. & MARRERO-PONCE, Y. 2011. IMMAN (Information Theory based Chemometric Analysis). 1.0 ed. Universidad Central de Las Villas(UCLV): CAMD-BIR Unit. 6. BASILEVSKY, A. 1994. Statistical Factor Analysis and Related Methods. New York: Wiley. 7. BRICEÑO MÁRQUEZ, J. E. 2005. Principios de las Comunicaciones. In: ULA (ed.) 3 ed. Mérida Facultad de Ingeniería.ULA. 8. CARLSON, A. B. 1992. Sistemas de Comunicaciones. Introducción a las señales y al ruido en las comunicaciones electricas. In: EDITORIAL-REVOLUCIÓN (ed.) Segunda Edición en Español ed. 60 REFERENCIAS BIBLIOGRÁFICAS 9. CARLSON, A. B., CRILLY, P. B. & RUTLEDGE, J. C. 2002. Communication Systems. In: MC-GRAW-HILL (ed.) An Introduction to Signal and Noise in Electrical Communication. 4 ed. 10. DEVIJVER, P. A. & KITTLER, J. 1982. Pattern Recognition: A Statistical Approach, London, Prentice-Hall. 11. EFRON, B. 1982. The Jackknife: the Bootstrap and Other Resampling Planes. Journal of American Statistical Association, 77, 160-172. 12. EFRON, B. 1987. Journal of American Statistical Association, 82, 171-200. 13. F.LINDGREN, B.HANSEN, W.KARCHER, M.SJÖSTRÖM & L.ERIKSSON 1996. Chemometrics, 10, 521-532. 14. FANO, R. M. 1961. Transmission of Information: A Statistical Theory of Communications. Cambridge, MA: MIT Press. 15. FRANK, I. E. & FRIEDMAN, J. H. 1993. A Statistical View of Some Chemometrics Regression Tools. Technometrics., 35, 109-135. 16. FRANK, I. E. & TODESCHINI, R. 1994. The Data Analysis Handbook. Amsterdam.The Netherlands: Elsevier. 17. FRANKE, R. 1984. Theoretical Drug Design Methods. Amsterdam, Elsevier. 18. GODDEN, J. W., STAHURA, F. L. & BAJORATH, J. 2000. Variability of Molecular Descriptors in Compound Databases Revealed by Shannon Entropy Calculations. J. Chem. Inf. Comput. Sci., 40, 796-800. 19. GOLBRAIKH, A. 2000. Molecular Dataset Diversity Indices and Their Applications to Comparison of Chemical Databases and QSAR Analysis. Chem. Inf. Comput. Sci., 40, 414-425. 20. GOLBRAIKH, A. & TROPSHA, A. 2002. Beware of Q2 ! Journal of Molecular Graphics and Modelling, 20, 269-276. 21. GOLDBERG, D. E. 1989. Genetic Algorithms in Search, Optimization and Machine Learning. Massachusetts: Addison-Wesley. 22. GOOD, P. 2005 Introduction to Statistics Through Resampling Methods and R/S- PLUS.: Wiley 23. KAISER, H. F. 1960 The application of electronic computers to factor analysis. Educational and Psychological Measurement. 61 REFERENCIAS BIBLIOGRÁFICAS 24. KORNAI, A. 2001. Mathematical Linguistics. Available: http://www.helsinki.fi. 25. KUBINYI, H. 1996. Evolutionary variable selection in regression and PLS analyses. J. Chemom., 10, 119-133. 26. KULLBACK, S. & LEIBLER, R. A. 1951. On information and sufficiency. Ann. Math. Stat., 22, 79-86. 27. LI, W. 1990. Mutual Information functions versus correlations functions. Journal of Statistical Physics, 60, 823-837. 28. MALINOWSKI, E. R. & HOWERY, D. G. 1980. Factor Analysis in Chemistry New York Wiley-Interscience. 29. MATHWORKS 2010. MATLAB. 7.10.0.499 ed. 30. MATTELART, ARMAND & MICHELLE. 1988. Historia de las Teorías de la Comunicación. Available: http://carmonje.wikispaces.com. 31. MERHAV, N. 2010. Statistical Physics and Information Theory. Foundations and Trends in Communications and Information Theory, 6, 1-212. 32. NAKANO, T. & LIU, J.-Q. 2010. Design and Analysis of Molecular Relay Channels: An Information Theoretic Approach. IEEE Transactions on Nanobioscience, 9. 33. PUZYN, T., LESZCZYNSKI, J. & CRONIN, M. T. D. 2010. Recent Advances in QSAR Studies. In: LESZCZYNSKI, J. (ed.) Methods and Applications. Springer. 34. PYLE, D. 1999. Data Preparation for Data Mining. In: HERSHEY (ed.). 35. RANDIĆ, M. 1991. Generalized molecular descriptors. . Math. Chem. , 7, 155-168. 36. REFAEILZADEH, P., TANG, L. & LUI, H. 2008. k-fold Cross-Validation. 37. SHANNON, C. E. 1948. A Mathematical Theory of Communication. The Bell System Technical Journal, 27, 379-423,623-656. 38. STATSOFT, I. 2011. STATISTICA (data analysis software system). 10 ed. 39. TODESCHINI, R., BALLABIAO, D., CONSONNI, V., MAURI, A. & PAVAN, M. 2004. MobyDigs. 1.0 ed.: Talete. 40. TODESCHINI, R. & CONSONNI, V. 2009. Molecular descriptors for ChemoInformatics. 2 ed.: Wiley-VCH. 41. TODESCHINI, R., CONSONNI, V. & PAVAN, M. 2002. DRAGON Talete. 5.5 ed. Milano.Italy: Milano Chemometric and QSAR Research Group. 62 REFERENCIAS BIBLIOGRÁFICAS 42. VAN MARLEN, G. & DIJKSTRA, A. 1976. Information Theory Applied to Selection of Peaks for Retrieval of Mass Spectra ANALYTICAL CHEMISTRY, 48. 63 ANEXOS ANEXOS Anexo I Implementación en MatlabR2010a de la función principal ITD.m function ITD global IF Nl DATAr DATAc TEXTc ct; %Función ITD (Information Theory Descriptors) para calcular los IFIs definidos a una base de moléculas según distintos criterios %La tabla con los resultados quedara en la carpeta IFIs Universales del Desktop disp ('Coloque la Base de datos de moléculas en C:\Users\feyt\Desktop\Base de Datos'); disp ('Coloque la(s) Base de moléculas para Espacio Muestral en E:\TESIS\Bases de datos de moléculas'); cd ('C: \Users\feyt\Desktop\Base de Datos'); IF= {'I_X','NR_X','I_Y','NR_Y','PMI','NA_PMI'}; %Nombres de los índices de información definidos R=dir ('*.csv'); N= {R.name}; l=length (N); [DATAr, ct]=findmq (N, l); mn =ct (:, 1); TEXTc=7*l; DATAc=6*l; vp=input ('Espacio muestral: \n 1-propio\n 2-spectrum\n 3-PRINT SCREEN 15\n 4-dRUG BANK all\n :'); if vp==2 Base='E: \TESIS\Bases de datos de moléculas\spectrum'; elseif vp==3 64 ANEXOS Base='E: \TESIS\Bases de datos de moléculas\PRINT SCREEN15'; elseif vp==4 Base='E: \TESIS\Bases de datos de moléculas\dRUG BANK all'; elseif vp==1 Base='C: \Users\feyt\Desktop\Base de Datos'; end %Salida [Rowtitle]=títulos(N); [DATAIMPo]=llenado (Base); [DATAIMPFIXED]=match (ct, DATAIMPo); cd ('C: \Users\feyt\Desktop\IFIs Universales'); xlswrite ('tablaalg3.xls', Rowtitle,'Hoja','B1'); xlswrite ('tablaalg3.xls', mn,'Hoja','A1'); xlswrite ('tablaalg3.xls', DATAIMPFIXED,'Hoja','B2'); end Anexo II Implementación en MatlabR2010a de la función findmq.m function [u, Tref] =findmq (V, Vt) %Función para hallar la cantidad máxima de moléculas que tendrá la base de datos x=zeros (1, Vt); y=zeros (1, Vt); TITLES=num2cell (zeros (1, Vt)); for i=1:1: Vt A=importdata (V {1, i},',',1); B=A.data; [m, n]=size (B); x (i) =m; T=A.textdata; TITLES {i} =T; [m, n]=size (T); y (i) =m; 65 ANEXOS end [u, I]=max(x); %Esta función devuelve en ''I'' el valor máximo de x y en ''C'' su posición % u es la máxima cantidad de moléculas en la base. [C, Trefi]=max (y); Tref=TITLES {1, Trefi}; %Referencia para comparar y arreglar los nombres de las moléculas para cada criterio end Anexo III Implementación en MatlabR2010a de la función títulos.m function [CAT] =títulos.m(X) global IF; t=strtok(X,'.csv'); %Quitarle la extensión .csv t= strrep (t, 'Fi_KA', ''); %Quitarle la cabecera 'Fi_KA' [nombres]=putIFnames.m (t); CAT=zeros (1, length (IF)*length (nombres)); CAT=num2cell (CAT); x=0; for i=1:1: length (nombres) for j=1:1: length (IF) x=x+1; CAT {1, x} =horzcat (IF {1, j},'_Fi_KA', nombres {1, i}); end end 66 ANEXOS Anexo IV Implementación en MatlabR2010a de la función llenado.m function [LLo, h1, h2, h3, h4]=llenado(X) global DATAr DATAc TEXTc l; DATA=num2cell (zeros (DATAr, DATAc)); TEXT=num2cell (zeros (DATAr+1, TEXTc)); DATAIMP=num2cell (zeros (size (TEXT))); B=X; %Hallar vector de probabilidades y Llenado de Datos [DATAo, h1, h2, h3, h4]=lldatos (DATA, B); %Llenado de Títulos; TEXTo=lltitulos (TEXT); x=0; y=0; %Llenado de Datos + Títulos for i=1:1: l x=x+7; y=y+6; DATAIMP (: , x-6)=TEXTo (: , x-6); DATAIMP (2: DATAr+1, x-5: x) =DATAo (: , y-5: y); end x=0; y=0; LLo=DATAIMP; return end 67 ANEXOS Anexo V Implementación en MatlabR2010a de la función match.m function[DATF]=match(J,DAT) %Función para encontrar los desparejos en los nombres de las moléculas de la base de datos(para cada criterio) y rellenarlos con -999 C=strcmp (DAT,'Molecules'); [m1, n1]=size (J); T=zeros (1, n1); p=find(C (1, :) ==1) ; q=p+1; for i=1:1: length (p) x=p (i); y=q (i); T=DAT (: , x); D=DAT (: , y:y+5); D=cell2mat (D); hard; DAT (: , x)=T; DAT (: , y:y+5)=num2cell(D); end DAT (: , p)=[]; DAT (1, :) = [] ; DATF=DAT; function hard f=zeros (1, m1); k=0; while ~strcmp(J(m1,1),T(m1,1)) for i=k+1:1:m1 f(i)=strcmp(J(i,1),T(i,1)); if f(i)==1 T{i,1}=J{i,1}; continue 68 ANEXOS else k=i; break end end %another cycle for i=m1:-1:k+1 T (i, 1) =T (i-1, 1); D (i, :) =D (i-1, :); end T {k, 1} =-999; D (k, :) =-999; end end end Anexo VI Implementación en MatlabR2010a de la función putIFnames.m function[FIXED]= putIFnames(t) hs=strmatch ('H_',t);%Encontrar los 'H_' H=t (hs); %Guardar los 'H_' t(hs)=[]; %Borrar las 'H_' SH=t; %Guardar los sin 'H_' [nombresH]=arreglar (H); [nombresSH]=arreglar (SH); FIXED=horzcat (nombresSH, nombresH); end 69 ANEXOS Anexo VII Implementación en MatlabR2010a de la función arreglar.m function [F]=arreglar(TF) l=length (TF); TFchar=char (TF); for i=1:1:l x=TF (i); xchar=char(x); for j=1:1:length(xchar) ychar=xchar(1:j); if length(strmatch(ychar,TFchar))==1 TF{i}=ychar; break end end end F=TF; end Anexo VIII Implementación en MatlabR2010a de la función lldatos.m function [Do,h1,h2,h3,h4]=lldatos(Di,Ba) global N l; x=0; y=0; for i=1:1:l %Hallar vector de Probabilidades cd (Ba); R1=dir ('*.csv'); N1= {R1.name}; A1=importdata (N1 {1, i},',',1); [P_X, P_Y, P_Ya, P_X_Yo, P_X_Y]=probvector (A1); 70 ANEXOS %Llenado de Datos; cd ('C:\Users\feyt\Desktop\Base de Datos'); A=importdata (N {1, i},',',1); D=A.data; [a,b,c,d,e,f,h1,h2,h3,h4]=IFIs (D, P_X, P_Y, P_Ya, P_X_Yo, P_X_Y); x=x+6; y=x-5; a=num2cell(a); Di (1: length(a), y)=a; y=x-4; b=num2cell (b); Di (1: length (b), y) =b; y=x-3; c=num2cell(c); Di (1: length(c), y)=c; y=x-2; d=num2cell (d); Di (1: length (d), y) =d; y=x-1; e=num2cell (e); Di (1: length (e), y)=e; y=x; f=num2cell (f); Di (1: length (f), y) =f; end Do=Di; return end 71 ANEXOS Anexo IX Implementación en MatlabR2010a de la función lltitulos.m function[To]=lltitulos(Ti) global l N; x=0; y=0; for i=1:1:l A=importdata (N {1, i},',',1); Titles=A.textdata (: , 1); x=x+7; y=x-6; Ti (1: length (Titles), y) =Titles; To=Ti; end return end Anexo X Implementación en MatlabR2010a de la función probvector.m function[P_X,P_Y,P_Ya,P_X_Yo,P_X_Y]=probvector(D) % X es una variable que describe la Frecuencia Natural de aparición de cada % fragmento en la data e Y describe si el fragmento aparece o no dentro de % cada molécula en particular. X=D.data; %Variable X N=sum (sum(X)); % N es el tamaño del Espacio Muestral. Yb=X; Yb (Yb~=0)=1; %Variable Y binaria Yo=sum ((X-Yb)')'; Y=horzcat (Yb, Yo); % Variable Y para Inf Mutua X_Yo=sum(X-Yb); X_Yb=diag (sum (Yb)); X_Y=vertcat (X_Yb, X_Yo); % Distribución probabilística conjunta de X e Y. 72 ANEXOS P_X= (sum(X)). /N; %Distribución probabilística de la variable X. P_Y= (sum (Y)). /N; %Distribución probabilística de la variable Y. P_Ya=P_Y (1: end-1); %Distribución probabilística auxiliar de la variable Ya. P_X_Yo=X_Yo. /N; P_X_Y=vertcat (diag (P_Y (1: end-1)), P_X_Yo); end Anexo XI Implementación en MatlabR2010a de la función IFIs.m function[I_X,NR_I_X,I_Y,NR_I_Y,PMI,NA_PMI,H_X_Y,I_X_Y,Hc_X_Y,Hc_Y_X]= IFIs(X,P_X,P_Y,P_Ya,P_X_Yo,P_X_Y) [m, n]=size(X); %m es la cantidad de moléculas en la data. Yb=X; Yb (Yb~=0)=1; %Variable Y booleana auxiliar. X_res=X-Yb; %Variable Auxiliar. Yo=sum (X_res')'; Y=horzcat (Yb, Yo); %Variable Y. SI_X=-log2 (P_X); %Vector de Autoinformacion (Self-Information) de cada símbolo según X. SI_X (SI_X==Inf)=0; SI_Y=-log2 (P_Y); %Vector de Autoinformacion de cada símbolo según Y. SI_Y (SI_Y==Inf)=0; SI_Ya=-log2 (P_Ya); %Vector de Autoinformacion de cada símbolo según Ya SI_Ya (SI_Ya==Inf)=0; SI_X_Y=-log2 (P_X_Y); %Matriz de Autoinformacion de la dupla (Xi, Yj). SI_X_Y (SI_X_Y==Inf)=0; SI_X_Yo=-log2 (P_X_Yo); %Vector de Autoinformacion de la Dupla (Xi,Yo). SI_X_Yo (SI_X_Yo==Inf)=0; H_X=sum (P_X.*SI_X); %Entropía de la data según X. H_Y=sum (P_Y.*SI_Y); %Entropía de la data según Y. I_X=zeros (m, 1); NR_I_X=zeros (m, 1); 73 ANEXOS I_Y=zeros (m, 1); NR_I_Y=zeros (m, 1); PMI=zeros (m, 1); NA_PMI=zeros (m, 1); for j=1:1:m mol=X(j,:); moly=Y(j,:); molbin=Yb(j,:); molres=X_res(j,:); %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% I_X (j, 1)=sum (mol.*SI_X); %Hallar la información de una molécula especifica según X. NR_I_X (j, 1)=I_X (j, 1)/ (sum (mol)*H_X); %El término NR es la razón entre la información normalizada de cada molécula (NI) y la Entropía de la data según X. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% I_Y (j, 1)=sum (moly.*SI_Y); %Hallar la información de una molécula especifica según Y. NR_I_Y (j, 1)=I_Y (j, 1)/ (sum (moly)*H_Y); %El término NR es la razón entre la información normalizada de cada molécula (NI) y la Entropía de la data según Y. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% PMI_Xi_Yi=molbin.*SI_X; PMI_X_Yo=molres.*(SI_X+SI_Y (end)-SI_X_Yo); PMI_Xi_Yj=horzcat (PMI_Xi_Yi, PMI_X_Yo); PMI (j, 1)=sum (sum (PMI_Xi_Yj)); %El termino PMI es la Sumatoria de la Información Mutua Puntual de la dupla (Xi, Yj) en cada molécula. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% SI_YA=SI_Ya; SI_X_YO=SI_X_Yo; PMI_X_Yo (SI_X_YO==0)= []; %Limpieza de ceros para prevenir valores Inf 74 ANEXOS PMI_Xi_Yi (SI_YA==0)= []; %Limpieza de ceros para prevenir valores Inf SI_YA (SI_YA==0)= []; %Limpieza de ceros para prevenir valores Inf SI_X_YO (SI_X_YO==0)= []; %Limpieza de ceros para prevenir valores Inf SI_YA (PMI_Xi_Yi==0)= []; % Limpieza de ceros para prevenir valores Inf SI_X_YO (PMI_X_Yo==0)= []; %Limpieza de ceros para prevenir valores Inf PMI_Xi_Yi (PMI_Xi_Yi==0)= []; %Limpieza de ceros para prevenir valores Inf PMI_X_Yo (PMI_X_Yo==0)= []; %Limpieza de ceros para prevenir valores Inf N_PMI_Xi_Yi=PMI_Xi_Yi. /SI_YA; N_PMI_X_Yo=PMI_X_Yo. /SI_X_YO; N_PMI_Xi_Yj=horzcat (N_PMI_Xi_Yi, N_PMI_X_Yo); NA_PMI (j, 1)=sum (N_PMI_Xi_Yj)/sum (mol); % El termino NA_PMI es el promedio de la Sumatoria de la PMI normalizada en base a 1 de la dupla (Xi, Yj) en cada molécula. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% end H_X_Y=sum (sum (SI_X_Y.*P_X_Y)); % El termino H_X_Y es la Entropía de unión de X e Y. I_X_Y=H_X+H_Y-H_X_Y; % El termino I_X_Y es la Información Mutua Promedio I(X; Y) de X e Y, o lo que es lo mismo: la Entropía de la intersección H(X; Y) Hc_X_Y=H_X-I_X_Y; % El termino Hc_X_Y es la Entropía condicional H(X/Y). Hc_Y_X=H_Y-I_X_Y; % El termino Hc_Y_X es la Entropía condicional H (Y/X). NR_I_X (I_X==0)=0; %Prevenir espacios vacíos en la tabla de salida NR_I_Y (I_X==0)=0; %Prevenir espacios vacíos en la tabla de salida NA_PMI (PMI==0)=0; %Prevenir espacios vacíos en la tabla de salida end 75 GLOSARIO GLOSARIO ACP Análisis de Componentes Principales AG Algoritmo Genético ANOVA ANalysis Of VAriance. Análisis de Varianza AV Análisis de Variabilidad CP Componente Principal DM Descriptor Molecular F Razón de Fisher IFI InFormation Index. Índice de información IMMAN Information Theory based CheMoMetric ANalysis. Análisis de la Informática Química basado en la Teoría de información. IMP Información Mutua Promedio Imol Information of a molecule. Información de una molécula IT Índice Topológico ITD Information Theory Descriptors. Descriptores de Teoría de la Información Log P Coeficiente de partición octanol/agua LOO Leave One Out. Dejar-Uno-Fuera NAPMI Normalized Average Pointwise Mutual Information. Información Mutua Puntual Promedio Normalizada NR Normalized Ratio. Razón Normalizada PMI Pointwise Mutual Information. Información Mutua Puntual Q2boot Varianza de la validación cruzada “bootstrapping”. Q2LOO Varianza de la validación cruzada LOO QSAR Quantitative Structure Activity Relationship. Relación Cuantitativa Estructura-Actividad 76 GLOSARIO GLOSARIO(Continuación) QSPR Quantitative Structure Property Relationship. Relación Cuantitativa Estructura-Propiedad R2 Coeficiente de Correlación al Cuadrado RLM Regresión Linear Múltiple SE Shannon’s Entropy. Entropía de Shannon STI Sistema de Transmisión de la Información 77