algo Antonio León Sánchez Redundancia en proteı́nas Análisis de la frecuencia relativa y de la redundancia de micripéptidos en proteı́nas Interciencia algo Antonio León Redundancia en proteı́nas Primera edición, Salamanca. 2015 Impreso en España / Printed in Spain Printed by Bubok Publishing S.L. Registro legal S.C. Cod. 1312289692975 Todos los derechos reservados. Ninguna parte de este libro puede ser reproducida, almacenada o transmitida sin el correspondiente permiso del propietario de los derechos de copia. Índice general Índice de tablas VII Índice de figuras X 1. Introducción 1 2. La base de datos UniProt Introducción . . . . . . . . . . . . . . . . . . Bases de datos de proteı́nas en Internet UniProt. Caracterı́sticas generales . . . Sobre la idoneidad de UniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 5 9 3. Objetivos y métodos de estudio Introducción . . . . . . . . . . . . Redundancia externa e interna Objetivos . . . . . . . . . . . . . . Métodos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 17 18 4. Redundancia de aminoácidos Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencia de los aminoácidos . . . . . . . . . . . . . . . . . . . . . . Redundancia de los aminoácidos . . . . . . . . . . . . . . . . . . . . . 23 23 24 34 5. Redundancia de dipéptidos y tripéptidos Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencia y redundancia relativas . . . . . . . . . . . . . . . . . . 39 39 40 6. Redundancia de tetrapéptidos Intorducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Métodos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencia y redundancia de tetrapéptidos . . . . . . . . . . . . . 51 51 52 52 7. Redundancia interna de micropéptidos Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Métodos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Análisis de la redundancia . . . . . . . . . . . . . . . . . . . . . . . . 59 59 60 62 . . . . v . . . . . . . . . . . . . . . . . . . . vi —— Índice general Micropéptidos de un solo aminoácido . . . . . . . . . . . . . . . . . . Otras redundancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 70 8. Redundancia en el proteoma humano Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencia y redundancia de aminoácidos . . . . . . . . . . . . . . . Redundancia de micropéptidos . . . . . . . . . . . . . . . . . . . . . . 73 73 74 79 9. junk-ADN Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . junk-DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 87 88 10.Conclusiones Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 93 93 11.Resultados numéricos: aminoácidos Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 99 12.Resultados numéricos: Dipéptidos 129 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 13.Resultados numéricos: Tripéptidos 151 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 14.Resultados numéricos: Tetrapéptidos 173 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 15.Resultados numéricos: Proteoma humano 185 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Referencias bibliográficas 194 Referencias bibliográficas 195 Índice alfabético 197 Índice de tablas 3.1. Código genético de los 20 aminoácidos proteinogénicos. . . . . . . . . 16 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. Frecuencia absoluta y relativa de los aminoácidos . . . . . . . . . . Código genético ideal vs real . . . . . . . . . . . . . . . . . . . . . Frecuencia relativa y código ideal . . . . . . . . . . . . . . . . . . . Códigos genéticos ideales por grupos de organismos . . . . . . . . . Redundancia absoluta y relativa de los aminoácidos (p. aleatorias) Redundancia absoluta y relativa de los aminoácidos (p. naturales) . . . . . . 28 32 33 34 37 38 5.1. 5.2. 5.3. 5.4. Frecuencia Frecuencia Frecuencia Frecuencia y redundancia de algunos dipéptidos (pr. naturales) y redundancia de algunos dipéptidos (pr. aleatorias) y redundancia de algunos tripéptidos (pr. naturales) extrema de algunos tripéptidos . . . . . . . . . . . . . . . . 43 44 48 48 6.1. 6.2. 6.3. 6.4. Frecuencia Frecuencia Frecuencia Frecuencia y y y y Archaea. . . . Bacteria. . . . Eukaryota. . . Homo sapiens. 53 54 55 57 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. Repeticiones directas e inversas en micropéptidos . . . . Redundancia de micropéptidos en diferentes organismos Logaritmo de la redundancia relativa (s. directas) . . . . Logaritmo de la redundancia relativa (s. inversas) . . . . Frecuencias de pentapéptidos de un solo aminoácido . . Frecuencias de decapéptidos de un solo aminoácido . . . Frecuencias de pentadecapéptidos de un solo aminoácido . . . . . . . . . . . . . . . . . . . . . 64 66 67 67 68 69 70 8.1. 8.2. 8.3. 8.5. 8.6. 8.7. Aminoácidos de especial frecuencia en el proteoma humano . . . Frecuencia y redundancia de aminoácidos (pr. humanas) . . . . . Frecuencia relativa de aminoácidos (pr. humanas y aleatorias) . . Código genético ideal comparado . . . . . . . . . . . . . . . . . . Frecuencia y redundancia de tripéptidos en el proteoma humano. Frecuencia y redundancia de tetrapéptidos (pr. humanas) . . . . . . . . . . . . . . . . 74 76 77 79 82 84 redundancia redundancia redundancia redundancia de de de de algunos algunos algunos algunos tetrapéptidos tetrapéptidos tetrapéptidos tetrapéptidos en en en en . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Aminoácidos. Naturales. Todos organismos. Cada proteı́na . . . . . . 100 11.2. Aminoácidos. Aleatorias. Todos organismos. Cada proteı́na . . . . . 101 vii viii —— Índice de tablas 11.3. Aminoácidos. 11.4. Aminoácidos. 11.5. Aminoácidos. 11.6. Aminoácidos. 11.7. Aminoácidos. 11.8. Aminoácidos. 11.9. Aminoácidos. 11.10.Aminoácidos. 11.11.Aminoácidos. 11.12.Aminoácidos. 11.13.Aminoácidos. 11.14.Aminoácidos. 11.15.Aminoácidos. 11.16.Aminoácidos. 11.17.Aminoácidos. 11.18.Aminoácidos. 11.19.Aminoácidos. 11.20.Aminoácidos. 11.21.Aminoácidos. 11.22.Aminoácidos. 11.23.Aminoácidos. 11.24.Aminoácidos. 11.25.Aminoácidos. 11.26.Aminoácidos. 11.27.Aminoácidos. 11.28.Aminoácidos. Naturales. Todos organismos. Una proteı́na Aleatorias. Todos organismos. Una proteı́na Naturales. Virus. Cada proteı́na . . . . . . . Aleatorias. Virus. Cada proteı́na . . . . . . Naturales. Virus. Una proteı́na . . . . . . . Aleatorias. Virus. Una proteı́na . . . . . . . Naturales. Archaea. Cada proteı́na . . . . . Aleatorias. Archaea. Cada proteı́na . . . . . Naturales. Archaea. Una proteı́na . . . . . . Aleatorias. Archaea. Una proteı́na . . . . . Naturales. Bacterias. Cada proteı́na . . . . Aleatorias. Bacterias. Cada proteı́na . . . . Naturales. Bacterias. Una proteı́na . . . . . Aleatorias. Bacterias. Una proteı́na . . . . . Naturales. Eukaryota. Cada proteı́na . . . . Aleatorias. Eukaryota. Cada proteı́na . . . . Naturales. Eukaryota. Una proteı́na . . . . . Aleatorias. Eukaryota. Una proteı́na . . . . Naturales. Mammalia. Cada proteı́na . . . . aleatorias. Mammalia. Cada proteı́na . . . . Naturales. Mammalia. Una proteı́na . . . . Aleatorias. Mammalia. Una proteı́na . . . . Naturales. Homo sapiens. Cada proteı́na . . Aleatorias. Homo sapiens. Cada proteı́na . . Naturales. Homo sapiens. Una proteı́na . . . Aleatorias. Homo sapiens. Una proteı́na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 12.1. Dipéptidos. 12.2. Dipéptidos. 12.3. Dipéptidos. 12.4. Dipéptidos. 12.5. Dipéptidos. 12.6. Dipéptidos. 12.7. Dipéptidos. 12.8. Dipéptidos. 12.9. Dipéptidos. 12.10.Dipéptidos. Naturales. Todos organismos. Cada proteı́na . Aleatorias. Todos organismos. Cada proteı́na Naturales. Todos organismos. Una proteı́na . Aleatorias. Todos organismos. Una proteı́na . Naturales. Virus. Cada proteı́na . . . . . . . . Naturales. Archaea. Cada proteı́na . . . . . . Naturales. Bacteria. Cada proteı́na . . . . . . Naturales. Eukaryota. Cada proteı́na . . . . . Naturales. Mammalia. Cada proteı́na . . . . . Naturales. Homo sapiens. Cada proteı́na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 133 135 137 139 141 143 145 147 149 13.1. Tripéptidos. 13.2. Tripéptidos. 13.3. Tripéptidos. 13.4. Tripéptidos. 13.5. Tripéptidos. 13.6. Tripéptidos. 13.7. Tripéptidos. 13.8. Tripéptidos. 13.9. Tripéptidos. 13.10.Tripéptidos. Naturales. Todos organismos. Cada proteı́na Aleatorias. Todos organismos. Cada proteı́na Naturales. Todos organismos. Una proteı́na . Aleatorias. Todos organismos. Una proteı́na . Naturales. Virus. Cada proteı́na . . . . . . . Naturales. Archaea. Cada proteı́na . . . . . . Naturales. Bacteria. Cada proteı́na . . . . . . Naturales. Eukaryota. Cada proteı́na . . . . . Naturales. Mammalia. Cada proteı́na . . . . Naturales. Homo sapiens. Cada proteı́na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 155 157 159 161 163 165 167 169 171 14.1. Tetrapéptidos. Naturales. Todos organismos. Cada proteı́na . . . . . 175 Índice de tablas —— ix 14.2. Tetrapéptidos. 14.3. Tetrapéptidos. 14.4. Tetrapéptidos. 14.5. Tetrapéptidos. 14.6. Tetrapéptidos. 14.7. Tetrapéptidos. Naturales. Naturales. Naturales. Naturales. Naturales. Naturales. Virus. Cada proteı́na . . . . . Archaea. Cada proteı́na . . . . Bacteria. Cada proteı́na . . . Eukaryota. Cada proteı́na . . Mammalia. Cada proteı́na . . Homo sapiens. Cada proteı́na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 178 179 181 183 184 15.1. Aminoácidos. Naturales. Homo sapiens. Cada proteı́na . 15.2. Aminoácidos. Naturales. Homo sapiens. Una proteı́na . . 15.3. Dipéptidos. Naturales. Homo sapiens. Cada proteı́na . . 15.4. Dipéptidos. Naturales. Homo sapiens. Una proteı́na . . . 15.5. Tripéptidos. Naturales. Homo sapiens. Cada proteı́na . . 15.6. Tripéptidos. Naturales. Homo sapiens. Una proteı́na . . 15.7. Tetrapéptidos. Naturales. Homo sapiens. Cada proteı́na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 187 188 190 191 193 194 Índice de figuras 4.1. Frecuencia relativa de aminoácidos . . . . . . . . . . . . . . . . . . . 4.2. Redundancia relativa de aminoácidos . . . . . . . . . . . . . . . . . . 29 35 5.1. Frecuencia relativa de dipéptidos . . . . . . . . . . . . . . . . . . . . 5.2. Frecuencia relativa de tripéptidos . . . . . . . . . . . . . . . . . . . . 5.3. Frecuencia relativa tripéptidos (Bacteria y Eukaryota) . . . . . . . . 40 45 49 6.1. Frecuencia relativa de tetrapéptidos 1 . . . . . . . . . . . . . . . . . 6.2. Frecuencia relativa de tetrapéptidos 2 . . . . . . . . . . . . . . . . . 56 57 7.1. Redundancia interna de micropéptidos . . . . . . . . . . . . . . . . . 65 8.1. 8.2. 8.3. 8.4. . . . . 80 83 85 85 9.1. Genes codificadores de proteı́nas y junk-DNA . . . . . . . . . . . . . 89 Redundancia de aminoácidos en Homo sapiens . . . . . . Frecuencia relativa de tripéptidos en proteoma humano . . Frecuencia relativa de tetrapéptidos en proteoma humano Redundancia de micropéptidos . . . . . . . . . . . . . . . xi . . . . . . . . . . . . . . . . . . . . 1.-Introducción Este trabajo puede considerarse como la segunda versión, notablemente ampliada, de otro trabajo realizado por el autor al final de la década de 1980, con la ayuda de tres de sus antiguos alumnos (cuyos nombres creo recordar eran José Carrillo, Juan Luis Hidalgo y Francisco Martı́nez a los que agradezco aquella tediosa colaboración). Aunque los objetivos y los métodos eran muy similares, el número de proteı́nas analizadas fue muy pequeño (todas las secuencias se copiaron a mano a partir de varias publicaciones). Creo recordar que el número total de aminoácidos incluidos en todas las secuencias analizadas era del orden de 40.000. Un resumen del trabajo se envió al Journal of Molecular Biology, cuyo editor no encontró interesante su publicación. Recuerdo el tamaño inusualmente largo (dos folios) de su carta de rechazo. Los años demostraron que el editor no estuvo muy acertado en aquella ocasión. No hubo más intentos de publicación y el asunto quedó olvidado hasta esta segunda década del siglo XXI. Motivado por la accesibilidad de las modernas bases de datos expuestas en Internet, decidı́ poner al dı́a aquella investigación sobre la redundancia de microsecuencias de 1 2 —— Introducción residuos de aminoácidos en las proteı́nas. El resultado es este libro. Antonio León Salamanca, agosto de 2015 2.-La base de datos UniProt Introducción 1 En este capı́tulo se introduce la base de datos UniProt, utilizada en el resto del libro como fuente para el análisis de la redundancia de microsecuencias de aminoácidos en las proteı́nas naturales. Se analiza su extracción a partir de uniprot sprot.xml (disponible en Internet según se indica en la siguiente sección) y sus caracterı́sticas principales: tamaño, tipos de proteı́nas, aminoácidos y tipos de organismos a los que pertenecen las proteı́nas. Se discute sobre su idoneidad estadı́stica y sobre su idoneidad como representante de lo que podrı́amos llamar el proteoma de la biosfera. 2 Por las razones que se expondrán más adelante, UniProt puede considerarse apropiada para el tipo de análisis estadı́stico que realizamos aquı́, de modo que las consecuencias del mismo serán significativas. Serán también relevantes, porque la redundancia (interna y externa) de micropéptidos en las cadenas peptı́dicas de las proteı́nas, como tal redundancia, no ha sido aún analizada con el debido rigor ni, en consecuencia, debidamente interpretada en términos genéticos y evolutivos. Bases de datos de proteı́nas en Internet 3 Como es bien sabido, existen en la Red un número considerable de herramientas y de bases de datos bioquı́micas y moleculares disponi3 4 —— La base de datos UniProt bles para cualquier usuario. Aunque, como es lógico, en la mayorı́a de los casos se requieren conocimientos técnicos para su aprovechamiento. Algunas bases de datos se encuentran disponibles en formato .xml, incluso en formato .txt, y aún estando comprimidas tienen un tamaño considerable. En cualquier caso la descarga completa se realiza en unos pocos minutos. 4 Aunque hemos secuenciado ya más de un genoma (incluyendo el humano), aún estamos lejos de haber analizado el proteoma completo de un organismo. En consecuencia, algunas de las proteı́nas incluidas en las bases de datos contienen secuencias de aminoácidos derivadas de secuencias de nucleótidos pero que aún no se han identificado como tales proteı́nas. En algunos casos la existencia de estas proteı́nas hipotéticas o probables está parcialmente confirmada por su parentesco (proteı́nas putativas) con otras proteı́nas debidamente identificadas y analizadas ([5]). Naturalmente, los análisis estadı́sticos pueden considerar, o no, a estas hipotéticas proteı́nas. 5 En esta moderna revisión del análisis de la redundancia en proteı́nas se han usado dos bases de datos. La primera fue psd7003.xml (extraı́da de los 103 MB comprimidos de psd7003.xml.gz). La descarga es libre y está ofrecida por la Universidad de Washington en la página XML Data Repository. Como es usual, cada registro de la base contiene un buen número de campos fácilmente localizables por sus correspondientes etiquetas xml. Para los objetivos de nuestro análisis solo son necesarios los campos: nombre de la proteı́na, organismo al que pertenece y secuencia de aminoácidos. 6 En algunas secuencias de aminoácidos existen posiciones dudosas, en estos casos lo más práctico es descartar las correspondientes proteı́nas. De psd7003.xml se extrae con facilidad psd7003, un fichero de texto plano formado por sucesivas lı́neas de texto. Cada tres lı́neas de texto UniProt. Caracterı́sticas generales —— 5 definen una proteı́na: 1.- Nombre completo de la proteı́na. 2.- Nombre cientı́fico del organismo al que pertenece la proteı́na, incluyendo los diferentes taxones a los que pertenece el organismo. 3.- Secuencia de aminoácidos de la proteı́na (códigos de una letra). El número total de proteı́nas de psd7003 es de 203860, con un número total de aminoácidos de 74076302. Suficiente para la mayorı́a de los cálculos de redundancia. 7 La segunda base de datos utilizada es uniprot sprot.xml, extraı́da de los 808 MB del fichero comprimido uniprot sprot.xml.gz, disponible en la página uniprot.org/downloads. Uniprog.org ofrece libremente otros recursos e instrumentos relacionados con la proteómica. UniProt. Caracterı́sticas generales 8 La descompresión del fichero uniprot sprot.xml.gz genera el fichero uniprot sprot.xml de 5,8 GB. De ahı́ se extrae UniProt, con los mismos criterios y objetivos que psd7003. También aquı́ se han eliminado todas las proteı́nas cuyas secuencias de aminoácidos presentan algunas posiciones dudosas. El resultado final es un fichero de texto plano de 202 MB en el que cada tres lı́neas de texto contiene la información apropiada sobre cada una de las proteı́nas: 1.- Nombre completo de la proteı́na. 2.- Nombre cientı́fico del organismo al que pertenece la proteı́na, incluyendo los diferentes taxones a los que pertenece el organismo. 3.- Secuencia de aminoácidos de la proteı́na (códigos de una letra). 6 —— La base de datos UniProt 9 UniProt contiene 483418 proteı́nas con 163636331 aminoácidos, una cantidad más que suficiente para el tipo de investigación estadı́stica que realizamos aquı́. Además, los resultados obtenidos con psd7003 son compatibles con los obtenidos a partir de UniProt, lo que confirma las conclusiones del estudio. UniProt simplemente mejora la precisión y la confianza de los cálculos. 10 Considerando todos los organismos incluidos en UniProt, tendrı́amos los siguientes datos: - Número total de proteı́nas...........483418 Número total de aminoácidos......163636331 Número de especies....................9124 Secuencia mı́nima de aminoácidos.........30 Secuencia máxima de aminoácidos......13100 Secuencia media de aminoácidos.........338,5 Desviación tı́pica del no de aa.........276,2 11 Para el caso de los virus: Número total de proteı́nas.........14187 Número total de aminoácidos.....5983070 Número de especies..................751 Secuencia mı́nima de aminoácidos......30 Secuencia máxima de aminoácidos....4036 Secuencia media de aminoácidos......421,7 Desviación tı́pica del no de aa......454,3 12 Para el caso Archaea: Número total de proteı́nas.........18139 Número total de aminoácidos.....5212818 Número de especies..................143 UniProt. Caracterı́sticas generales —— 7 Secuencia mı́nima de aminoácidos......31 Secuencia máxima de aminoácidos....9159 Secuencia media de aminoácidos......287,4 Desviación tı́pica del no de aa......196,6 13 Para el caso Bacteria: Número total de proteı́nas........314799 Número total de aminoácidos....98199016 Número de especies.................1722 Secuencia mı́nima de aminoácidos......30 Secuencia máxima de aminoácidos...10746 Secuencia media de aminoácidos......312 Desviación tı́pica del no de aa......217 14 Para el caso Eukaryota: Número total de proteı́nas........136293 Número total de aminoácidos....54241427 Número de especies.................6508 Secuencia mı́nima de aminoácidos......30 Secuencia máxima de aminoácidos...13100 Secuencia media de aminoácidos......398 Desviación tı́pica del no de aa......359,3 15 Para el caso Mammalia: Número total de proteı́nas.........43163 Número total de aminoácidos....17639176 Número de especies.................1698 Secuencia mı́nima de aminoácidos......30 Secuencia máxima de aminoácidos....5596 Secuencia media de aminoácidos......408,6 8 —— La base de datos UniProt Desviación tı́pica del no de aa......356,5 16 Para el caso Homo sapiens: Número total de proteı́nas..........7385 Número total de aminoácidos.....2849090 Número de especies....................1 Secuencia mı́nima de aminoácidos......31 Secuencia máxima de aminoácidos....5596 Secuencia media de aminoácidos......385,8 Desviación tı́pica del no de aa......377,6 17 Naturalmente, UniProt contiene proteı́nas hipotéticas derivadas de la secuenciación de genes que aún no han sido observadas como tales proteı́nas funcionales. En concreto UniProt contiene 41549 proteı́nas declaradas como: Probables: 13983 No caracterizadas: 14638 Putativas: 12928 En el capı́tulo siguiente se expondrán las razones por las que conviene hacer análisis estadı́sticos que las incluyan y análisis estadı́sticos que no las incluyan. 18 A partir de UniProt se ha construido RandomUniProt, un reflejo aleatorio de UniProt. RandomUniProt es idéntica a UniProt, aunque aquı́ las secuencias de aminoácidos son generadas aleatoriamente, teniendo en cuenta el número de codones que codifican a cada aminoácido. La secuencia (aleatoria) de aminoácidos de cada proteı́na de RandomUniProt tiene el mismo número de aminoácidos que su correspondiente reflejo natural en UniProt. Se mantiene también el nombre del correspondiente organismo para poder hacer análisis comparativos en Sobre la idoneidad de UniProt —— 9 Virus, Archaea, Bacteria y Eukaryota. Puesto que no se usan los nombres de las proteı́nas, en RandomUniProt todas las proteı́nas tienen el mismo nombre, a saber: ’Random’. Sobre la idoneidad de UniProt 19 Una base de datos con cerca de medio millón (483418) de proteı́nas que incluyen más de ciento sesenta y tres millones de aminoácidos (163636311) es más que suficiente para el tipo de análisis estadı́stico que desarrollamos aquı́ (en el capı́tulo siguiente, que trata sobre los métodos de estudio, se explican los detalles): Frecuencia relativa y redundancia de aminoácidos. Ídem de dipéptidos. Ídem de tripéptidos. Ídem de tetrapéptidos. Redundancia interna de micropéptidos (hasta 10 residuos). Redundancia externa de micropéptidos (hasta 10 residuos). Se trata por tanto de una base de datos idónea desde el punto de vista estadı́stico. La idoneidad se confirma con los análisis equivalentes realizados con las proteı́nas aleatorias de RandomUniProt y con las expectativas deducibles de los cálculos teóricos. En la mayorı́a de los casos se asegura una precisión de dos y hasta tres cifras decimales. 20 Discutiremos ahora brevemente la idoneidad biológica de UniProt. Su representatividad como proteoma de la biosfera. Naturalmente, la base de datos original uniprot sprot.xml no fue concebida para realizar el tipo de análisis que realizamos aquı́, ni ningún otro tipo particular de análisis estadı́stico. En este sentido la adecuación biológica de UniProt a nuestro objetivo (el estudio de la redundancia interna y externa en el proteoma biosférico) podrı́a ser mayor o menor. Además, la idoneidad biológica podrı́a entenderse desde el punto de vista de la biomasa o de la biodiversidad. 10 —— La base de datos UniProt 21 De las 483418 proteı́nas de UnitProt, 314799 corresponden a Bacteria, 18139 a Archaea, 14187 a Virus y 136293 a Eukaryota. La abundancia relativa de las bacterias es un pálido reflejo de su abundancia relativa en la biomasa de la biosfera (su abundancia en relación con la biomasa del resto de los organismos). Y peor es el caso de Archaea y Virus. Eukaryota, por el contrario, está excesivamente representada en la base de datos si atendemos a su biomasa relativa en la biosfera. 22 El número de especies catalogas varı́a con los diferentes autores, la cifra seguramente es superior a 1700000. El desacuerdo es mayor en el caso de la estimación del número total de especies, catalogadas y no catalogadas. En este caso el número oscila entre 4 y más de 50 millones. 23 Una muestra de proteı́nas de 9124 especies podrı́a ser representativa si la muestra se hubiera elegido con criterios de representación apropiados, lo que no ha sido el caso de UniProt. Ahora bien, conviene recordar que las diferentes proteı́nas secuenciadas que recoge UniProt provienen de numerosos equipos de investigación que persiguen objetivos muy diferentes. Esa diversidad de fines otorga a la muestra suficiente diversidad como para considerar que sı́ tiene al menos un cierto carácter representativo. 24 De lo que se acaba de indicar se puede inferir que la muestra de proteı́nas de UniProt no es la más apropiada desde el punto de vista de su representatividad de la biomasa y de la diversidad de la biosfera. Pero falta un detalle muy importante que hay que tener en cuenta: el origen común de todos los seres vivos y sus estrechas relaciones de parentesco evolutivo, sobre todo a la escala biomolecular. Un hecho que confiere a UniProt la suficiente representatividad como para que nuestras conclusiones sobre el análisis estadı́stico de la redundancia interna y externa en las secuencias de aminoácidos de las proteı́nas sean significativas. Sobre la idoneidad de UniProt —— 11 25 Como veremos algunas de esas conclusiones son particularmente interesantes desde el punto de vista de los procesos dinámicos de flujo de la información genética en todos los seres vivos, particularmente en los eucariotas, y dentro de ellos en los mamı́feros. 12 —— La base de datos UniProt 3.-Objetivos y métodos de estudio Introducción 26 En este capı́tulo se introducen y explican los objetivos de nuestro trabajo y los correspondientes métodos de estudio aplicados, teóricos e informáticos. El objetivo principal del trabajo es el análisis de la redundancia (véase más abajo) en las secuencias de aminoácidos de las proteı́nas. El estudio fue motivado por la búsqueda de patrones y mecanismos de cambio de la información genética diferentes de las conocidas mutaciones. 27 En los primeros años 1980s (época de la primera versión de este trabajo) aún dominaba el llamado Dogma Central de la Biologı́a Molecular (un gen, una proteı́na). Como es sabido, la única fuente considerada para explicar los cambios en la información genética eran los diferentes tipos de mutaciones. Aunque ya habı́a sospechas de otros mecanismos [7], [8] esos mecanismos alternativos merecieron escasa consideración y respeto. 28 Como veremos, el análisis de la redundancia en las secuencias de aminoácidos de las proteı́nas revela de forma inequı́voca que han de existir otros mecanismos sistemáticos responsables de alteraciones significativas en la información genética. Mecanismos que seguramente están relacionados con la movilidad y la reinserción repetitiva de pequeños fragmentos de información. 13 14 —— Objetivos y métodos de estudio 29 Como también veremos, los cálculos teóricos y los procedimientos informáticos de exploración y recuento son muy sencillos y fiables. Y como suele ocurrir en la exploración estadı́stica de cantidades importantes de datos, aquı́ también se desvelarán algunos detalles significativos. Redundancia externa e interna 30 Como se sabe desde hace más de un siglo, las proteı́nas son polı́meros lineales de aminoácidos (los polı́meros ramificados, o proteinoides, pudieron ser importantes en los tiempos abiogénicos [3], [2] pero finalmente no se incorporaron a la biosfera) unidos por enlaces peptı́dicos, enlaces entre el grupo carboxilo de un aminoácido y el grupo amino del siguiente. Los polı́meros ası́ formados se llaman péptidos o cadenas peptı́dicas. 31 Las proteı́nas están formadas por una o más cadenas peptı́dicas. La secuencia de aminoácidos que define la cadena peptı́dica es la estructura primaria del péptido. Esa estructura primaria es determinante en la conformación espacial definitiva que adquirirá la cadena de aminoácidos. La conformación espacial, a su vez, determina la capacidad funcional de los péptidos y las proteı́nas. 32 El tamaño de los polı́meros protéicos es muy variable, desde unas pocas decenas a varios miles de aminoácidos. La más pequeña de las proteı́nas de UniProt contiene 30 residuos (aminoácidos) y la mayor 13100, con un tamaño medio de 338,5 residuos (término que hace referencia al aminoácido ya incorporado en una cadena peptı́dica mediante uno o dos enlaces peptı́dicos, tiene sentido usarlo porque el aminoácido incorporado peptı́dicamente ya no es un aminoácido completo). 33 Existen veintitrés aminoácidos proteinogénicos, de los cuales solo veinte están directamente codificados por los genes del material genético celular (los otros tres necesitan ciertas intervenciones post- Redundancia externa e interna —— 15 traducción). De esos veinte aminoácidos nos ocuparemos aquı́. Haremos también un análisis similar de los correspondientes 400 dipéptidos, 8000 tripéptidos y 160000 tetrapéptidos. Micropétidos de hasta 10, o incluso más, residuos serán también analizados, aunque con diferentes métodos y objetivos. Para facilitar la exposición hablaremos de micropéptidos de uno a diez residuos para referirnos a tanto a los residuos individuales como a las cadenas peptı́dicas de dos a diez residuos, que son el objetivo de nuestro trabajo. 34 Los veinte aminoácidos están codificados por 61 codones (trinucleótidos), lo que significa que caben a más de un codón por aminoácido (véase la tabla 3.1). Pero el reparto no es equitativo: algunos aminoácidos se codifican con seis codones (por ejemplo serina o arginina) mientras que a otros le corresponde un solo codón (triptófano y metionina). Una de las cuestiones que abordaremos en el capı́tulo siguiente es si la frecuencia observada de los aminoácidos en las proteı́nas refleja adecuadamente esas diferencias en sus correspondientes codificaciones. Tabla 3.1 Aminoácido Sı́mbolos Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Asparagina Fenilalanina Glutamina Glicina Valina Leucina Tirosina Treonina Histidina Glu, Lys, Asp, Met, Ala, Ile, Asn, Phe, Gln, Gly, Val, Leu, Tyr, Thr, His, E K D M A I N F Q G V L Y T H No codones 2 2 2 1 4 3 2 2 2 4 4 6 2 4 2 Codones GAA, AAA, GAU, AUG GCU, AUU, AAU, UUU, CAA, GGU, GUU, UUA, UAU, ACU, CAU, GAG AAG GAC GCC, AUC, AAC UUC CAG GGC, GUC, UUG, UAC ACC, CAC GCA, GCG AUA GGA, GGG GUA, GUG CUU, CUC, CUA, CUG ACA, ACG 16 —— Objetivos y métodos de estudio Tabla 3.1 Aminoácido Sı́mbolos Prolina Triptófano Serina Arginina Cisteı́na Pro, Trp, Ser, Arg, Cys, No codones P W S R C 4 1 6 6 6 Codones CCU, UGG UCU, CGU, UGU, CCC, CCA, CCG UCC, UCA, UCG, AGU, AGC CGC, CGA, CGG, AGA, AGG UGC Tabla 3.1: Código genético de los 20 aminoácidos proteinogénicos. 35 En una cadena de, por ejemplo, 200 aminoácidos hecha con 20 aminoácidos, cada residuo se repetirá un cierto número de veces (aunque también puede ocurrir que falte alguno). Lo mismo ocurrirá con la mayorı́a de los 400 dipéptidos, aunque en este caso es más probable la ausencia de algunos dipéptidos. Naturalmente la probabilidad de las repeticiones de los micropéptidos disminuye rápidamente con su tamaño, con el número de residuos del micropéptido. 36 El número de repeticiones de un micropéptido en una proteı́na define la redundancia interna de ese micropéptido. Aquı́ analizaremos la redundancia de micropéptidos de uno a diez residuos en la base de datos UniProt. Analizaremos también las veces que un micropéptido determinado se repite en las diferentes proteı́nas de UniProt, esa será la redundancia externa del micropéptido. 37 Además de analizar la redundancia interna y externa de las 483418 proteı́nas de todos los organismos incluidos en UniProt, se hará lo mismo con las proteı́nas de los cuatro grandes de organismos incluidos en UniProt: 1.- Virus (14187 proteı́nas). 2.- Archaea (18139 proteı́nas). 3.- Bacteria (314799 proteinas). Objetivos —— 17 4.- Eukaryota (136293 proteı́nas). Se analizará también la redundancia en dos grupos más reducidos de organismos: mamı́feros y Homo sapiens. Objetivos 38 Los objetivos básicos de esta investigación son los siguientes: 1.- Buscar signos o huellas de mecanismos moleculares no convencionales que ocasionen cambios irreversibles en la información genética. 2.- Buscar signos de disconformidad aleatoria en la evolución de la información genética. 3.- Analizar la idoneidad del código genético. Donde no convencionales significa que no se pueden identificar con las mutaciones conocidas (puntuales, génicas, cromosómicas y genómicas). Algunos de esos mecanismos ya son conocidos, como por ejemplo los relacionados con la saltación y la transposición. Con signos de disconformidad aleatoria nos referimos a datos estadı́sticos imposibles de explicar mediante el azar como única causa de los mismos. 39 En el camino hacia los objetivos básicos anteriores, se plantean los siguientes objetivos concretos: 1.- Analizar la frecuencia absoluta y relativa de todos los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos en cerca de medio millón de proteı́nas (base de datos UniProt). 2.- Comparar esas frecuencias con las expectativas teóricas y con las frecuencias medidas en bases de datos aleatorias (RandomUniProt, reflejo aleatorio de UniProt) 3.- Medir la redundancia interna de diferentes tipos de micropéptidos en las proteı́nas de UniProt. 18 —— Objetivos y métodos de estudio 4.- Medir la redundancia externa de diferentes tipos de micropéptidos en las proteı́nas de UniProt. Métodos de estudio 40 Como en la mayorı́a de los análisis estadı́sticos, la operación básica es aquı́ también el recuento de ciertos elementos en una población de datos. En nuestro caso los datos son proteı́nas naturales y proteı́nas aleatorias (483418 en ambos casos) y los elementos contados: aminoácidos (20), dipéptidos (400,) tripéptidos (8000), tetrapéptidos (160000) y todos los micropéptidos de hasta 10 residuos que pueden definirse en la estructura primaria de cada proteı́na. A partir de ahora, y por simplificar la exposición, usaremos el término ’elementos básicos’ (EB) para referirnos a los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos. 41 Inicialmente, al menos para ciertos análisis, cabe considerar dos posibilidades Tratar separadamente las secuencias de aminoácidos de cada proteı́na. Tratar todas las secuencias como una única secuencia formada por la suma de las secuencias separadas de cada proteı́na. Parece que la primera alternativa tiene más sentido biológico porque la información genética evoluciona y se expresa en unidades discretas y la eficacia funcional de sus expresiones, las proteı́nas, también se mide en términos de unidades discretas. En este sentido la primera alternativa podrı́a sintonizar mejor con nuestros objetivos. Aunque, por otra parte, los organismos se reproducen y evolucionan como totalidades genéticas y proteómicas. En cualquier caso, hemos realizado ambos tipos de análisis y las diferencias no son muy significativas, ambas apuntan con claridad hacia las mismas conclusiones. Métodos de estudio —— 19 42 A pesar de la evolución discreta de las unidades de información (genes) y de las unidades funcionales (proteı́nas), en la segunda alternativa quizás se manifiesten con mayor claridad ciertos rasgos repetitivos de los EB en las secuencias aminoácidos que tienden a pasar desapercibidas en las proteı́nas individuales, sobre todo en las de menor tamaño. La segunda alternativa es también interesante para investigar la redundancia externa e interna de micropéptidos, que no solo se repiten en las proteı́nas individuales sino que además se repiten en las diferentes proteı́nas. 43 Como se indicó en el capı́tulo anterior, UniProt contiene 41549 proteı́nas hipotéticas, derivadas de las secuencias de trinucleótidos de los genes secuenciados que no han sido completamente identificadas como tales proteı́nas. Por una parte hemos analizado la base completa de todas las proteı́nas, hipotéticas y no hipotéticas, porque estamos interesados en la evolución de la información genética inscritas en los ácidos nucleicos, no en las proteı́nas, aunque las proteı́nas son esenciales en todos los procesos de flujo de la información (cierre semántico [6]). Por otra parte se podrı́an realizar análisis que excluyan a las proteı́nas hipotéticas cuando se busquen datos relativos a las proteı́nas identificadas y cuando interese contrastar los datos de ambos tipos de análisis. Los datos recogidos en este trabajo incluyen a todas las proteı́nas. 44 Nuestro análisis puede considerarse dividido en tres partes. En la primera se analizan la frecuencia y la redundancia de los EB en las proteı́nas de UniProt, de acuerdo con las alternativas descritas en 41. En la segunda se analiza la redundancia interna de micropéptidos de hasta diez residuos. En la tercera parte se analiza la frecuencia y la redundancia de algunos micropéptidos de más de diez residuos. 45 De cada EB se ha calculado su: 1.- Frecuencia: número de veces que aparece en todas las pro- 20 —— Objetivos y métodos de estudio teı́nas divido por el número total EB de ese tipo (aminoácidos, dipéptidos, tripéptidos y tetrapéptidos) en todas las proteı́nas. 2.- Frecuencia relativa: frecuencia dividida por la frecuencia teórica (probabilidad de cada EB, que se calcula en función del número de codones de cada aminoácido de los que componen el EB). 3.- Redundancia interna Frecuencia dividida por el número de proteı́nas en el que aparece el EB. 4.- Redundancia relativa: redundancia interna dividida por la redundancia teórica (calculada a partir de su probabilidad y del tamaño (número de aminoácidos) de la proteı́na). 46 Aunque los conceptos de frecuencia y frecuencia relativa son suficientemente claros, no ocurre los mismo con los de redundancia y redundancia relativa de los EB. La redundancia de un EB en una proteı́na es sencillamente el número de veces que aparece repetido en esa proteı́na. Para calcular la redundancia media de un EB, calculamos primero el número total de repeticiones de ese EB en todas las proteı́nas y luego dividimos el número total de repeticiones por el número de proteı́nas diferentes en las que se repite. Para calcular la redundancia relativa de un EB dividimos su redundancia media por su redundancia teórica, que es el número que resulta de multiplicar la probabilidad del EB por el número de aminoácidos de la proteı́na. 47 En el recuento de los EB se consideran todos los EB posibles que se pueden distinguir al recorrer linealmente la proteı́na. Por ejemplo, en la cadena peptı́dica: MKIGHHGERTAGGEDETRAS (1) se considerarı́an los (EB) tripéptidos MKI, KIG, IGH, GHH, . . . RAS. Métodos de estudio —— 21 Lo mismo vale para micropéptidos mayores que los EB. 48 En el análisis de la redundancia interna de un micropéptido, por ejemplo de un tetrapéptido, se consideran los sucesivos micropéptidos de acuerdo con lo indicado en 47. En el ejemplo anterior serı́an MKIG, KIGH, IGHH . . . TRAS. Para calcular la redundancia de cada uno de ellos, por ejemplo de KIGH, lo compararı́amos con todos los posibles micropéptidos del mismo tamaño que se pueden distinguir a partir del primer residuo que sigue al micropéptido considerado, en nuestro caso con HGER, GERT, ERTA, . . . TRAS, y contarı́amos cada una de las coincidencias. 49 Para evaluar el grado de confianza de las medidas estadı́sticas, todos los análisis realizados con UniProt se han realizado también con su equivalente aleatorio RandomUniProt y se han contrastado con las expectativas teóricas cuando esas expectativas teóricas se han podido calcular. 50 Además del análisis de UniProt, se han realizado también análisis equivalentes con ciertas partes de UniProt, como son las proteı́nas correspondientes a: 1.- Virus. 2.- Archaea. 3.- Bacteria. 4.- Eukaryota. 5.- Mammalia 6.- Homo sapiens. 51 Huelga decir que un análisis estadı́stico de la envergadura del realizado aquı́ solo es posible con instrumentos informáticos, aunque no 22 —— Objetivos y métodos de estudio necesariamente de una elevada potencia de cálculo, puede servir cualquier ordenador portátil. Incluso con equipos domésticos, la mayorı́a de los procedimientos se resuelven en unos pocos minutos, aunque en algunos otros se consumen varias horas. 4.-Redundancia de aminoácidos Introducción 52 La frecuencia de los aminoácidos en las proteı́nas se ha ido conociendo con precisión creciente a medida que ha ido aumentando el número de proteı́nas analizadas y el número de proteı́nas deducidas de la secuenciación de genes y genomas. Hoy disponemos de datos aceptables, no solo de la frecuencia de los aminoácidos en el proteoma biosférico sino también de su frecuencia en ciertos grupos particulares de organismos como los virus, las bacterias o el Homo sapiens. 53 Pero llama la atención el escaso interés que se presta a la notable cuestión sobre si las frecuencias encontradas son las que se esperaban desde el punto de vista teórico, asumiendo la evolución aleatoria de la información genética. En la inmensa mayorı́a de textos universitarios la cuestión simplemente se ignora, o se trata de pasada con vagas referencias al acuerdo de los datos con las expectativas. En las tablas de frecuencias que aparecen en esos textos nunca (hasta donde yo se) aparecen frecuencias relativas, las frecuencias que se obtienen dividiendo la frecuencia encontrada de cada aminoácido por su probabilidad teórica deducida a partir del número de codones que se expresan en cada aminoácido, número que como sabemos varı́a de 1 a 6 (sin incluir el 5). 54 El interés del análisis que se ofrece en este capı́tulo es doble. Por 23 24 —— Redundancia de aminoácidos una parte, el interés de una análisis de frecuencias e aminoácidos realizado en una base de datos de cerca de medio millón de proteı́nas que incluyen más de 163 millones de residuos de aminoácidos. El análisis, además, se contrasta con el análisis de una variante aleatoria de la misma base de datos del que se obtiene una estimación de la precisión de los datos que alcanza la tercera cifra decimal. 55 Por otra parte el interés, mucho más notable en mi opinión, del análisis de las frecuencias relativizadas. Veremos desviaciones muy significativas de los datos encontrados con respecto a los esperados. Tan significativas que son imposibles de explicar por fluctuaciones aleatorias, de modo que el simple azar es insuficiente para explicarlas. Habrá que plantear mecanismos restrictivos de ı́ndole fı́sico-quı́mica o biológica que den cuenta de esas desviaciones. 56 Como colofón casi inevitable del capı́tulo se incluye una breve discusión sobre la evolución y la idoneidad del actual código genético, comparando la actual asignación de códigos con la que cabrı́a esperar de un máximo ajuste o acuerdo con los datos estadı́sticos. Frecuencia de los aminoácidos 57 El cálculo de la frecuencia de los aminoácidos en las proteı́nas de UniProt no presenta dificultad alguna: se recorren las sucesivas secuencias de aminoácidos de sus proteı́nas y se cuenta el número de veces que cada aminoácido aparece en ellas. Ese número de veces se divide luego por el total de elementos (aminoácidos) recorridos. Hay dos formas de llevar a cabo el recuento: 1) Proteı́na a proteı́na: en este caso se calcula la frecuencia de cada aminoácido en cada una de las proteı́nas y luego el resultado se divide por el número de proteı́nas analizadas para obtener la frecuencia media de cada aminoácido. Frecuencia de los aminoácidos —— 25 2) Como una única proteı́na: ahora se calcula el número de veces que cada aminoácido aparece en cada una de las proteı́nas y luego ese número se divide por el número total de aminoácidos de todas las proteı́na para calcular la frecuencia de cada aminoácido en la base de proteı́nas, como si la base fuese una sola proteı́na. Lo mismo vale para el resto de EB (dipéptidos, tripéptidos y tetrapéptidos). 58 Como es bien sabido, cada aminoácido tiene asignada una letra mayúscula como sı́mbolo (existen también sı́mbolos de tres letras para cada aminoácido). En consecuencia las secuencias de proteı́nas se representan mediante cadenas de texto de longitud variable en las que el texto está siempre formado por las mismas veinte letras mayúsculas diferentes. Una cadena peptı́dica serı́a, por ejemplo: MKIRVHEPEEHKKLLAWEAS 59 En todos los lenguajes de programación existen funciones de búsqueda de subcadenas en cadenas de texto de mayor tamaño. Esas funciones permiten una programación compacta (y muy eficiente) para llevar a cabo el tipo de recuento que hemos realizado aquı́. Por ejemplo, las lı́neas de código: for (i = 1; i ¡= Seq.Length - (BELength - 1); i++) { ind = Array.IndexOf(Symbol, Strings.Mid(Seq, i, BELength)) ThisProteinFreq(ind) += 1 } calculan el número de veces que cada una de las subcadenas de texto de longitud BELength contenidas en la matriz Symbol, aparecen en la cadena de texto Seq. Naturalmente Seq puede ser la secuencia de aminoácidos de una proteı́na (una letra por aminoácido) y Symbol una 26 —— Redundancia de aminoácidos matriz que contiene los sı́mbolos de, por ejemplo, los 20 aminoácidos, o los 400 sı́mbolos de dos letras de los 400 dipéptidos proteinogénicos. 60 En las tablas de los cinco últimos capı́tulos se exponen los resultados finales de todos los análisis de frecuencia y redundancia realizados con los EB y otros micropéptidos. En esta sección expondremos y comentaremos solo los datos de las frecuencias relativas de los aminoácidos, tanto en UniProt como en RandomUniProt. Como veremos, el contraste entre ambos conjuntos de datos es muy notable y es prácticamente imposible explicarlo en términos puramente estadı́sticos. 61 La frecuencia relativa de un EB expresa lo que su comportamiento estadı́stico se desvı́a del comportamiento esperado en términos teóricos: la frecuencia relativa de una aminoácido es su frecuencia real dividida por su frecuencia teórica o probabilidad. Y puesto que la probabilidad es siempre menor que 1, la suma de las frecuencias relativas, al contrario de lo que ocurre con las frecuencias, puede ser mayor que uno. 62 La frecuencia relativa de un EB será tanto mayor cuanto mayor sea la desviación positiva de su frecuencia con respecto a su probabilidad (frecuencia teórica), y tanto menor cuanto mayor sea la desviación negativa de su frecuencia con respecto a su probabilidad, donde desviación positiva significa valores mayores que los esperados y desviación negativa valores menores de los esperados. 63 Existen 64 codones distintos (trinucleótidos) y 20 aminoácidos que codificar. Además, tres de los 64 codones codifican puntos finales en las secuencias de nucleótidos. Los 61 restantes se reparten entre los veinte aminoácidos, pero no de una manera equitativa: el número de codones que corresponde a un aminoácido puede ser 1, 2, 3, 4 ó 6. Podrı́amos discutir si la probabilidad (frecuencia teórica) de un aminoácido con N codones es N/61 ó N/64. Hechos los recuentos, los resultados son casi Frecuencia de los aminoácidos —— 27 los mismos para ambas alternativas y, en consecuencia, las conclusiones finales serán idénticas. Aquı́ expondremos los resultados para el caso N/61 porque 61 es el número de codones que codifican para los 20 aminoácidos analizados. 64 En la Tabla 4.1 se comparan las frecuencias relativas de los aminoácidos de las proteı́nas naturales de UniProt con los aminoácidos de las proteı́nas aleatorias de RandomUniProt. Como puede verse, la desviación tı́pica (S.D) en el caso de las proteı́nas naturales es 1259,5 veces mayor que en el caso de las proteı́nas aleatorias. Una diferencia imposible de explicar en términos estadı́sticos. Nótese que en el caso de las proteı́nas aleatorias la frecuencia de sus aminoácidos apenas se distinguen en la tercera cifra decimal. La diferencia entre la máxima y la mı́nima de esas frecuencias relativas es de 0.001258, mientras que en el caso de las proteı́nas naturales es de 1,598892, y por lo tanto 1271 veces mayor. Tabla 4.1 Aminoácidos proteinogénicos Proteı́nas naturales Proteı́nas aleatorias Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Asparagina Fenilalanina Glutamina Glicina Valina Leucina Tirosina Treonina Histidina 2,024570 1,902948 1,621299 1,563094 1,305299 1,262937 1,200812 1,174353 1,138860 1,097778 1,090396 0,973415 0,878584 0,800979 0,675667 1,049096 1,049062 1,048666 1,049659 1,049529 1,048972 1,048914 1,049160 1,049282 1,049173 1,049773 1,049025 1,049567 1,049428 1,049242 Núm. de codones 2 2 2 1 4 3 2 2 2 4 4 6 2 4 2 28 —— Redundancia de aminoácidos Tabla 4.1 Aminoácidos proteinogénicos Proteı́nas naturales Proteı́nas aleatorias Núm. de codones Prolina Triptófano Serina Arginina Cisteı́na 0,669555 0,627643 0,616173 0,591051 0,425678 1,049924 1,049700 1,049230 1,048808 1,049753 4 1 6 6 2 Total Media D. tı́pica 21,641090 1,082055 0,444621 20,985960 1,049298 0,000353 61 3.05 1,605090 Tabla 4.1: Frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: cada proteı́na. Todos los organismos. Número de especies: 9124. 65 Es muy destacable la elevada frecuencia relativa de los aminoácidos: - Ácido glutámico: 2,024570 - Lisina: 1,902948 - Ácido aspártico: 1,621299 - Metionina: 1,563094 Y la baja frecuencia relativa de: - Serina: 0,591051 - Arginina: 0,425678 - Cisteı́na: 0,425678 66 Sabemos bien que todos los aminoácidos tienen un carbono alfa (Cα ) cuyos cuatro enlaces se saturan con cuatro grupos atómicos diferentes. De esos cuatro grupos atómicos, tres son siempre los mismos en Frecuencia de los aminoácidos —— 29 Figura 4.1: Frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt en relación y en las proteı́nas aleatorias de RandomUniProt, representada esta última por la lı́nea horı́zontal Fr = 1. todos los aminoácidos: un grupo amino (H2 N −), un grupo carboxı́lico (−COOH) y un hidrógeno (−H). El grupo amino y el grupo carboxilo forman el eje peptı́dico de las proteı́nas. El cuarto grupo atómico (la cadena lateral −R), que no participa en el eje peptı́dico, es distinto en cada aminoácido, y es el que le confiere sus propiedades fı́sico-quı́micas caracterı́sticas. 67 Sabemos también que la secuencia de aminoácidos (estructura primaria) es determinante para la configuración espacial final de la cadena 30 —— Redundancia de aminoácidos peptı́dica, sea esta, o no, espontánea. Y que la conformación espacial es, a su vez, determinante para la funcionalidad de la proteı́na. La distribución lineal de los grupos −R de cada aminoácido juega entonces un papel esencial en la estructura y función de las proteı́nas. 68 En este sentido, las fuertes desviaciones estadı́sticas positivas y negativas de las frecuencias relativas de los aminoácidos en las proteı́nas que se muestran en la Tabla 4.1 y en la Figura 4.1 solo pueden explicarse en términos de presión selectiva positiva y negativa sobre los correspondientes aminoácidos. 69 Aunque explicar esa presión selectiva en términos de las propiedades fı́sico-quimicas de las cadenas laterales de los aminoácidos en tanto que implicadas en la estructura y función de las proteı́nas, es cualquier cosa menos evidente. Hay que tener en cuenta que esas cadenas varı́an en: - Forma. - Tamaño. - Carga eléctrica. - Capacidad de formar puentes de hidrógeno. - Capacidad de formar enlaces disulfuro. - Propiedades hidrofóbicas / hidrofı́licas. - Reactividad quı́mica. 70 La conclusión que sı́ podemos sacar aquı́ es que el código genético, aunque sobradamente funcional, no es el código óptimo, el código que producirı́a las menores desviaciones estadı́sticas en las frecuencias relativas. O dicho con otras palabras, el código cuyos productos finales (cadenas peptı́dicas y proteı́nas) más se aproximarı́a a las expectativas teóricas basadas en las probabilidades de cada aminoácido, a su vez función directa del número de códigos asignados por el código a cada aminoácido. Frecuencia de los aminoácidos —— 31 71 Podrı́a decirse también que el código genético ideal es el más funcional porque la evolución aleatoria de la información genética producirı́a proteı́nas en las que las frecuencias de los aminoácidos serı́an las más parecidas a las expectativas teóricas, y su frecuencias relativas las que más se aproximarı́an a la unidad. La Tabla 4.2 muestra el código genético ideal derivado de la frecuencia de los aminoácidos en las proteı́nas de la base de datos UniProt. Tabla 4.2 Aminoácidos Leucina Alanina Glicina Valina Ácido glutámico Serina Isoleucina Lisina Arginina Ácido aspártico Treonina Prolina Asparagina Fenilalanina Glutamina Tirosina Metionina Histidina Cisteı́na Trptófano Total Media D. tı́pica Frecuencia real Código teórico Código ideal Código real 9,654961 8,425655 7,164989 6,965113 6,726853 6,336696 6,127532 5,850479 5,534758 5,515203 5,335600 4,557295 4,084007 3,884254 3,843612 2,945062 2,441242 2,242452 1,290198 1,074008 5,889681 5,139785 4,370759 4,248830 4,103488 3,865486 3,737893 3,568886 3,376291 3,364362 3,254802 2,780023 2,491310 2,369457 2,344665 1,796535 1,489196 1,367932 0,787042 0,655162 6 5 4 4 4 4 4 4 3 3 3 3 2 2 2 2 1 1 1 1 6 4 4 4 2 6 3 2 6 2 4 4 2 2 2 2 1 2 2 1 99,999960 4,999998 2,300427 61,001590 3,050079 1,403298 59,000000 2,950000 1,431782 61,000000 3,050000 1,605090 32 —— Redundancia de aminoácidos Tabla 4.2 Aminoácidos Frecuencia real Código teórico Código ideal Código real Tabla 4.2: Código genético ideal derivado de la frecuencia real de los aminoácidos en la base de dato UniProt: 483418 proteı́nas con 163636331 aminoácidos pertenecientes a 9124 especies, incluidos virus, bacterias, archaeas y eucariotas. Tipo de cálculo: Una proteı́na. 72 Con el código genético ideal, el análisis de la frecuencia relativa de los aminoácidos da los resultados que se recogen en la primera columna de la tabla 4.3. Como puede verse todos los valores están más próximos a la unidad que en el caso del código genético real (columna de la derecha). Nótese que la desviación tı́pica en el caso del código real es más del doble que en el caso del código ideal. Naturalmente eso significa un mayor esfuerzo selectivo en el caso del código genético real del que serı́a necesario en el caso del código genético ideal. Tabla 4.3 Aminoácidos Metionina Histidina Asparagina Fenilalanina Glutamina Arginina Ácido aspártico Glicina Treonina Valina Alanina Ácido glutámico Leucina Serina Frec. relativa código ideal Frec. relativa código real 1,489157 1,367896 1,245622 1,184698 1,172302 1,125401 1,121425 1,092661 1,084905 1,062180 1,027930 1,025845 0,981588 0,966346 1,489157 0,683948 1,245622 1,184698 1,172302 0,562700 1,682137 1,092661 0,813679 1,062180 1,284912 2,051690 0,981588 0,644231 Frecuencia de los aminoácidos —— 33 Tabla 4.3 Aminoácidos Frec. relativa código ideal Frec. relativa código real Isoleucina Prolina Tirosina Lisina Cisteı́na Trptófano 0,934449 0,926650 0,898244 0,892198 0,787021 0,655145 1,245932 0,694988 0,898244 1,784396 0,393511 0,655145 Total Media D. tı́pica 21,041660 1,052083 0,191048 21,623720 1,081186 0,436205 Tabla 4.3: Frecuencia relativa de los aminoácidos en la base de datos UniProt calculada de acuerdo con el código genético ideal. Tipo de cálculo: Una proteı́na. Nótese que la desviación tı́pica en el caso del código real es más del doble que en el caso del código ideal. 73 Finalmente, hay que destacar el hecho de que el código genético ideal, aunque es muy parecido, no es exactamente igual en los distintos grupos examinados. El de Archaea es notoriamente distinto al de Bacteria y Eukaryota, como puede verse en la Tabla 4.4. Un código ideal diferente en los diferentes grupos significa una diferente composición en sus respectivos proteomas. Nótese que solo los aminoácidos arginina (3), treonina (3), prolina (3), tirosina (2), histidina (1), cisteı́na (1) y triptófano (1) tienen el mismo número de códigos en los tres grandes grupos considerados. Tabla 4.4 Aminoácidos Leucina Ácido glutámico Valina Alanina Archaea Bacteria Eukaryota Cod. real 5 5 5 5 6 4 5 6 6 4 4 4 6 2 4 4 34 —— Redundancia de aminoácidos Tabla 4.4 Aminoácidos Isoleucina Glicina Lisina Ácido aspártico Arginina Serina Treonina Prolina Asparagina Fenilalanina Tirosina Metionina Glutamina Histidina Cisteı́na Triptófano Total Media D. tı́pica Archaea Bacteria Eukaryota Cod. real 5 5 4 4 3 3 3 3 2 2 2 1 1 1 1 1 4 5 3 3 3 3 3 3 2 2 2 2 2 1 1 1 3 4 4 3 3 5 3 3 3 3 2 1 3 1 1 1 3 4 2 2 6 6 4 4 2 2 2 1 2 2 2 1 61 3,05 1,56 61 3,05 1,49 61 3,05 1,32 61 3.05 1,56 Tabla 4.4: Códigos genéticos ideales en Archaea, Bacteria y Eukaria. Entre paréntesis el código genético de las correspondientes proteı́nas aleatorias). Método de análisis: cada proteı́na. 74 Por el contrario, y como era de esperar, cuando se consideran proteı́nas aleatorias en los tres grupos, Archaea, Bacteria y Eukaryota, el código genético ideal es el mismo en los tres casos: el código genético real usado para calcular la probabilidad de cada aminoácido (cuarta columna numérica de la Tabla 4.4). Redundancia de los aminoácidos 75 Puesto que existen 20 aminoácidos proteinogénicos diferentes y el tamaño (número de residuos) de la inmensa mayorı́a de las proteı́nas Redundancia de los aminoácidos —— 35 es mucho mayor de 20 (valor medio superior a 338 residuos en el caso de UniProt), casi todos los aminoácidos se acaban repitiendo en casi todas las proteı́nas. Por esta razón las medidas de redundancia interna de los aminoácidos serán parecidas a las de su frecuencia. Aunque, naturalmente, son medidas distintas que se calculan de manera distinta. La redundancia interna de una aminoácido es el número medio de veces que ese aminoácido se repite en cada una de las proteı́nas, en nuestro caso en cada una de las proteı́nas de UniProt y RandomUniProt. Figura 4.2: Redundancia relativa de los aminoácidos en las proteı́nas naturales (cı́rculitos negros) de UniProt y en los aminoácidos de las proteı́nas aleatorias (circulitos grises) de RandomUniProt. La redundancia de los aminoácidos de las proteı́nas aleatorias se distribuye en cinco escalones horizontales correspondientes cada uno de ellos a los aminoácidos con 1, 2, 3, 4 y 6 codones del código genético. La redundancia de los aminoácidos de las proteı́nas naturales presentan fuertes desviaciones respecto a esos escalones. 36 —— Redundancia de aminoácidos 76 Como era de esperar, en las proteı́nas aleatorias las medidas de redundancia en los aminoácidos se distribuye en forma de cinco escalones horizontales definidos por el número de codones asignados por el código genético a cada aminoácido. Todos los aminoácidos con el mismo número de codones (y por lo tanto con la misma probabilidad) presentan la misma medida de redundancia. Es lo que se observa en la figura 4.2 y en la tabla 4.5. Nótese el valor extremadamente bajo de la desviación tı́pica: 0,000064. Tabla 4.5 Aminoácido Redundancia relativa Redundancia absoluta Trptófano Metionina Histidina Glutamina Valina Leucina Arginina Glicina Ácido glutámico Lisina Alanina Serina Cisteı́na Isoleucina Fenilalanina Tirosina Prolina Ácido aspártico Treonina Asparagina 0,999989 0,999883 1,000024 1,000042 1,000055 1,000029 0,999993 0,999987 0,999865 1,000005 1,000014 1,000005 1,000082 0,999904 0,999963 1,000098 1,000001 0,999901 1,000058 0,999916 5,883404 5,879686 11,244590 11,240480 22,232060 33,306880 33,304790 22,230550 11,243060 11,242790 22,232360 33,306130 11,241000 16,719060 11,242840 11,242170 22,232570 11,241840 22,232650 11,243250 Total Media D. tı́pica 19,999810 0,999991 0,000067 340,742100 17,037110 8,826270 Redundancia de los aminoácidos —— 37 Tabla 4.5: Redundancia relativa y absoluta de los 20 aminoácidos en las proteı́nas aleatorias de RandomUniProt. Método de análisis: cada proteı́na. 77 Como puede verse en la misma figura, y observarse en la tabla 4.6, el comportamiento de los aminoácidos en las proteı́nas naturales de UniProt es muy diferente. La mayorı́a de ellos presentan desviaciones importantes respecto a las expectativas teóricas. Esas desviaciones son imposibles de explicar en términos puramente estadı́sticos. Como veremos en los próximos capı́tulos la redundancia de los aminoácidos en las proteı́nas es una consecuencia inevitable de la redundancia de micropéptidos de dos o más residuos. Nótese que ahora la desviación tı́pica de la redundancia relativa es 0,457949, es decir 6188,5 veces mayor que en el caso de las proteı́nas aleatorias. Tabla 4.6 Aminoácido Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Asparagina Fenilalanina Glutamina Glicina Valina Leucina Tirosina Treonina Histidina Prolina Trptófano Redundancia relativa Redundancia absoluta 2,051690 1,784396 1,682137 1,489157 1,284913 1,245932 1,245622 1,184698 1,172302 1,092661 1,062180 0,981588 0,898244 0,813679 0,683948 0,694988 0,655145 23,004530 19,963610 18,911470 8,301106 28,619120 20,866010 14,015370 13,367850 13,245640 24,331410 23,643920 32,772280 10,288640 18,160750 8,003811 15,623920 4,632117 38 —— Redundancia de aminoácidos Serina Arginina Cisteı́na 0,644231 0,562700 0,393510 21,518220 18,866520 5,320808 Total Media D. tı́pica 21,623720 1,081186 0,436205 343,457100 17,172850 7,604870 Tabla 4.6: Redundancia relativa y absoluta de los 20 aminoácidos en las proteı́nas naturales de UniProt. Método de análisis: cada proteı́na. 78 De nuevo resultan destacables las fuertes desviaciones positivas del ácido glutámico (E), la lisina (K) y el ácido aspártico (D). Y las desviaciones negativas de arginina (R), prolina (P), histidina (H) y cisteı́na (C). 5.-Redundancia de dipéptidos y tripéptidos Introducción 79 En este capı́tulo se examinan la frecuencia y la redundancia interna de los dipéptidos y tripéptidos en las proteı́nas de UniProt y RandomUniProt. Aunque el número de dipéptidos diferentes (400) y el de tripéptidos diferentes (8000) son claramente mayores que el número de aminoácidos diferentes (20), el tamaño de UniProt, y por tanto de RandomUniProt, es suficientemente grande (más de 163 millones de residuos) como para que la precisión de los cálculos estadı́sticos siga siendo significativa. En la mayorı́a de los casos las variaciones se expresan a partir de la segunda o tercera cifra decimal. 80 Como se verá, las desviaciones positivas y negativas (sobre todo las positivas) son mucho mayores que en el caso de los aminoácidos. Y lo mismo ocurre con la redundancia interna. Hay variaciones también en los datos de frecuencia y redundancia correspondientes a los distintos grupos considerados: Archaea, Bacteria, Eukaryota y Virus. Las desviaciones más importantes, que puede ser cerca de treinta veces mayores de las expectativas teóricas, corresponden siempre a Eukaryota. Lo que ya anuncia los resultados de la redundancia de micropéptidos que veremos en el siguiente capı́tulo. 39 40 —— Redundancia de dipéptidos y tripéptidos Frecuencia y redundancia relativas 81 El número de dipéptidos diferentes (400) es del orden de magnitud del tamaño medio (número de residuos) de las proteı́nas, mientras que su probabilidad media es del orden de 0.0008. Por su parte, el número de tripéptidos (8000) es claramente superior al tamaño medio de las proteı́nas, mientras que la probabilidad media de un tripéptido es 0.00001. En estas condiciones es de esperar que los efectos de la redundancia, si existen, se manifiesten con mayor claridad que en el caso de los aminoácidos. Como veremos, eso es exactamente lo que ocurre. Figura 5.1: Frecuencia relativa de los dipéptidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas aleatorias (recta horizontal Fr ≈ 1) de RandomUniProt. 82 La Figura 5.1 muestra las fuertes desviaciones de las frecuencias relativas de los dipéptidos de las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas de RandomUniProt, la versión aleatoria de UniProt. Nótese que las desviaciones positivas son bastante más notables que las negativas, el dipéptido EE alcanza una desviación de su frecuencia relativa cinco veces superior a lo esperado en términos teóricos, lo que es imposible explicar por simples Frecuencia y redundancia relativas —— 41 consideraciones estadı́sticas. 83 En los capı́tulos 12 y 13 se exponen las tablas de frecuencia y redundancia relativas de los dipéptidos y tripéptidos en todos los organismos y en los grupos Archaea, Bacteria y Eukaryota (aunque solo se exponen los treinta que sufren las desviaciones positivas mas fuertes y los treinta que sufren las desviaciones negativas más importantes). En la Tabla 5.2 de este capı́tulo se expone y comenta el caso correspondiente a todos los organismos. Tabla 5.1 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EE KK EK KE DE MK ED KD ME DK EM EI DD EA IE AE EN EQ KN KI MA IK MM AK MD ID 4,992191 4,799176 4,499742 4,224720 3,596615 3,418783 3,172202 2,945582 2,892102 2,872317 2,869384 2,829170 2,759097 2,734181 2,714757 2,704290 2,623441 2,615918 2,594225 2,515235 2,513322 2,424041 2,389865 2,387424 2,385083 2,379651 0,536651 0,515902 0,483713 0,454149 0,386629 0,183756 0,341005 0,316644 0,155448 0,308768 0,154227 0,456195 0,296597 0,587838 0,437746 0,581411 0,282015 0,281206 0,278874 0,405574 0,270177 0,390869 0,064226 0,513287 0,128196 0,383712 5,123930 4,140254 4,397487 4,165792 3,758457 2,924930 3,354291 2,979438 2,840932 2,822972 2,975516 2,789393 2,916480 2,720749 2,687842 2,652913 2,733113 2,651271 2,522937 2,347419 2,213750 2,266501 2,358842 2,194065 2,438996 2,422047 2,908596 2,529190 2,501615 2,500178 2,256279 1,401411 2,164484 2,022041 1,465419 1,931956 1,494781 2,336684 2,073569 2,757095 2,289828 2,722057 1,942946 1,885988 1,940813 2,200931 1,588714 2,144513 1,251446 2,360644 1,392223 2,154467 42 —— Redundancia de dipéptidos y tripéptidos Tabla 5.1 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia KA NK VE KM . . . RT SP CY SW HR HS CC CV RW LC WS WR RP CL CP CH SR TC WP PR HC RS CT WC CS CW SC CR PC RC 2,377729 2,368074 2,352405 2,323716 . . . 0,426107 0,425365 0,423991 0,415586 0,410002 0,408653 0,402771 0,398647 0,391217 0,384818 0,380716 0,380460 0,373217 0,369737 0,362473 0,361894 0,356980 0,353236 0,348246 0,343191 0,339188 0,332511 0,327516 0,317994 0,302817 0,294059 0,286602 0,264797 0,251578 0,238244 0,511202 0,254563 0,505758 0,124897 . . . 0,274834 0,274355 0,045578 0,067012 0,132223 0,131788 0,043297 0,085707 0,063083 0,124102 0,061389 0,061348 0,240720 0,119238 0,077930 0,038903 0,345372 0,075944 0,037436 0,221354 0,036462 0,321698 0,070415 0,017092 0,097657 0,015805 0,092427 0,085395 0,054088 0,076832 2,193489 2,280603 2,255527 2,268162 . . . 0,406727 0,464165 0,394290 0,446345 0,395244 0,429420 0,267530 0,382174 0,388602 0,382657 0,407148 0,399994 0,374221 0,365001 0,323190 0,332261 0,351300 0,331703 0,377322 0,339725 0,325516 0,329336 0,306159 0,295006 0,286612 0,294927 0,268014 0,224571 0,244629 0,209697 2,352404 1,865885 2,380200 1,385256 . . . 1,744983 2,029863 1,186463 1,294313 1,396836 1,467181 1,290137 1,307659 1,238557 1,444256 1,298076 1,256913 1,755977 1,443796 1,348857 1,171007 2,010930 1,330269 1,203743 1,707641 1,172324 1,962053 1,272206 1,111827 1,429711 1,101115 1,429507 1,282898 1,288481 1,285689 Total Media D. tı́pica 465,297200 1,163243 0,719313 100,008800 0,250022 0,172812 466,411400 1,166028 0,708574 710,927600 1,777319 0,497485 Frecuencia y redundancia relativas —— 43 Tabla 5.1 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 5.1: Frecuencia y redundancia de algunos dipéptidos: casos extremos de desviación positiva y de desviación negativa. Proteı́nas naturales de UniProt. Tipo de análisis: cada proteı́na. 84 Como puede verse en la Tabla 5.2, los dipéptidos con una frecuencia relativa más alta contienen casi siempre ácido glutámico, lisina, ácido aspártico o metionina. Entre los que presentan una menor frecuencia relativa casi siempre contienen cisteı́na. Solo una acción selectiva podrı́a explicar esas fuertes desviaciones estadı́sticas de los dipéptidos, quizás no sobre los dipéptidos como tales dipéptidos sino como parte de micropéptidos de mayor tamaño. 85 El mismo análisis de dipéptidos realizado con las proteı́na aleatorias de RandomUniProt revela como deberı́an ser las cosas si las proteı́nas fueran el resultado final de una evolución puramente aleatoria de la información genética. Y lo que se observa en el caso aleatorio es que las valores de las frecuencias relativas de todos los dipéptidos son muy cercanos a la unidad, con variaciones que apenas afectan a la tercera cifra decimal. Tabla 5.2 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia MF WE EM QE NW TM 1,005744 1,005302 1,004948 1,004919 1,004914 1,004734 0,054058 0,054034 0,054015 0,108027 0,054013 0,108007 1,001072 0,999874 1,000695 1,000079 1,000741 1,000085 1,147573 1,142690 1,149892 1,296647 1,148695 1,284255 44 —— Redundancia de dipéptidos y tripéptidos Tabla 5.2 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia DM VW GW KQ FN MW KH EW AE MM CE QY EQ AM QQ WF MI WI HE EK MQ CK YV QH IK RW DT QW . . . 1,004521 1,004351 1,004118 1,003907 1,003760 1,003630 1,003459 1,003387 1,003331 1,003269 1,003129 1,003058 1,002936 1,002898 1,002892 1,002843 1,002765 1,002683 1,002648 1,002612 1,002602 1,002491 1,002368 1,002360 1,002353 1,002322 1,002288 1,002275 . . . 0,053992 0,107966 0,107941 0,107918 0,107902 0,026972 0,107870 0,053931 0,215712 0,026962 0,107834 0,107827 0,107814 0,107810 0,107809 0,053902 0,080846 0,080840 0,107783 0,107779 0,053889 0,107766 0,215505 0,107752 0,161626 0,161621 0,215488 0,053871 . . . 0,999965 1,000045 1,000353 1,000484 1,000285 0,998665 1,000268 0,999783 0,999763 1,000011 0,999663 0,999994 1,000222 1,000273 0,999829 0,999680 0,999676 0,999927 1,000188 0,999988 0,999771 1,000376 1,000612 1,000518 0,999635 1,000121 1,000134 0,999475 . . . 1,144928 1,285786 1,291740 1,287936 1,279471 1,076004 1,283719 1,144524 1,569275 1,088555 1,282108 1,283086 1,286258 1,292884 1,321487 1,142691 1,214865 1,221478 1,287224 1,290841 1,148138 1,292445 1,584770 1,284172 1,433603 1,431585 1,572333 1,144695 . . . Total Media D. tı́pica 400,047200 1,000118 0,001675 100,009800 0,250024 0,193217 399,989400 0,999974 0,000317 673,516100 1,683790 0,545697 Tabla 5.2: Frecuencia y redundancia de algunos dipéptidos (valores decrecientes de la frecuencia relativa en la primera columna). Proteı́nas aleatorias de RandomUniProt. Tipo de análisis: cada proteı́na. Frecuencia y redundancia relativas —— 45 86 La desviación tı́pica en el caso de la frecuencia relativa de las proteı́nas aleatorias es 0,001675, mientras que en el caso de las proteı́nas naturales es 0,719313. O dicho con otras palabras las variaciones de la frecuencia relativa en las proteı́nas naturales es 429 veces mayor que en las proteı́nas aleatorias. En el caso natural la diferencia entre la máxima y la mı́nima frecuencia relativa es 4,75, mientras que en el caso aleatoria es 0,013192, y por lo tanto 360 veces más pequeña. Ninguna fluctuación estadı́stica podrı́a dar cuenta de esas diferencias. Figura 5.2: Frecuencia relativa de los tripéptidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas aleatorias (recta horizontal Fr ≈ 1) de RandomUniProt. 87 En el caso de los tripéptidos, los valores máximos y mı́nimos de las frecuencia relativas divergen de forma aún más notable. La Figura 5.2 muestra las desviaciones negativas y positivas de la frecuencia relativa de los tripéptidos en las proteı́nas naturales comparada con 46 —— Redundancia de dipéptidos y tripéptidos la correspondientes desviaciones en el caso de los tripéptidos en proteı́nas aleatorias. La figura representa el caso de todos los organismos, y puede observarse una diferencia de 15,5 entre la máxima y la mı́nima frecuencia relativa. Considerando solo el grupo Eukaryota, esa diferencia llega a ser mayor de 25 (siempre con el método ’cada proteı́na’, con el método ’única proteı́na’ la diferencia es aún mayor: 30,6). En el caso de las proteı́nas aleatorias la misma diferencia es de 0.1343, 115 veces menor que en el caso de las proteı́nas naturales. Tabla 5.3 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEE KKK KEK MKK EEK KEE EKE DEE KKE EKK EEM EEI EKM MEK EDE EKI MAK KKI EED IEK KEI MKE MEE DDE KNK IEE NNN 14,615340 10,946620 10,393710 10,285960 10,266800 9,636394 9,466668 9,430338 9,224192 8,534490 8,280358 8,171175 7,988013 7,763685 7,702605 7,611315 7,309571 7,284275 7,274119 7,265225 7,211823 7,167647 7,133473 7,067442 7,047207 7,044464 7,009557 0,051512 0,038582 0,036633 0,018127 0,036186 0,033964 0,033366 0,033237 0,032511 0,030080 0,014592 0,043199 0,014077 0,013682 0,027148 0,040239 0,025763 0,038510 0,025638 0,038410 0,038127 0,012631 0,012571 0,024909 0,024838 0,037243 0,024705 15,786300 9,756468 10,298560 8,283152 9,895306 9,729084 9,806875 9,912922 8,642803 8,243908 8,796641 8,253733 7,988035 7,399895 8,178849 7,089778 5,097217 6,328614 8,267803 6,947336 7,062568 6,978848 7,337453 7,658209 6,046405 7,033034 11,812870 1,642166 1,440747 1,222616 1,043736 1,198264 1,211371 1,228366 1,203626 1,186903 1,186579 1,066980 1,163620 1,058130 1,045542 1,229019 1,141798 1,034368 1,161361 1,203524 1,144732 1,163296 1,045136 1,060502 1,180264 1,141568 1,137345 4,210569 Frecuencia y redundancia relativas —— 47 Tabla 5.3 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEA DKK AKK . . . TRC PCS CSW SWC CWS CRT CWP WRC PCW HSC RTC SPC RSC SCR CTW CRS WCS PRC CSR CWR WPR HRC CHW CRW PCR RCT SRC RCS RPC WPC 6,905039 6,883803 6,858969 . . . 0,179824 0,177827 0,177399 0,176785 0,176103 0,174996 0,173980 0,170199 0,168651 0,162396 0,162082 0,161484 0,159370 0,159237 0,158293 0,158013 0,157521 0,155948 0,152781 0,151493 0,150979 0,149872 0,149579 0,145125 0,139789 0,137534 0,132022 0,128060 0,126542 0,114442 0,048674 0,024262 0,048349 . . . 0,003803 0,003761 0,000938 0,000935 0,000931 0,003701 0,000613 0,000900 0,000594 0,001717 0,003428 0,003415 0,005055 0,005051 0,000558 0,005012 0,000833 0,003298 0,004846 0,000801 0,001596 0,001585 0,000264 0,000767 0,002956 0,002908 0,004188 0,004062 0,002676 0,000403 6,933412 6,158731 5,542596 . . . 0,139826 0,191279 0,189535 0,161047 0,182442 0,157471 0,167791 0,174535 0,183663 0,170349 0,150494 0,173140 0,136841 0,126105 0,190814 0,147810 0,159768 0,137035 0,139806 0,184186 0,165524 0,154651 0,160117 0,132093 0,130320 0,134651 0,120291 0,125272 0,120494 0,117035 1,189541 1,115957 1,144599 . . . 1,017989 1,054656 1,039541 1,013909 1,008355 1,022847 1,004175 1,021088 1,000000 1,024476 1,045859 1,083697 1,043446 1,029914 1,023386 1,031373 1,033083 1,043844 1,033821 1,014084 1,029656 1,025048 1,006579 1,008881 1,038934 1,019815 1,024426 1,030448 1,029558 1,012066 Total Media D. tı́pica 10044,7 1,255588 1,038732 99,999320 0,012500 0,011497 10100,52 1,262565 1,034213 8431,288 1,053911 0,062133 48 —— Redundancia de dipéptidos y tripéptidos Tabla 5.3 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 5.3: Frecuencia y redundancia de algunos tripéptidos: casos extremos de desviación positiva y de desviación negativa. Proteı́nas naturales de UniProt. Tipo de análisis: cada proteı́na. 88 La Tabla 5.3 muestra las 30 frecuencias relativas mayores y las 30 menores. Nótese que la desviación tı́pica es ahora 1,038732 mientras que para las proteı́nas aleatorias es de 0,009504. La desviación tı́pica es, por lo tanto, 109 veces mayor en las proteı́nas naturales que en las aleatorias. Una diferencia que también es imposible explicar en términos de fluctuaciones estadı́sticas. 89 Son también notables las diferencias entre grupos de organismos. Para Eukaryota los desviaciones positivas pueden llega a ser el doble que en Bacteria. Es lo que ilustra la Figura 5.3. En los próximos capı́tulos encontraremos diferencias similares en la redundancia interna de micropéptidos de mayor tamaño. Tabla 5.4 Tripéptido Frecuencia relativa Redundancia relativa NNN QQQ EWM DWM DWW 7,009557 6,840882 1,848240 1,836000 0,848893 11,812870 9,778619 2,397911 2,439074 1,239769 Tabla 5.4: Algunos tripéptidos muestran valores de redundancia relativa claramente superiores a los valores de frecuencia relativa. Frecuencia y redundancia relativas —— 49 Figura 5.3: Frecuencia relativa de los tripéptidos en las proteı́nas naturales de Bacteria y Eukaryota de las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas aleatorias (recta horizontal Fr ≈ 1) de RandomUniProt. 90 Aunque la frecuencia relativa y la redundancia relativa siguen estando claramente relacionas en el caso de los tripéptidos, podemos encontrar algunas diferencias significativas, como las que se ilustran en la Tabla 5.4, en las que los valores de la redundancia relativa son claramente superiores a los de la frecuencia relativa. Esta diferencia solo puede interpretarse en el sentido de que, al menos esos tripéptidos, se encuentran más bien repetidos en unas cuantas proteı́nas que no repetidos en muchas proteı́nas diferentes. Es decir, que presentan una elevada redundancia interna. 50 —— Redundancia de dipéptidos y tripéptidos 6.-Redundancia de tetrapéptidos Intorducción 91 Existen 160000 tetrapéptidos diferentes y 3200000 pentapéptidos distintos. La base de datos UniProt permite continuar haciendo análisis estadı́sticos de precisión con los primeros pero no ya con los segundos. Si en lugar de UniProt se utiliza alguna de sus partes (la correspondiente a algún tipo de organismos), la precisión también disminuye en el caso de los tetrapéptidos. 92 En consecuencia los tetrapéptidos se analizarán con los mismos métodos que los dipéptidos y tripéptidos, aunque no se analizarán todos ellos sino solo los definidos a partir de los tripéptidos de mayor frecuencia relativa. De pentapéptidos a decapéptidos se analizarán con otros métodos en el próximo capı́tulo, métodos que en realidad se aplicarán a micropéptidos de tres a diez residuos y con los que solo se explora la redundancia interna, el promedio de repeticiones de micropéptidos en cada proteı́na. 93 Como era de esperar teniendo en cuenta los precedentes, los valores encontrados de frecuencia relativa y de redundancia relativa de los tetrapéptidos examinados en UniProt son muy superiores a los examinados en RandomUniProt (proteı́nas aleatorias). También lo son con respecto a los valores deducidos de los cálculos teóricos. 51 52 —— Redundancia de tetrapéptidos Métodos de estudio 94 Los métodos de estudio aplicados a los tetrapéptidos son los mismos que los que se aplicaron a los aminoácidos, dipéptidos y tripéptidos, tanto en el análisis de la frecuencia como en el de la redundancia. La única diferencia es que esos métodos solo se aplican a una pequeña parte de los tetrapéptidos: a los aproximadamente 1600 definidos a partir de los 30 tripéptidos de mayor frecuencia relativa en cada grupo examinado. 95 En cada grupo de organismos (en este caso Archaea, Bacteria, y Eukaryota) se procede de la siguiente manera para definir el grupo de tetrapéptidos que serán examinados: 1.- En cada grupo de organismos se eligen los 30 tripéptidos de mayor frecuencia relativa. 2.- Se define un primer grupo de tetrapéptidos añadiendo a cada uno de los 30 tripéptidos una primera letra correspondiente a cada uno de los 20 aminoácidos proteinogénicos. 3.- Se define un segundo grupo de tetrapéptidos añadiendo a cada uno de los 30 tripéptidos una última letra correspondiente a cada uno de los 20 aminoácidos proteinogénicos. 4.- se eliminan los tetrapéptidos que resulten repetidos. Frecuencia y redundancia de tetrapéptidos 96 El procedimiento indicado en 95 permite definir cerca de 1600 tetrapéptidos, todos ellos conteniendo tripéptidos de elevada frecuencia relativa. A estos tetrapéptidos se les aplican los mismos métodos de análisis que a los tripéptidos, dipéptidos y aminoácidos. Un resumen de los resultados puede verse en las tres siguientes tablas, en la Figura 6.1, y con más detalle en las tablas del Capı́tulo 14. Frecuencia y redundancia de tetrapéptidos —— 53 Tabla 6.1 Archaea Tetrapéptido EEEE EEIK EEIE EKIK KIEE KKEE EEKK EIEK EEKE EIKE EEMK KIKE KMKK EKIE EEEI MKEK KEEI EIKK KEEE EKKE Frecuencia relativa Frecuencia Redundancia relativa Redundancia 80,695840 59,170990 58,517460 57,889350 56,283290 53,835170 53,020360 52,856990 52,700420 51,216510 48,689380 48,652030 48,029090 45,648720 44,953850 44,826040 44,203440 43,902710 42,703200 42,701400 0,009325 0,010257 0,010143 0,010034 0,009756 0,006221 0,006127 0,009162 0,006090 0,008878 0,002813 0,008433 0,002775 0,007913 0,007792 0,002590 0,007662 0,007610 0,004935 0,004934 81,866110 58,827290 54,241890 55,248440 53,347180 51,334080 47,643390 50,998560 45,462530 44,959260 50,327530 50,103850 28,183420 42,834320 44,735580 30,196520 45,071090 44,176380 41,939610 42,275120 1,820896 1,037475 1,027542 1,040000 1,017058 1,104693 1,126984 1,034014 1,066929 1,025510 1,000000 1,032258 1,012048 1,046448 1,036269 1,000000 1,022843 1,036745 1,063830 1,130045 Tabla 6.1: Frecuencia y redundancia de algunos tetrapéptidos en Archaea. Tabla 6.2 Bacteria Tetrapéptido MAKK MKKI EKIK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 45,546220 27,501450 26,436440 0,005263 0,002384 0,004582 20,420760 20,358470 20,904210 1,000436 1,005272 1,021745 54 —— Redundancia de tetrapéptidos Tabla 6.2 Bacteria Tetrapéptido EMKK MAKE KEKE EEIK EEEK KAKE KNKK EKME EEEF EKAK EIEK EEEE EEME EEIE MKKF KKEK KEIE Frecuencia relativa Frecuencia Redundancia relativa Redundancia 26,100510 26,036300 25,466960 25,158920 24,427520 23,242470 23,186240 22,992840 22,849370 22,141650 22,038250 21,654460 21,597010 21,591860 21,508030 21,325530 21,254640 0,001508 0,003009 0,002943 0,004361 0,002823 0,005372 0,002679 0,001329 0,002640 0,005117 0,003820 0,002502 0,001248 0,003743 0,001243 0,002464 0,003684 23,045650 17,270890 22,271530 25,560800 20,447450 17,297580 16,674730 16,176450 15,518000 21,457370 23,164290 19,504270 19,237330 23,650710 11,069030 17,386560 24,172720 1,003098 1,007788 1,043787 1,038563 1,017264 1,025587 1,034787 1,002205 1,006928 1,026170 1,024128 1,209713 1,000926 1,012957 1,001610 1,017708 1,030602 Tabla 6.2: Frecuencia y redundancia de algunos tetrapéptidos en Bacteria. Tabla 6.3 Eukaryota Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia NNNN QQQQ EEEE KKKK DDDD DEEE EEED EDEE EEDE 378,971300 262,160100 218,708300 103,638000 86,703650 68,253950 66,565060 63,441480 61,428340 0,043793 0,030295 0,025274 0,011976 0,010019 0,007887 0,007692 0,007331 0,007099 654,916900 415,204500 247,251600 100,003400 108,330300 75,585260 73,431200 72,932870 66,518890 15,230280 7,680345 2,468068 1,759333 2,265972 1,179925 1,167391 1,213102 1,197685 Frecuencia y redundancia de tetrapéptidos —— 55 Tabla 6.3 Eukaryota Tetrapéptido EEEK DEDE EEKE KEEE EDED KKEE EKEE KEKK DDDE DDEE KKEK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 59,169350 49,802450 49,366130 47,607970 47,312620 45,789390 44,818590 44,443180 43,552050 43,231280 43,053330 0,006838 0,005755 0,005705 0,005501 0,005467 0,005291 0,005179 0,005136 0,005033 0,004996 0,004975 60,313890 55,973610 46,296380 53,256910 54,526840 40,846900 47,148350 48,804100 49,688230 51,504720 44,753160 1,132850 1,272661 1,114983 1,121910 1,268986 1,099048 1,120321 1,247842 1,156811 1,131756 1,288292 Tabla 6.3: Frecuencia y redundancia de algunos tetrapéptidos en Eukaryota. 97 Nótense los elevadı́simos valores de frecuencia relativa y redundancia de los tetrapéptidos NNNN, QQQQ y EEEE en el grupo Eukaryota. Nótese también que los cinco tetrapéptidos de mayor frecuencia y redundancia relativa están formados por un solo aminoácido: NNNN, QQQQ, EEEE, KKKK, DDDD. Finalmente, es también destacable el hecho de que los 20 (en realidad 33) tetrapéptidos de mayor frecuencia relativa en Eukaryota estén formados por solo cinco aminoácidos: ácido aspártico (D), ácido glutámico (E), lisina (K), asparagina (N) y glutamina (Q). En el capı́tulo sobre conclusiones ampliaremos este y otros aspectos de los resultados obtenidos en nuestra exploración de la redundancia en el proteoma de los diferentes grupos analizados. 98 En el caso humano, tabla siguiente y figura 8.3, entre los veinte primeros tetrapéptidos no aparece el tetrapéptido monoaminoacı́dico NNNN cuya frecuencia relativa en Eukaryota es casi 379 veces mayor 56 —— Redundancia de tetrapéptidos Figura 6.1: Variación de la frecuencia relativa de los 60 tetrapéptidos más abundantes en Archaea, Bacteria, Eukaryota de la base UniProt, y en las proteı́nas aleatorias de RandomUniProt que la esperada en términos teóricos. Tampoco aparece DDDD. Tabla 6.4 Homo sapiens Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEEE QQQQ MYFF EKPY KKKK EEED PMYF EDEE DEEE EEDE EEEK EQEE 342,802800 229,014200 146,035400 97,154180 88,685210 87,512120 83,862900 81,391410 78,735760 73,977540 61,984830 61,396140 0,039614 0,026464 0,008438 0,022454 0,010248 0,010113 0,009691 0,009405 0,009099 0,008549 0,007163 0,007095 345,909100 134,690300 119,384600 139,894200 82,038640 88,773160 68,263490 77,753030 75,916350 68,569600 67,039030 87,854800 2,658823 4,036697 1,059783 5,345029 1,740260 1,203320 1,000000 1,198113 1,153488 1,230769 1,123077 2,432203 Frecuencia y redundancia de tetrapéptidos —— 57 Tabla 6.4 Homo sapiens Tetrapéptido GEKP TGEK EDED KEEE EKEE EEKE EEME EEMK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 58,524450 57,319090 55,945420 52,435020 48,919960 45,166960 44,960410 43,753000 0,027052 0,026495 0,006465 0,006059 0,005653 0,005219 0,002598 0,002528 81,273350 79,360130 55,712800 55,406680 52,039430 50,508860 37,345940 48,978290 5,009434 4,650224 1,246575 1,110429 1,111111 1,100000 1,016667 1,066667 Tabla 6.4: Frecuencia y redundancia de algunos tetrapéptidos en Homo sapiens. Figura 6.2: Variación de la frecuencia relativa de los 60 tetrapéptidos más abundantes en Archaea, Bacteria, Homo sapiens de la base UniProt, y en las proteı́nas aleatorias de RandomUniProt 58 —— Redundancia de tetrapéptidos 7.-Redundancia interna de micropéptidos Introducción 99 El objetivo original de la primera versión de este trabajo (años 1980s) era el análisis de la repetición de microsecuencias (de 3 a 10 residuos) en las secuencias de aminoácidos de las proteı́nas. Ese será también el objetivo de este capı́tulo. 100 Naturalmente, la frecuencia y la redundancia de los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos analizadas en los capı́tulos anteriores es también una consecuencia inmediata de la redundancia de micropéptidos de mayor tamaño que analizamos aquı́. Tendremos ocasión de comprobar que también existe redundancia interna en las propias cadenas redundantes de mayor tamaño. 101 La redundancia analizada en la primera parte del capı́tulo es exclusivamente redundancia interna: repeticiones de microsecuencias de aminoácidos en cada proteı́na. En la segunda parte se examinan algunos casos de redundancia externa: repetición de microsecuencias (de tamaño relativamente grande) en proteı́nas distintas. 102 Como veremos, los resultados numéricos son conclusivos y, como en los casos anteriores, no pueden ser explicados en términos de puras consideraciones estadı́sticas. Las desviaciones respecto a los valores teóricos esperados son ahora tan grandes que su representación gráfica 59 60 —— Redundancia interna de micropéptidos requiere el uso de escalas logarı́tmicas. Es también destacable el hecho de que cada uno de los cuatro grandes grupos de organismos analizados (Virus, Archaea, Bacteria y Eukaryota) presentan valores propios de redundancia, siendo la de los eucariotas notablemente superior a la de los otros grupos. Métodos de estudio 103 El recuento de repeticiones de micropéptidos en el interior de las proteı́nas naturales (UniProt) y aleatorias (RandomUniProt) se ha realizado de un modo parecido al llevado a cabo con aminoácidos, dipéptidos, tripéptidos y tetrapéptidos: dada una longitud L (número de residuos), y a partir del primer residuo, se definen todos los micropéptidos de longitud L, y para micropéptido definido se cuenta el número de veces que aparece repetido en el resto de la proteı́na. Por ejemplo, en MKIKHYPPEEKKKTRAVAPEDEAAIKHEWCSAAHPPEEKKK... Se considerarı́an los sucesivos micropéptidos de longitud 6: MKIKHY KIKHYP IKHYPP KHYPPE ... y se buscarı́an sus repeticiones en el resto de la secuencia de aminoácidos y a partir de la posición siguiente al último residuo del micropéptido considerado. 104 Las repeticiones anteriores serán denominadas repeticiones directas porque se busca la repetición de cada micropéptido manteniendo el Métodos de estudio —— 61 orden de su microsecuencia de residuos. Además de ellas, también se cuentan las repeticiones inversas en las que el orden de los residuos de la microsecuencia aparece invertido. En el ejemplo anterior las microsecuencias inversas serı́an YHKIKM, PYHKIK, etc. 105 Las siguientes lı́neas de código ejemplifican el recuento de repeticiones directas de micropéptidos de longitud RepLength en una proteı́na cuya secuencia de aminoácidos está en la variable Sequence. numDirectRep = 0; for (i = 1; i ¡= Sequence.Length - 2 * RepLength + 1; i++) { subString = Strings.Mid(Sequence, i, RepLength); p = Sequence.IndexOf(subString, i + RepLength); while (p ¿-1) { numDirectRep += 1; p = Sequence.IndexOf(subString, p + 1); }} 106 El recuento de repeticiones inversas serı́a similar, invirtiendo previamente la secuencia del micropéptido, lo que se consigue en una simple instrucción del tipo: subString = StrReverse(Strings.Mid(Sequence, i, RepLength)); donde subString es la secuencia que se ha de invertir. 107 Como en los casos anteriores de aminoácidos, dipéptidos, tripéptidos y tetrapéptidos, el estudio se ha completado realizando los mismos recuentos en las proteı́nas aleatorias de la base de datos RandomUniProt y utilizándolos como contrapunto estadı́stico de los datos encontrados en las proteı́nas naturales de UniProt. 108 Puesto que existen 160000 tetrapéptidos distintos, 3200000 pentapéptidos distintos etc., y cada uno de ellos tiene una probabilidad diferente, los cálculos teóricos han de usar matrices de probabilidades 62 —— Redundancia interna de micropéptidos excesivamente grandes. Los resultados pueden, por otra parte, aproximarse bastante bien haciendo uso de ciertos factores (F) calculados de forma experimental. La simplificación de suponer que todos los aminoácidos tienen la misma probabilidad (1/20) produce un número de repeticiones que siempre es F veces menor que cuando se tienen en cuenta las distintas probabilidades de los diferentes aminoácidos. 109 El número de repeticiones teóricas de micropéptidos de longitud 8, o mayor, es prácticamente cero incluso en las proteı́nas de mayor tamaño de UniProt (13100 residuos). Para micropéptidos de menor tamaño puede usarse la simplificación de la igualdad de probabilidades de los aminoácidos, utilizando los factores de ajuste F encontrados de forma experimental: a) Micropéptidos de 3 residuos: 2. b) Micropéptidos de 4 residuos: 2,49. c) Micropéptidos de 5 residuos: 3,19. d) Micropéptidos de 6 residuos: 3,87. e) Micropéptidos de 7 residuos: 2,81. Análisis de la redundancia 110 Naturalmente la probabilidad de que un micropéptido se repita en la secuencia de aminoácidos de una proteı́na disminuye con el tamaño del micropéptido: es unas veinte veces menos probable con cada aminoácido que se añada al micropéptido. La probabilidad P(4) de que se repita un micropéptido de 4 residuos es aproximadamente: P (4) ≈ 1 204 (1) de modo que el número medio de repeticiones esperadas en una proteı́na de, por ejemplo, 500 residuos es de: Análisis de la redundancia —— 63 500 ≈ 0, 003125 204 (2) En el caso de un micropéptido de 10 residuos ese número es aproximadamente 0,00000000004883. 111 Como en los casos anteriores, nos interesa más la redundancia relativa, que en este caso será el cociente entre el número de repeticiones encontrado en UniProt y el número de repeticiones encontrado en su versión aleatoria RandomUniProt. Debido a que las proteı́nas naturales son realmente muy redundantes y a que las probabilidades de redundancia disminuyen por un factor de 20 por cada residuo que se añade al micropéptido, la redundancia relativa crece de manera exponencial con el número de residuos del micropéptido. Por esa razón, la representación gráfica de los valores reales de redundancia relativa requiere el uso de escalas logarı́tmicas. 112 La Tabla 7.1 resume los resultados de la redundancia interna de micropéptidos de 3 a 10 residuos en las proteı́nas naturales de UniProt y en las proteı́nas aleatorias de RandomUniProt. Los mismos datos se reflejan en la parte izquierda de la Figura 7.1. Tabla 7.1 Virus Archaea Bacteria Eukaryota Todos 3-Dir-Nat. 3-Dir-Ale. 3-Inv-Nat 3-Inv-Ale. 987062 677940 773767 678923 411484 270521 374867 271161 9572464 5589932 8811915 5586247 14286644 4857319 12079711 4858262 25257654 11395712 22040260 11394593 4-Dir-Nat. 4-Dir-Ale. 4-Inv-Nat 4-Inv-Ale. 238051 42073 93913 42781 46008 16715 29526 16964 1982414 348978 1520368 349787 5686269 302415 3944074 305257 7952742 710181 5587881 714789 5-Dir-Nat. 5-Dir-Ale. 140583 2618 11528 1102 1188393 22286 3871879 19329 5212383 45335 64 —— Redundancia interna de micropéptidos Tabla 7.1 Virus Archaea Bacteria Eukaryota Todos 5-Inv-Nat 5-Inv-Ale. 35180 2679 2785 1050 819782 21716 2462765 19068 3320512 44513 6-Dir-Nat. 6-Dir-Ale. 6-Inv-Nat 6-Inv-Ale. 101511 160 24144 156 5204 61 318 60 913779 1338 583588 1441 2948423 1182 1752450 1216 3968917 2741 2360500 2873 7-Dir-Nat. 7-Dir-Ale. 7-Inv-Nat 7-Inv-Ale. 84190 7 19406 5 3029 1 54 5 807719 48 485662 94 2434096 43 1392285 59 3329034 99 1897407 163 8-Dir-Nat. 8-Dir-Ale. 8-Inv-Nat 8-Inv-Ale. 72254 0 16048 0 2273 0 14 0 712582 0 395949 8 2050243 0 1131792 1 2837352 0 1543803 9 9-Dir-Nat. 9-Dir-Ale. 9-Inv-Nat 9-Inv-Ale. 63561 0 14004 0 1885 0 3 0 651284 0 358420 0 1776167 0 944951 0 2492897 0 1317378 0 10-Dir-Nat. 10-Dir-Ale. 10-Inv-Nat 10-Inv-Ale. 57468 0 12279 0 1598 0 0 0 591135 0 323387 0 1564661 0 805750 0 2214862 0 1141416 0 Tabla 7.1: Repeticiones directas (Dir) e inversas Inv) de micropéptidos 3 a 10 residuos en las proteı́nas naturales (Nat) de UniProt y en las proteı́nas aleatorias (Ale) de RandomUniProt. 113 De la tabla 7.1 conviene destacar los siguientes aspectos: a) Los valores de redundancia interna en las proteı́nas naturales son siempre muy superiores a los mismos valores en las proteı́nas aleatorias. b) Las diferencias entre los valores de redundancia interna en las proteı́nas naturales y las proteı́nas aleatorias son imposibles Análisis de la redundancia —— 65 de explicar en términos puramente estadı́sticos. c) En las proteı́nas naturales el número de repeticiones directas es siempre muy superior al número de repeticiones inversas. Ambos valores muy lejos de lo que se podrı́a esperar desde el punto de vista estadı́stico. d) En las proteı́nas aleatorias las repeticiones directas y las inversas presentan valores muy parecidos, dentro del rango de lo que cabrı́a esperar en términos estadı́sticos. e) La redundancia interna es siempre mayor en Eukaryota que en Bacteria, y mayor en Bacteria que en Archaea. Las diferencias aumentan con el tamaño de los micropéptidos repetidos. Figura 7.1: Izquierda: Representación en escala logarı́tmica de la proporción entre la redundancia interna de micropéptidos en las proteı́nas naturales de UniProt y en las proteı́nas aleatorias de RandomUniProt. Derecha: Ídem entre las proteı́nas naturales de UniProt y las expectativas teóricas calculadas usando la equiprobabilidad de los aminoácidos y los factores de corrección F . Como puede verse ambas gráficas son casi indistinguibles. 66 —— Redundancia interna de micropéptidos 114 Otra forma de presentar la redundancia interna de micropéptidos es comparando los valores encontrados con las previsiones teóricas. Aunque en este caso, y debido a la diferente probabilidad de los aminoácidos y al tamaño de los micropéptidos mayores, aparecen problemas que requieren el uso de aproximaciones. Como se ha indicado en 109, la simplificación de considerar la equiprobabilidad de todos los aminoácidos y el uso de los factores de ajuste F da unos resultados suficientemente precisos. Son los que aparecen en la Tabla 7.2 y en la parte derecha de la figura 7.1. Tabla 7.2 Virus Archaea Bacteria Eukaryota Todos 3-Dir 3-Inv 3-Teo. 987062 773767 677594 411484 374867 271600,7 9572464 8811915 5620445,5 14286644 12079711 4863657,5 25257654 22040260 11433297,7 4-Dir. 4-Inv. 4-Teo. 238051 93913 42087 46008 29526 16827,5 1982414 1520368 348341,9 5686269 3944074 301918,2 7952742 5587881 709174,5 5-Dir. 5-Inv. 5-Teo. 140583 35180 2690,1 11528 2785 1072,8 1188393 819782 22213,2 3871879 2462765 19285 5212383 3320512 45261 6-Dir. 6-Inv. 6-Teo. 101511 24144 162,8 5204 318 64,7 913779 583588 1341,7 2948423 1752450 1166,6 3968917 2360500 2735,8 7-Dir. 7-Inv. 7-Teo. 84190 19406 5,9 3029 54 2,3 807719 485662 48,5 2434096 1392285 42,2 3329034 1897407 99 Tabla 7.2: Repeticiones directas (Dir.) e inversas (Inv.) de micropéptidos 3 a 7 residuos en las proteı́nas de UniProt comparadas con las repeticiones teóricas (Teo.) calculadas asumiendo la equiprobabilidad de los aminoácidos y usando los factores de ajuste F. 115 Los logaritmos decimales de las redundancias internas (redundan- Micropéptidos de un solo aminoácido —— 67 cias reales divididas por las redundancias teóricas calculadas haciendo uso de la equiprobabilidad de los aminoácidos y de los factores de ajuste F ) directas e inversas en los grandes grupos celulares, aparecen en las tablas 7.3 y 7.4. Tabla 7.3 Todos Virus Archaea Bacteria Eukaryota 3 4 5 6 7 0,65 0,46 0,48 0,53 0,77 1,45 1,15 0,83 1,15 1,67 2,57 2,22 1,54 2,23 2,81 3,75 3,38 2,49 3,42 3,99 4,98 4,60 3,56 4,67 5,21 Tabla 7.3: Logaritmo decimal de la redundancia relativa de micropéptidos (secuencias directas) en las proteı́nas naturales de UniProt. Tabla 7.4 Todos Virus Archaea Bacteria Eukaryota 3 4 5 6 7 0,59 0,36 0,44 0,50 0,70 1,29 0,74 0,64 1,04 1,51 2,37 1,62 0,92 2,07 2,61 3,52 2,76 1,28 3,23 3,76 4,73 3,97 1,81 4,45 4,97 Tabla 7.4: Logaritmo decimal de la redundancia relativa de micropéptidos (secuencias inversas) en las proteı́nas naturales de UniProt. Micropéptidos de un solo aminoácido 116 Las frecuencias relativas de micropéptidos formados por un solo aminoácido se desvı́an de forma muy significativa de las expectativas teóricas. La Tabla 7.5 muestra los resultados de los veinte pentapéptidos 68 —— Redundancia interna de micropéptidos monoaminoacı́dicos, y la Tabla 7.6 los correspondientes a los veinte decapéptidos monoaminoacı́dicos. Tabla 7.5 Pentapéptido AAAAA SSSSS QQQQQ EEEEE NNNNN GGGGG PPPPP DDDDD TTTTT KKKKK LLLLL RRRRR HHHHH VVVVV IIIII FFFFF CCCCC YYYYY MMMMM WWWWW Frecuencia absoluta Frecuencia teórica Proteı́nas diferentes 1443059 1364870 1067719 1058630 1015240 865387 809679 613174 602979 600271 425717 189073 159160 60473 30835 13291 11956 5963 3631 0 198,39484962 1506,56145990 6,19983905 6,19983905 6,19983905 198,39484962 198,39484962 6,19983905 198,39484962 6,19983905 1506,56145990 1506,56145990 6,19983905 198,39484962 47,08004562 6,19983905 6,19983905 6,19983905 0,19374497 0,19374497 5554 3775 2342 2957 1894 2725 2127 1489 1529 1405 2759 957 524 262 108 74 48 35 20 0 Tabla 7.5: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte pentapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos). Tabla 7.6 Decapéptido NNNNNNNNNN QQQQQQQQQQ SSSSSSSSSS Frecuencia absoluta Frecuencia teórica Proteı́nas diferentes 525046 362794 154135 0,00000023 0,00000023 0,01387056 836 693 323 Micropéptidos de un solo aminoácido —— 69 Tabla 7.6 Decapéptido TTTTTTTTTT EEEEEEEEEE PPPPPPPPPP AAAAAAAAAA DDDDDDDDDD GGGGGGGGGG HHHHHHHHHH KKKKKKKKKK LLLLLLLLLL RRRRRRRRRR IIIIIIIIII FFFFFFFFFF YYYYYYYYYY VVVVVVVVVV CCCCCCCCCC WWWWWWWWWW MMMMMMMMMM Frecuencia absoluta Frecuencia teórica Proteı́nas diferentes 128622 100860 78576 70676 48169 44575 18808 4573 2431 922 341 166 24 0 0 0 0 0,00024054 0,00000023 0,00024054 0,00024054 0,00000023 0,00024054 0,00000023 0,00000023 0,01387056 0,01387056 0,00001355 0,00000023 0,00000023 0,00024054 0,00000023 0,00000000 0,00000000 234 263 155 232 100 188 64 12 21 7 1 4 1 0 0 0 0 Tabla 7.6: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte decapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos). Tabla 7.7 Pentadecapéptido NNNNNNNNNNNNNNN QQQQQQQQQQQQQQQ SSSSSSSSSSSSSSS EEEEEEEEEEEEEEE TTTTTTTTTTTTTTT DDDDDDDDDDDDDDD PPPPPPPPPPPPPPP GGGGGGGGGGGGGGG AAAAAAAAAAAAAAA HHHHHHHHHHHHHHH LLLLLLLLLLLLLLL Frecuencia absoluta Frecuencia teórica Proteı́nas diferentes 392063 198525 47405 33870 22351 17788 8778 7632 7136 396 98 0,0000000000000089 0,0000000000000089 0,0000001277029981 0,0000000000000089 0,0000000002916297 0,0000000000000089 0,0000000002916297 0,0000000002916297 0,0000000002916297 0,0000000000000089 0,0000001277029981 604 349 90 60 34 23 20 34 35 2 2 70 —— Redundancia interna de micropéptidos Tabla 7.7 Pentadecapéptido RRRRRRRRRRRRRRR VVVVVVVVVVVVVVV IIIIIIIIIIIIIII YYYYYYYYYYYYYYY KKKKKKKKKKKKKKK FFFFFFFFFFFFFFF CCCCCCCCCCCCCCC WWWWWWWWWWWWWWW MMMMMMMMMMMMMMM Frecuencia absoluta Frecuencia teórica Proteı́nas diferentes 0 0 0 0 0 0 0 0 0 0,0000001277029981 0,0000000002916297 0,0000000000038972 0,0000000000000089 0,0000000000000089 0,0000000000000089 0,0000000000000089 0,0000000000000000 0,0000000000000000 0 0 0 0 0 0 0 0 0 Tabla 7.7: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte pentadecapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos). Otras redundancias 117 Alguna proteı́nas de RandomUniProt presenta una elevadı́sima redundancia interna, estando casi completamente formadas por varias decenas de repeticiones sucesivas de secuencias de 8 o más residuos. A su vez las secuencias repetidas presentan también un elevado ı́ndice de redundancia de dipéptidos y tripéptidos. Terminamos el capı́tulo exponiendo algunos ejemplos de proteı́nas muy redundantes. Nombre: Polyubiquitin-C Organismo: Pan troglodytes Formada por 10 repeticiones sucesivas de la secuencia de 76 residuos: MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIF AGKQLEDGRTLSDYNIQKESTLHLVLRLRGG que, a su vez, contiene repetidos los dipéptidos TL (4 veces), GK, IF, IQ, KE, KT, LE, LR, RL, SD, TI, VK. Otras redundancias —— 71 Nombre: Apolipoprotein(a) Organismo: Homo sapiens Contiene 29 repeticiones sucesivas de la secuencia de 114 residuos: YPNAGLIMNYCRNPDAVAAPYCYTRDPGVRWEYCNLTQCSDAE GTAVAPPTVTPVPSLEAPSEQAPTEQRPGVQECYHGNGQSYRG TYSTTVTGRTCQAWSSMTPHSHSRTPEY que, a su vez contiene repetidos los tripéptidos AVA, PGV, TVT, y los dipéptidos AP (4 veces) AV, CY, DA, EQ, E,Y, GT, GV, HS, PG, PS, PT, QA, RT, TP (3 veces), TV, VA, VT, YC (3 veces). Nombre: Mucin-2 Organismo: Homo sapiens Contiene 20 repeticiones sucesivas de la secuencia de 115 residuos: PTTTPITTTTTVTPTPTPTGTQTPTTTPITTTTTVTPTPTPTG TQTPTTTPITTTTTVTPTPTPTGTQTPTTTPITTTTTVTPTPT PTGTQTPTTTPITTTTTVTPTPTPTGTQT que a su vez contiene 4 repeticiones de la secuencia de 23 residuos: PITTTTTVTPTPTPTGTQTPTTT. Nombre: S-antigen protein Organismo: Plasmodium falciparum Contiene 72 repeticiones sucesivas de la secuencia de 18 residuos: GPNSDGDK. Nombre: Uncharacterized protein LF3 Organismo: Epstein-Barr virus 24 repeticiones sucesivas de la cadena de 34 residuos: 72 —— Redundancia interna de micropéptidos PRRSGAADPADPVGHPAAPRAPGPEPRTRLQPAT que, a su vez, contiene repetido el tripéptido ADP y los dipéptidos AA, AD, AP, DP, PA (3 veces), PR (3 veces). Nombre: Uncharacterized protein DDB G0271670 Organismo: Dictyostelium discoideum Contiene la secuencia de 306 residuos: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS. Nombre: Platelet binding protein GspB Organismo: Streptococcus gordonii 137 repeticiones sucesivas de la cadena de 12 residuos: SASTSASVSASE Que a su vez contiene tres repeticiones de SAS. Nombre: Polysialoglycoprotein Organismo: Oncorhynchus mykiss 34 repeticiones sucesivas de la secuencia de 13 residuos: ATSEAATGPSGDD que, a su vez contiene repetido el dipéptido AT. 8.-Redundancia en el proteoma humano Introducción 118 La frecuencia y la redundancia de aminoácidos, dipéptidos, tripéptidos, tetrapéptidos y micropéptidos analizada en los capı́tulos anteriores para el caso de todos los organismos, se analizan en este capı́tulo para el caso de nuestra propia especie (ya incluida en el gran grupo Eukaryota en los análisis previos). La exclusividad de este análisis de la redundancia en el proteoma humano se justifica por su elevado valor, muy superior al valor medio encontrado en el resto de los organismos. 119 Aunque el origen de los mamı́feros se remonta al Carbonı́fero (a través de sus ancestros sinápsidos), es a partir del lı́mite KT (CretácicoTerciario) cuando sufren un proceso de diversificación y expansión sin precedentes en su historia evolutiva, uno de los más importantes de la historia reciente de la Biosfera. Algo mas moderna es la historia del Orden Primates de la Clase Mamı́feros, al que pertenece el género Homo. Los primates son uno de los grupos más complejos de seres vivos, al menos desde el punto de vista de su constitución nerviosa y su comportamiento individual y social. Y seguramente Homo sapiens es, en ese mismo sentido, el animal más complejo de la Biosfera. 120 Los primates, por otra parte, presentan algunas peculiaridades genéticas y epigenéticas entre las que destaca la presencia de una gran cantidad de material genético no codificador (de proteı́nas) tanto en el 73 74 —— Redundancia en el proteoma humano interior de los genes codificadores de proteı́nas1 como en largas zonas no codificadoras (junk-DNA). Una caracterı́stica de este material genético no codificador de proteı́nas es su elevadı́sima tasa de redundancia. Nos ocuparemos de ella en el capı́tulo dedicado a epigenética y junk-DNa y en el capı́tulo sobre conclusiones finales. Por ahora nos limitaremos a estudiar la redundancia en el proteoma humano. Frecuencia y redundancia de aminoácidos 121 La base de datos UniProt contiene 7385 proteı́nas humanas con un total de 2849090 residuos de aminoácidos. Naturalmente, lo mismo vale para RandomUniProt. La desviación tı́pica en la frecuencia de aminoácidos en la última base mencionada es de 0.003494, lo que indica que el tamaño de esa base es suficiente para sacar conclusiones estadı́sticas significativas. 122 Sólo tres aminoácidos muestran diferencias significativas en el proteoma humano y en el proteoma del resto de los organismos. Son la cisteı́na, el ácido aspártico y la isoleucina. Las diferencias en sus respectivas frecuencias son las siguientes: Cisteı́na Isoleucia A. aspártico H. sapiens Resto Diferencia 0,885732 0,882164 1,287512 0,425678 1,262937 1,621299 0,460054 0,380773 0,333787 Tabla 8.1: Aminoácidos de especial frecuencia en el proteoma humano 123 La desviación tı́pica de las frecuencias de los aminoácidos proteinogénicos en el proteoma humano de UniProt es 0,325395, ligeramente 1 Las zonas codificadoras de los genes se conocen como exones; las no codificadores como intrones. Frecuencia y redundancia de aminoácidos —— 75 inferior a la correspondiente al caso de todos los organismos, que es 0,444621. En ambos casos muy superior a las correspondientes versiones aleatorias de RandomUniprot: 0,003494 y 0,000396 respectivamente. En el caso del proteoma humano de UniProt, la desviación tı́pica en las frecuencias de los aminoácidos es 93 veces mayor que la desviación tı́pica correspondiente a su versión aleatoria. 124 La Tabla 8.2 recoge los valores de frecuencia relativa, frecuencia absoluta, redundancia relativa y redundancia absoluta de los aminoácidos en las 7385 proteı́nas de Homo sapiens de UniProt. Los datos aparecen ordenados por el valor decreciente de la primera columna (frecuencia relativa, es decir la frecuencia encontrada dividida por la frecuencia esperada en términos probabilı́sticos). Tabla 8.2 Aminoácido Ácido glutámico Lisina Metionina Glutamina Ácido aspártico Fenilalanina Alanina Glicina Leucina Asparagina Prolina Valina Cisteı́na Isoleucina Tirosina Trptófano Serina Treonina Histidina Arginina Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,913201 1,679810 1,441490 1,358908 1,287512 1,201866 1,123918 1,052552 1,035577 1,006603 0,961937 0,916895 0,885732 0,882164 0,872867 0,852166 0,808753 0,792402 0,787095 0,602555 6,272790 5,507574 2,363098 4,455435 4,221349 3,940544 7,369956 6,901978 10,186010 3,300339 6,307781 6,012427 2,904038 4,338513 2,861860 1,396994 7,954945 5,196076 2,580638 5,926768 2,005143 1,657942 1,332880 1,392336 1,355339 1,185052 1,105636 1,043642 1,029135 1,056590 0,957294 0,914088 0,802385 0,885660 0,858480 0,816591 0,817757 0,808615 0,824191 0,586672 25,581260 21,209670 8,459574 17,753480 17,434040 15,304710 28,115010 26,502510 39,308030 13,702490 24,339550 23,253680 10,627110 17,128780 11,286840 5,757850 31,069280 20,578940 10,906640 22,398910 76 —— Redundancia en el proteoma humano Total Media D. tı́pica 21,464000 1,073200 0,325395 99,999110 4,999956 2,182170 21,435430 1,071771 0,337882 390,718400 19,535920 8,370809 Tabla 8.2: Frecuencia y redundancia de los aminoácidos en las proteı́nas humanas de UniProt. 125 Ácido glutámico, lisina, metionina y glutamina son los aminoácidos que presentan una mayor frecuencia relativa en las proteı́nas humanas de UniProt, aunque el que presenta una mayor frecuencia absoluta es la Leucina, lo mismo que ocurre en el resto de los grupos de organismos analizados. 126 También es interesante comparar las frecuencias relativas de los aminoácidos del proteoma humano con sus correspondientes versiones aleatorias de RandomUniProt. Es lo que se muestra en la Tabla 8.3. Los valores muy próximos a la unidad en la columna de las proteı́nas aleatorias indica que el tamaño de la muestra utilizada (7385 proteı́nas con 2849090 residuos de aminoácidos) es más que suficiente. La comparación de la frecuencia de cada aminoácido en las proteı́nas naturales con su equivalente en las proteı́nas aleatorias indica la desviación estadı́stica de esa frecuencia, desviación que en la mayorı́a de los casos no se pueden explicar por puras consideraciones estadı́sticas. Parece claro que esas desviaciones solo se pueden explicar con criterios funcionales fisico-quı́micos y biológicos. Tabla 8.3 Homo sapiens Aminoácido Ácido glutámico Proteı́nas naturales Proteı́nas aleatorias 1,913201 1,000408 Frecuencia y redundancia de aminoácidos —— 77 Tabla 8.3 Homo sapiens Aminoácido Lisina Metionina Glutamina Ácido aspártico Fenilalanina Alanina Glicina Leucina Asparagina Prolina Valina Cisteı́na Isoleucina Tirosina Trptófano Serina Treonina Histidina Arginina Total Media D. tı́pica Proteı́nas naturales Proteı́nas aleatorias 1,679810 1,441490 1,358908 1,287512 1,201866 1,123918 1,052552 1,035577 1,006603 0,961937 0,916895 0,885732 0,882164 0,872867 0,852166 0,808753 0,792402 0,787095 0,602555 0,994138 0,997883 0,996447 1,005947 0,999115 0,999987 1,002509 1,004643 1,002797 1,002414 0,994817 0,999509 0,997184 1,004481 0,995641 0,999661 0,997691 0,994809 1,000687 21,464000 1,073200 0,325395 19,990770 0,999538 0,003494 Tabla 8.3: Frecuencia relativa de los amino ácidos en las proteı́nas humanas de UniProt y en las proteı́nas aleatorias de RandomUniProt. 127 Como ya vimos, la frecuencia relativa de los aminoácidos plantea la cuestión del ajuste idóneo del código genético: la asignación ideal de los 61 codones a los 20 aminoácidos proteinogénicos para que una evolución aleatoria de la información genética produzca una frecuencia relativa de los aminoácidos codificados lo más parecida posible a la frecuencia relativa observada. O dicho con otras palabras, una asignación de códigos que requiera la mı́nima presión selectiva funcional sobre la 78 —— Redundancia en el proteoma humano constitución quı́mica de las proteı́nas. 128 Como puede verse en la tabla 8.5, solo la codificación de dos aminoácidos está idealmente ajustada en todos los organismos: la tirosina y el triptófano. El número de aminoácidos idealmente ajustados (aquellos aminoácidos en los que el número de códigos asignados coincide con el número ideal de códigos deducidos de su frecuencia relativa) en los diferentes grupos de la Tabla 8.5 es el siguiente: Archaea Bacteria Eukaryota Homo sapiens 5 6 8 13 Como era de esperar, cuando se emplean las proteı́nas aleatorias de RandomUniProt el código genético ideal coincide con el real en todos los casos considerados en la Tabla 8.5. Tabla 8.5 Código genético ideal / real Aminoácidos Leucina Ácido glutámico Valina Alanina Isoleucina Glicina Lisina Ácido aspártico Arginina Serina Treonina Prolina Asparagina Fenilalanina Archaea Bacteria Eukaryota H. sapiens Real 5 5 5 5 5 5 4 4 3 3 3 3 2 2 6 4 5 6 4 5 3 3 3 3 3 3 2 2 6 4 4 4 3 4 4 3 3 5 3 3 3 3 6 4 4 4 3 4 3 3 3 5 3 4 2 2 6 2 4 4 3 4 2 2 6 6 4 4 2 2 Redundancia de micropéptidos —— 79 Tabla 8.5 Código genético ideal / real Aminoácidos Archaea Bacteria Eukaryota H. sapiens Real Tirosina Metionina Glutamina Histidina Cisteı́na Triptófano 2 1 1 1 1 1 2 2 2 1 1 1 2 1 3 1 1 1 2 1 3 2 2 1 2 1 2 2 2 1 61 3,05 1,6 5 61 3,05 1,5 6 61 3,05 1,35 8 61 3,05 1,29 13 61 3.05 1,61 20 Total Media D. tı́pica Códigos ideales Tabla 8.5: Código genético ideal en diferentes grupos de organismos comparados con el código genético real (última columna de la derecha). La última fila recoge el número de códigos ideales de cada uno de los grupos considerados. 129 Aunque las diferencias en la redundancia relativa de micropéptidos en Homo sapiens respecto a otros grupos de organismos es mayor cuanto mayor es el tamaño del micropéptido (véase la Figura 8.4 más adelante), aparecen ya algunas diferencias en la redundancia interna de los propios aminoácidos como puede verse comparando la Figura 8.1 con la Figura 4.2 del Capı́tulo 4. Redundancia de micropéptidos 130 La frecuencia relativa de los dipéptidos, y especialmente la de los tripéptidos y tetrapéptidos, en el proteoma humano es significativamente más elevada que en el resto de los organismos. Tampoco coinciden los tripéptidos mas abundantes, y los menos abundantes, en las proteı́nas humanas y en las del resto de los organismos. Lo mismo ocurre con los tetrapéptidos. Aunque en todos los casos suelen estar presentes 80 —— Redundancia en el proteoma humano Figura 8.1: Redundancia relativa de los aminoácidos en las proteı́nas naturales de Homo sapiens (cı́rculitos negros) de UniProt y en la correspondiente versión aleatoria de RandomUniProt (circulitos grises). Los valores de redundancia de los aminoácidos de las proteı́nas aleatorias se distribuyen en cinco escalones horizontales correspondientes cada uno de ellos a los aminoácidos con 1, 2, 3, 4 y 6 codones del código genético. Como puede verse, la redundancia de los aminoácidos del proteoma humano presentan fuertes desviaciones respecto a esos escalones. los aminoácidos ácido glutámico (E), glutamiona (Q), lisina (K), ácido aspártico (D) y metionina (M). 131 En el Capı́tulo 8 se muestran las tablas completas de resultados Redundancia de micropéptidos —— 81 de frecuencia y redundancia de dipéptidos, tripéptidos y tetrapéptidos de las proteı́nas humanas de UniProt. En la Tabla 8.6 de este capı́tulo se recogen los 20 tripéptidos de mayor frecuencia relativa y los 20 de menor frecuencia relativa. Tabla 8.6 Tripéptido EEE KKK QQQ EEK EED EDE KEE DEE QEE KEK EKE EEM MEE KKE EKK EEQ EQE GEK DED MYF EME . . . IRP RTS RSI TRY CMW TRS PIR RTR IWC VWC Frecuencia Relativa Frequency Redundancia relativa Redundancia 33,156740 14,822770 13,956780 13,183690 12,786660 12,744740 11,875500 11,526520 10,924640 10,862820 10,344140 9,714064 9,454300 9,347754 9,144328 8,768473 8,538439 8,048815 8,019942 8,005039 7,810014 . . . 0,304607 0,300064 0,299173 0,297301 0,296922 0,293728 0,292576 0,289280 0,288338 0,287490 0,116862 0,052243 0,049191 0,046466 0,045067 0,044919 0,041855 0,040625 0,038504 0,038286 0,036458 0,017119 0,016661 0,032946 0,032229 0,030905 0,030094 0,056736 0,028266 0,014107 0,013763 . . . 0,009662 0,019036 0,014235 0,006287 0,000262 0,018635 0,009281 0,018352 0,000762 0,001013 34,145420 13,754270 10,500890 14,595140 13,123610 11,592020 12,482950 11,321740 12,583050 11,511940 11,712150 10,110490 9,269614 9,299645 8,929261 9,539895 10,510900 9,800165 8,438753 6,586832 8,388700 . . . 0,280291 0,306985 0,300311 0,280291 0,520540 0,285296 0,276954 0,276398 0,293638 0,360374 2,362188 1,673569 2,280435 1,468278 1,378549 1,327982 1,286894 1,283768 1,529197 1,370679 1,366822 1,163594 1,110312 1,284924 1,220246 1,215561 1,583710 2,438356 1,302937 1,085809 1,088312 . . . 1,041322 1,112903 1,074271 1,024390 1,000000 1,117647 1,064103 1,147806 1,000000 1,058824 82 —— Redundancia en el proteoma humano Tabla 8.6 Tripéptido PCR WPI RCT STR RTN WTR RHA TRR TRC TTR WWH Total Average D. tı́pica Frecuencia Relativa Frequency Redundancia relativa Redundancia 0,283747 0,276992 0,276114 0,274149 0,269797 0,268172 0,267255 0,265292 0,259688 0,246799 0,242440 0,006000 0,001464 0,005839 0,017392 0,005705 0,002836 0,005652 0,016830 0,005492 0,010438 0,000214 0,306985 0,273617 0,288633 0,276398 0,306985 0,286964 0,296975 0,249703 0,250260 0,269446 0,200208 1,115152 1,000000 1,081250 1,089912 1,057471 1,075000 1,078788 1,095122 1,034483 1,129371 1,000000 9957,922000 1,244740 0,997294 99,998480 0,012500 0,011621 9976,780000 1,247097 1,015551 8738,302000 1,092288 0,133134 Tabla 8.6: Frecuencia y redundancia de tripéptidos en el proteoma humano. 132 La figura 8.2 es una representación gráfica de la variación de la frecuencia relativa en los tripéptidos de las proteı́nas humanas comparada con la misma variación en las proteı́nas de todos los organismos de UniProt. 133 Los valores de frecuencia relativa y de redundancia relativa de los tetrapéptidos son muy superiores a los encontrados en Bacteria y Archaea y muy parecidos a los encontrados en Eukaryota. La Tabla 8.7 recoge los 40 tetrapéptidos de mayor frecuencia relativa. Nótese la elevada redundancia de algunos tetrapéptidos como QQQQ, EKPY, GEKP y TGEK, todos ellos repetidos 4 ó 5 veces de promedio en las proteı́nas en las que aparecen. Redundancia de micropéptidos —— 83 Figura 8.2: Variación de la frecuencia relativa de los 8000 tripéptidos en el proteoma humano comparada con la misma variación en el proteoma del resto de los organismos. Tabla 8.7 Tetrapéptido Frecuencia Relativa Frequency Redundancia relativa Redundancia EEEE QQQQ MYFF EKPY KKKK EEED PMYF EDEE DEEE EEDE EEEK EQEE GEKP TGEK 342,802800 229,014200 146,035400 97,154180 88,685210 87,512120 83,862900 81,391410 78,735760 73,977540 61,984830 61,396140 58,524450 57,319090 0,039614 0,026464 0,008438 0,022454 0,010248 0,010113 0,009691 0,009405 0,009099 0,008549 0,007163 0,007095 0,027052 0,026495 345,909100 134,690300 119,384600 139,894200 82,038640 88,773160 68,263490 77,753030 75,916350 68,569600 67,039030 87,854800 81,273350 79,360130 2,658823 4,036697 1,059783 5,345029 1,740260 1,203320 1,000000 1,198113 1,153488 1,230769 1,123077 2,432203 5,009434 4,650224 84 —— Redundancia en el proteoma humano Tabla 8.7 Tetrapéptido EDED KEEE EKEE EEKE EEME EEMK DEDE MEEM EEEM EEDD QEEK DEED QEEE KEEK KEKK MEEE EEKK KKKE KKEE KKEK . . . Frecuencia Relativa Frequency Redundancia relativa Redundancia 55,945420 52,435020 48,919960 45,166960 44,960410 43,753000 43,226530 43,095170 42,979710 41,451100 41,273970 40,486670 39,616680 38,203470 36,551030 34,923650 34,114940 33,910320 33,828630 33,129570 . . . 0,006465 0,006059 0,005653 0,005219 0,002598 0,002528 0,004995 0,001245 0,002483 0,004790 0,004770 0,004679 0,004578 0,004415 0,004224 0,002018 0,003942 0,003919 0,003909 0,003828 . . . 55,712800 55,406680 52,039430 50,508860 37,345940 48,978290 47,753830 23,264690 47,141600 39,794860 56,937260 39,488740 41,019310 46,529370 35,509250 28,162520 39,488740 29,386970 33,672570 35,509260 . . . 1,246575 1,110429 1,111111 1,100000 1,016667 1,066667 1,181818 1,055556 1,013158 1,092437 2,513514 1,075000 1,055118 1,151515 1,074074 1,022222 1,066116 1,054945 1,100000 1,137255 . . . Tabla 8.7: Frecuencia y redundancia relativa de los tetrapéptidos más abundantes en el proteoma humano. 134 La Figura 8.3 es una representación gráfica de la frecuencia relativa de los tetrapéptidos más abundantes en Homo sapiens, comparada con la frecuencia relativa de los tetrapéptidos más abundantes en Archaea y Bacteria. 135 Los valores de redundancia interna de micropéptidos de 3 a 10 residuos son también considerablemente mayores en el caso de las proteı́nas humanas comparados con las del resto de los organismos. Las diferencias, en escala logarı́tmica, se representan de forma gráfica en la Figura 8.4. Redundancia de micropéptidos —— 85 Figura 8.3: Frecuencia relativa de los tetrapéptidos más abundantes en Archaea, Bacteria y Homo sapiens. Como en casos anteriores la intersección de una lı́nea vertical con las tres gráficas no corresponde necesariamente con el mismo tetrapéptido (de hecho en casi todos los casos son tetrapéptidos diferentes). Figura 8.4: Cada lı́nea representa el logaritmo decimal del cociente entre redundancia real y redundancia teórica de micropéptidos de 3, 4, 5, 6 y 7 residuos en diferentes grupos de organismos. 136 Los resultados que se acaban de exponer en las tablas y figuras (y que se completan en las tablas del Capı́tulo 8) prueban la elevadı́sima frecuencia relativa de algunos micropéptidos en el proteoma humano y 86 —— Redundancia en el proteoma humano la naturaleza altamente redundante de sus proteı́nas. 9.-junk-ADN Introducción 137 Durante algo más de la primera mitad del siglo XX, se hicieron descubrimientos fundamentales en la biologı́a que culminaron con el desciframiento del código genético y el nacimiento de la biologı́a molecular. Desde finales de los años 60 hasta esta segunda década del siglo XXI el desarrollo espectacular de la nueva ciencia biológica ha confirmado una y otra vez los fundamentos moleculares de los seres vivos como sistemas infodinámicos, pero también ha tenido que ampliar el escenario de esas interacciones hasta lı́mites inimaginables en aquellos años 60, e incluso en estos de la segunda década del siglo XXI. 138 Si existe una palabra que nunca deberı́a formar parte de las ciencias experimentales, esa palabra es ’dogma’. Sin embargo llegó a formar parte, y parte importante, de la biologı́a molecular del siglo XX. Una vez más, vendimos la piel antes de cazar el oso y enunciamos, no sin cierta arrogancia, el llamado Dogma Central de la Biologı́a Molecular, que establece la relación inmediata directa y única de los genes con las proteı́nas: un gen, una proteı́na. Incluyendo en el esquema explicativo la intervención de los genes operadores y de los genes reguladores. 139 Aunque hubo sospechas previas, fue el descubrimiento del ADN basura (junk DNA, jADN de ahora en adelante) y sobre todo el desciframiento completo del genoma humano y el de otros organismos lo que 87 88 —— junk-ADN acabó definitivamente pulverizando los esquemas simplistas de flujos de información derivados del Dogma Central, incluyendo el propio contenido del dogma. Las cosas no eran tan sencillas. En realidad parece que son inconcebiblemente más complicadas. 140 El hecho de llamar basura al nuevo ADN (junk-DNA, jADN) tuvo que ver tanto con el hecho de que este jADN no codifica proteı́nas como con el hecho de que contenı́a secuencias aparentemente absurdas de pares de bases (nucleótidos) que incluı́an microsecuencias repetidas hasta millones de veces. Esas repeticiones indican la existencia de procesos de copiar y pegar fragmentos de ADN. De algunos de esos procesos se conocen ciertos detalles (por ejemplo la producción de retrogenes). De otros se desconoce prácticamente todo. 141 Tampoco sabemos gran cosa acerca de qué y cómo se regulan esos procesos de copiar y pegar. Sabemos que ocurren, pero no de manera sistemática. Ocurren de forma esporádica en los diferentes grupos de organismos y en algunos más que en otros. Ocurren seguramente bajo el control de señales epigenéticas celulares (marcajes quı́micos del ADN o de sus proteı́nas histónicas). En cualquier caso, es posible que esos mecanismos tengan que ver finalmente con la excesiva redundancia interna encontrada en las proteı́nas naturales, y que hemos analizado en los capı́tulos precedentes. También es posible que la inimaginable complejidad de las redes moleculares que parecen gobernar la expresión génica tenga que ver con esa redundancia. Por esa razón las introducimos en este capı́tulo. junk-DNA 142 Antes de descifrar por completo el genoma humano se tenı́a la impresión de que habrı́a una proporcionalidad entre el número de genes (codificadores de proteı́nas) y la complejidad del organismos. Como es junk-DNA —— 89 bien sabido, no es ası́. El genoma humano tiene unos 19000 genes según las estimaciones más recientes [4], aproximadamente el mismo número que el nemátodo Caenorhabditis elegans, de no más de 1mm de largo. Lo único que realmente aumenta con la complejidad del organismo es la cantidad de jADN, como puede verse en la Figura 9.1. Figura 9.1: Abajo: genes codificadores de proteı́nas en millones de pares de bases. Arriba: porcentaje de jADN en el genoma. (Modificado de [1, p. 187].) 143 En el caso del genoma humano los genes codificadores de proteı́nas apenas constituyen el 2 %, siendo el 98 % restante jADN. Por otra parte, algunos organismos completamente funcionales, como el pez globo (Fugu rubripes) apenas si contiene jADN. 144 En términos energéticos no es fácil justificar la presencia de 98 % de material genético inútil en todas las células del organismos, ni que 90 —— junk-ADN se tenga que duplicar inmediatamente antes de cada división celular. Ası́ que, a pesar del nombre, algunos autores pensaron que deberı́a tener alguna función. Una de las primeras funciones que se consideraron fue la de protección de los genes codificadores, se pensaba que al dispersarlos en el seno del jADN quedarı́an más protegidos frente a las mutaciones (Teorı́a del Aislamiento). 145 Es fácil ver, sin embargo, que esa protección no existe para el caso de mutaciones producidas por impactos aleatorios de fotones energéticos u otros objetos mutagénicos. Imagı́nese un suelo enlosado con 95 ladrillos blancos y 5 ladrillos rojos sobre el que dejamos caer de forma aleatoria bolas de plomo que rompen los ladrillos. No importa como coloque los ladrillos rojos en el seno de los ladrillos blancos, juntos o separados, al cabo de 100 impactos de promedio todos ellos estarán rotos. Puede comprobarlo con una pequeña aplicación informática. O derivando la conclusión del cálculo de probabilidades. 146 En la posición contraria se sitúan los que piensan que casi todo el jADN es funcional. El proyecto ENCODE, que también tiene sus detractores, asigna funciones bioquı́micas al 80 % del genoma. La expresión génica de las células estarı́a utilizando redes muy complejas de interacciones moleculares en las que el jADN serı́a fundamental. Una buena parte del jADN tendrı́a funciones regulatorias. Lo que parece confirmarse al menos por el detalle de que las zonas regulatorias presentan una diversidad mucho menor que las zonas que no lo son. 147 Si bien las técnicas para demostrar las funciones de jADN no están suficientemente desarrolladas, algunas de esas funciones podrı́an ser: 1.- Formación de estructuras 3D especı́ficas con diferentes propósitos estructurales y regulatorios. 2.- Formación de puntos de anclaje para el aparato mitótico. junk-DNA —— 91 3.- Codificación de diferentes tipos de ARN no codificadores de proteı́nas: a) Long non-coding RNA (lncRNA). b) Long interacting non-coding RNA (lincRNA). c) Micro RNA (miRNA). d) Small interfering RNA (siRNA). 4.- Puntos de anclaje de complejos moleculares reguladores de la expresión génica (potenciadores de genes). Podrı́an existir más de 400000 regiones reguladoras. 5.- Interacciones con el sistema epigenético (marcas de desactivación en el ADN y en sus proteı́nas histónicas). 6.- Intrones (secciones no codificadoras de los genes) funcionales que pueden actuar como promotores de otros genes. 7.- Posibilidad de regular la formación de diferentes proteı́nas a partir de un mismo gen: splicings alternativos, distintas formas de unir los exones (zonas codificadoras del gen). Con respecto al último punto sabemos que, por ejemplo, al menos el 70 % de los genes humanos codifican cada uno de ellos dos o más proteı́nas diferentes. 148 Gracias a la complicadı́sima maquinaria regulatoria de la expresión génica, los genes no solo se expresan o no se expresan sino que pueden hacerlo en grados muy variables, como si existiera una especie de potenciómetro (como el de los mandos del volumen de los aparatos de música) que regula la intensidad de su expresión, lo que abre un mundo de nuevas opciones de regulación y coordinación de las funciones celulares y del funcionamiento de los organismos. 92 —— junk-ADN 149 Muchas zonas reguladoras de jADN contienen repeticiones que se han mantenido durante millones de años y en algunos casos la variación en el número de repeticiones tiene consecuencias funcionales. Aquı́ nos planteamos las consecuencias de esta complejı́sima maquinaria reguladora de la expresión génica y de los procesos de cortar y pegar información genética en el exceso de redundancia interna de las proteı́nas. Y nos preguntamos también sobre cuándo y por qué se ponen en marcha esos procesos. 10.-Conclusiones Introducción 150 En este capı́tulo se resumen los datos de los análisis de frecuencia y redundancia llevados a cabo en las proteı́nas naturales de UniProt y en las proteı́nas aleatorias de RandomUniProt. Puesto que los datos presentan desviaciones estadı́sticas que no se pueden explicar en términos puramente probabilı́sticos se ha de concluir en un origen funcional de las mismas. 151 Los datos no son compatibles con procesos sistemáticos, sino más bien con procesos esporádicos separados por largos periodos de tiempo, seguramente de decenas a cientos de millones de años. Además no ocurren con la misma intensidad en los diferentes grupos de organismos. Se plantea entonces el arduo problema del control de esos procesos no aleatorios de cambios en la información genética. Discusión 152 El análisis estadı́stico de la frecuencia y de la redundancia de aminoácidos y micropéptidos recogido en los capı́tulos anteriores pone de manifiesto los siguientes hechos: 1.- La frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt presenta desviaciones muy significativas 93 94 —— Conclusiones respecto a las expectativas teóricas derivadas del cálculo de probabilidades y respecto a las proteı́nas aleatorias de RandomUniProt. 2.- Lo mismo ocurre con los dipéptidos, tripéptidos y tetrapéptidos, siendo las desviaciones tanto más intensas cuanto mayor es el tamaño de los micropéptidos considerados. 3.- Ciertos micropéptidos monoaminoacı́dicos de 5 a 15 residuos presentan valores de frecuencia relativa y redundancia extremadamente altos. 4.- La redundancia interna de micropéptidos de 3 a 10 residuos es también muy elevada e imposible de explicar en términos estadı́sticos. 5.- Existen proteı́nas extremadamente redundantes, formadas exclusivamente por la repetición sucesiva, de varias decenas de veces, de secuencias de 10 o más aminoácidos, que a su vez incluyen un elevado número de repeticiones de dipéptidos y tripéptidos. 6.- Siendo elevadas las desviaciones estadı́sticas encontradas, no lo son tantos como para que resulten de procesos sistemáticos realizados en todos los organismos. 7.- Las desviaciones estadı́sticas de frecuencias y redundancias no afectan por igual a todos los organismos. Es mayor en Eukaryota que en Bacteria, y mayor aún en mamı́feros, sobre todo en los primates como el Homo sapiens. 153 Aún reconociendo que lo ignoramos casi todo sobre el origen de las anomalı́as encontradas en la exploración estadı́stica de la base de datos UniProt, es claro que al menos una conclusión sı́ puede sacarse: que dichas anomalı́as no tienen explicación estadı́stica y que por tanto Discusión —— 95 han de tener un origen funcional. Resulta también claro que los procesos causantes de esas anomalı́as ni son sistemáticos ni tienen una intensidad universal. 154 Es probable que se trate de mecanismos relacionados con cortar y pegar fragmentos de información genética (algunos ya conocidos con cierto detalle) sometidos a algún tipo de control epigenético que solo funcione en ciertas condiciones. 155 Por otra parte, y dicho en términos muy generales, la elevada frecuencia relativa de algunos aminoácidos, y la de unos pocos micropéptidos de 2 a 4 residuos, solo puede explicarse bajo la intervención de una presión selectiva sobre ellos, en estos casos seguramente debida a sus caracterı́sticas fı́sico-quı́micas y a su empleo estructural y funcional. 96 —— Conclusiones 11.-Resultados numéricos: aminoácidos Introducción 156 En este capı́tulo se exponen los principales datos numéricos encontrados en nuestro análisis de la frecuencia y de la redundancia de los aminoácidos en las proteı́nas naturales de la base de datos UniProt y en las proteı́nas aleatorias de RandomUniProt. En todos los casos, los datos se exponen en forma de tablas con filas ordenadas por el valor decreciente de la primera columna numérica. 157 Para facilitar el análisis y el contraste de datos, cada tabla extraı́a de UniProt (proteı́nas naturales) va seguida de su correspondiente versión extraı́da de RandomUniProt (proteı́nas aleatorias). Con el mismo propósito de facilitar el trabajo, cada tabla ocupa una página completa. Para el tipo de análisis realizado en cada tabla (cada proteı́na / una proteı́na) véase el capı́tulo sobre métodos de estudio. 158 Las tablas correspondientes a dipéptidos, tripéptidos y tetrapéptidos se exponen en los tres capı́tulos siguientes, aunque en estos casos las tablas son completas, solo se muestran los primeros y los últimos elementos de las tablas (que lógicamente corresponde a los mayores y menores valores respectivamente de la primera columna, valores de la frecuencia relativa. Tampoco se muestran los datos de proteı́nas aleatorias. En el penúltimo capı́tulo se exponen las tablas de redundancia 97 98 —— Resultados numéricos: aminoácidos para micropéptidos de dos a diez residuos y las redundancias de algunos micropéptidos monoaminoacı́dicos y otros micropéptidos de mayor tamaño. Los datos sobre el proteoma humano se incluyen en el último capı́tulo. 159 Cada capı́tulo de esta última parte numérica se inicia con una pequeña introducción seguida de un ı́ndice con las tablas del capı́tulo. Índice de tablas —— 99 Índice de tablas Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Todos. Aleatorias. Cada. Todos. Naturales. Una. Todos. Aleatorias. Una. Todos. 100 101 102 103 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Virus. Aleatorias. Cada. Virus. Naturales. Una. Virus. Aleatorias. Una. Virus. 104 105 106 107 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Archaea. Aleatorias. Cada. Archaea. Naturales. Una. Archaea. Aleatorias. Una. Archaea. 108 109 110 111 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Bacteria. Aleatorias. Cada. Bacteria. Naturales. Una. Bacteria. Aleatorias. Una. Bacteria. 112 113 114 115 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Eukaryota. Aleatorias. Cada. Eukaryota. Naturales. Una. Eukaryota. Aleatorias. Una. Eukaryota. 116 117 118 119 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Mammalia. Aleatorias. Cada. Mammalia. Naturales. Una. Mammalia. Aleatorias. Una. Mammalia. 120 121 122 123 Aminoácidos. Aminoácidos. Aminoácidos. Aminoácidos. Naturales. Cada. Homo sapiens. Aleatorias. Cada. Homo sapiens. Naturales. Una. Homo sapiens. Aleatorias. Una. Homo sapiens. 186 125 187 127 100 —— Resultados numéricos: aminoácidos Tabla 11.1: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. Aminoácido Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Asparagina Fenilalanina Glutamina Glicina Valina Leucina Tirosina Treonina Histidina Prolina Triptófano Serina Arginina Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,024570 1,902948 1,621299 1,563094 1,305299 1,262937 1,200812 1,174353 1,138860 1,097778 1,090396 0,973415 0,878584 0,800979 0,675667 0,669555 0,627643 0,616173 0,591051 0,425678 6,637934 6,239175 5,315734 2,562449 8,559340 6,211167 3,937089 3,850336 3,733968 7,198547 7,150135 9,574573 2,880604 5,252320 2,215301 4,390523 1,028923 6,060722 5,813621 1,395667 2,051690 1,784396 1,682137 1,489157 1,284913 1,245932 1,245622 1,184698 1,172302 1,092661 1,062180 0,981588 0,898244 0,813679 0,683948 0,694988 0,655145 0,644231 0,562700 0,393510 23,004530 19,963610 18,911470 8,301106 28,619120 20,866010 14,015370 13,367850 13,245640 24,331410 23,643920 32,772280 10,288640 18,160750 8,003811 15,623920 4,632117 21,518220 18,866520 5,320808 21,641090 1,082055 0,444621 100,008100 5,000407 2,317696 21,623720 1,081186 0,436205 343,457100 17,172850 7,604870 Índice de tablas —— 101 Tabla 11.2: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. Aminoácido Triptófano Metionina Histidina Glutamina Valina Leucina Arginina Glicina Ácido glutámico Lisina Alanina Serina Cisteı́na Isoleucina Fenilalanina Tirosina Prolina Ácido aspártico Treonina Asparagina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,001129 1,000886 1,000542 1,000492 1,000314 1,000240 1,000220 1,000212 1,000206 1,000133 1,000080 1,000064 0,999993 0,999970 0,999905 0,999898 0,999796 0,999754 0,999636 0,999498 1,641195 1,640796 3,280465 3,280301 6,559438 9,838423 9,838225 6,558765 3,279364 3,279125 6,557902 9,836699 3,278665 4,917885 3,278376 3,278352 6,556039 3,277881 6,554992 3,277043 0,999989 0,999883 1,000024 1,000042 1,000055 1,000029 0,999993 0,999987 0,999865 1,000005 1,000014 1,000005 1,000082 0,999904 0,999963 1,000098 1,000001 0,999901 1,000058 0,999916 5,883404 5,879686 11,244590 11,240480 22,232060 33,306880 33,304790 22,230550 11,243060 11,242790 22,232360 33,306130 11,241000 16,719060 11,242840 11,242170 22,232570 11,241840 22,232650 11,243250 20,002970 1,000148 0,000396 100,009900 5,000497 2,631533 19,999810 0,999991 0,000067 340,742100 17,037110 8,826270 102 —— Resultados numéricos: aminoácidos Tabla 11.3: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. Aminoácido Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Asparagina Fenilalanina Glutamina Glicina Valina Leucina Tirosina Treonina Prolina Histidina Triptófano Serina Arginina Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,051690 1,784396 1,682137 1,489157 1,284912 1,245932 1,245622 1,184698 1,172302 1,092661 1,062180 0,981588 0,898244 0,813679 0,694988 0,683948 0,655145 0,644231 0,562700 0,393511 6,726853 5,850479 5,515203 2,441242 8,425655 6,127532 4,084007 3,884254 3,843612 7,164989 6,965113 9,654961 2,945062 5,335600 4,557295 2,242452 1,074008 6,336696 5,534758 1,290198 2,072759 1,798765 1,703965 1,495896 1,289323 1,253418 1,262815 1,204473 1,193461 1,096157 1,065184 0,984313 0,927030 0,818162 0,703875 0,721161 0,834728 0,646298 0,566655 0,479417 23,004530 19,963610 18,911470 8,301106 28,619120 20,866010 14,015370 13,367850 13,245640 24,331410 23,643920 32,772280 10,288640 18,160750 15,623920 8,003811 4,632117 21,518220 18,866520 5,320808 21,623720 1,081186 0,436205 99,999960 4,999998 2,300427 22,117850 1,105893 0,424951 343,457100 17,172850 7,604870 Índice de tablas —— 103 Tabla 11.4: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. Aminoácido Tirosina Cisteı́na Treonina Valina Glutamina Leucina Histidina Alanina Serina Lisina Prolina Arginina Triptófano Glicina Fenilalanina Asparagina Isoleucina Ácido aspártico Metionina Ácido glutámico Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,000098 1,000082 1,000058 1,000055 1,000042 1,000029 1,000024 1,000014 1,000005 1,000005 1,000001 0,999993 0,999989 0,999987 0,999963 0,999916 0,999904 0,999902 0,999883 0,999865 3,279010 3,278958 6,557760 6,557736 3,278827 9,836355 3,278766 6,557470 9,836113 3,278703 6,557383 9,836001 1,639325 6,557290 3,278567 3,278411 4,917560 3,278365 1,639152 3,278244 1,012944 1,012839 1,001605 1,001579 1,012792 1,000370 1,013162 1,001592 1,000347 1,013000 1,001602 1,000307 1,060215 1,001511 1,013005 1,013042 1,004311 1,012915 1,059545 1,013024 11,242170 11,241000 22,232650 22,232060 11,240480 33,306880 11,244590 22,232360 33,306130 11,242790 22,232570 33,304790 5,883404 22,230550 11,242840 11,243250 16,719060 11,241840 5,879686 11,243060 19,999810 0,999991 0,000067 100,000000 5,000000 2,631373 20,249710 1,012486 0,017167 340,742100 17,037110 8,826270 104 —— Resultados numéricos: aminoácidos Tabla 11.5: Proteı́nas naturales de UniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies: 751. Aminoácido Lisina Ácido glutámico Asparagina Ácido aspártico Metionina Isoleucina Fenilalanina Tirosina Glutamina Valina Leucina Alanina Treonina Glicina Triptófano Serina Prolina Histidina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,859471 1,744778 1,602398 1,596265 1,576407 1,351213 1,269723 1,168827 1,117525 0,958577 0,934832 0,931967 0,931012 0,862810 0,807771 0,747150 0,730075 0,688094 0,657427 0,567220 6,096626 5,720583 5,253765 5,233657 2,584273 6,645308 4,163025 3,832218 3,664016 6,285747 9,195071 6,111258 6,104994 5,657769 1,324215 7,349017 4,787374 2,256044 2,155498 5,579214 1,776274 1,735472 1,590462 1,628522 1,509444 1,289773 1,255522 1,150764 1,119020 0,970368 0,924700 0,978887 0,961481 0,912757 0,812821 0,753998 0,751855 0,681162 0,606190 0,558010 24,887150 24,388640 22,280580 22,821900 10,474070 26,896880 17,704770 16,280180 15,855110 26,945080 38,398600 27,361710 26,713410 25,575200 6,490068 31,343290 21,184790 10,003820 9,231737 23,407800 22,103540 1,105177 0,395439 99,999680 4,999984 1,938576 21,967480 1,098374 0,381456 428,244800 21,412240 8,105198 Índice de tablas —— 105 Tabla 11.6: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies: 751. Aminoácido Metionina Glutamina Glicina Lisina Arginina Fenilalanina Serina Ácido aspártico Tirosina Valina Isoleucina Treonina Prolina Asparagina Leucina Triptófano Histidina Alanina Ácido glutámico Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,008514 1,005834 1,003653 1,003452 1,002752 1,002010 1,001453 1,001009 1,000264 1,000176 0,999211 0,998780 0,998214 0,997931 0,997839 0,997780 0,997717 0,996852 0,996294 0,991895 1,653301 3,297816 6,581328 3,290007 9,863138 3,285278 9,850358 3,281996 3,279553 6,558528 4,914153 6,549376 6,545665 3,271906 9,814807 1,635704 3,271202 6,536736 3,266539 3,252115 1,007329 1,000463 1,001166 1,001034 1,002179 0,999688 1,000334 1,000534 0,999785 1,001235 0,999034 0,999744 1,000697 0,998572 0,998203 1,001406 0,997700 0,999609 0,997338 0,994922 7,446639 14,046450 27,727660 14,067560 41,583660 14,036580 41,510010 14,022360 14,017870 27,733480 20,826430 27,684360 27,738170 14,033960 41,415750 7,425234 14,016690 27,709960 14,058920 13,947690 20,001630 1,000081 0,003701 99,999510 4,999976 2,632527 20,000970 1,000048 0,002408 425,049400 21,252470 10,981140 106 —— Resultados numéricos: aminoácidos Tabla 11.7: Proteı́nas naturales de UniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Una proteı́na. Virus. Número de especies: 751. Aminoácido Lisina Ácido glutámico Ácido aspártico Asparagina Metionina Isoleucina Fenilalanina Tirosina Glutamina Alanina Valina Treonina Leucina Glicina Triptófano Serina Prolina Histidina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,776274 1,735472 1,628522 1,590462 1,509444 1,289773 1,255522 1,150764 1,119020 0,978887 0,970368 0,961481 0,924700 0,912757 0,812821 0,753998 0,751855 0,681162 0,606190 0,558010 5,823850 5,690072 5,339416 5,214631 2,474499 6,343148 4,116465 3,772996 3,668919 6,418929 6,363071 6,304790 9,095414 5,985288 1,332493 7,416377 4,930195 2,233318 1,987508 5,488620 1,799877 1,763824 1,650515 1,611366 1,515002 1,296817 1,280436 1,177408 1,146666 0,989421 0,974355 0,965977 0,925683 0,924819 0,938744 0,755599 0,766058 0,723492 0,667654 0,564296 24,887150 24,388640 22,821900 22,280580 10,474070 26,896880 17,704770 16,280180 15,855110 27,361710 26,945080 26,713410 38,398600 25,575200 6,490068 31,343290 21,184790 10,003820 9,231737 23,407800 21,967490 1,098374 0,381456 99,999990 5,000000 1,961955 22,438010 1,121900 0,378084 428,244800 21,412240 8,105198 Índice de tablas —— 107 Tabla 11.8: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Una proteı́na. Virus. Número de especies: 751. Aminoácido Metionina Arginina Triptófano Valina Glicina Lisina Prolina Ácido aspártico Glutamina Serina Tirosina Treonina Fenilalanina Alanina Isoleucina Asparagina Leucina Histidina Ácido glutámico Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,007329 1,002179 1,001406 1,001235 1,001166 1,001034 1,000697 1,000534 1,000463 1,000334 0,999785 0,999744 0,999688 0,999609 0,999034 0,998572 0,998203 0,997700 0,997338 0,994922 1,651360 9,857498 1,641649 6,565475 6,565024 3,282078 6,561949 3,280440 3,280206 9,839347 3,277983 6,555698 3,277665 6,554812 4,913280 3,274005 9,818388 3,271147 3,269960 3,262038 1,077105 1,002465 1,074009 1,002864 1,002653 1,017387 1,003034 1,014119 1,015861 1,000690 1,013794 1,001088 1,015147 1,002013 1,004133 1,014958 0,998417 1,013708 1,016763 1,008718 7,446639 41,583660 7,425234 27,733480 27,727660 14,067560 27,738170 14,022360 14,046450 41,510010 14,017870 27,684360 14,036580 27,709960 20,826430 14,033960 41,415750 14,016690 14,058920 13,947690 20,000970 1,000048 0,002408 99,999990 5,000000 2,632663 20,298930 1,014946 0,021706 425,049400 21,252470 10,981140 108 —— Resultados numéricos: aminoácidos Tabla 11.9: Proteı́nas naturales de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies: 143. Aminoácido Ácido glutámico Lisina Ácido aspártico Isoleucina Metionina Valina Alanina Glicina Asparagina Fenilalanina Tirosina Leucina Treonina Glutamina Prolina Arginina Histidina Serina Triptófano Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,558446 2,325388 1,713365 1,585684 1,565549 1,239794 1,164516 1,139648 1,100842 1,029299 1,006461 0,892102 0,714857 0,667488 0,631187 0,607204 0,526142 0,526128 0,478352 0,315614 8,388346 7,624224 5,617589 7,798446 2,566474 8,129798 7,636168 7,473100 3,609318 3,374750 3,299872 8,774770 4,687587 2,188486 4,138928 5,972500 1,725056 5,175030 0,784183 1,034800 2,592567 2,179267 1,797375 1,563346 1,491504 1,222992 1,188421 1,152426 1,112578 1,055116 1,034497 0,900288 0,732251 0,663487 0,642951 0,577833 0,536563 0,532910 0,503347 0,274937 24,571670 20,597410 17,146290 22,160350 7,028676 23,081270 22,467290 21,760320 10,690560 10,147540 9,948684 25,506130 13,895580 6,602119 12,226080 16,395110 5,479178 15,158220 3,275012 3,512746 21,788060 1,089403 0,606798 99,999430 4,999971 2,625978 21,754650 1,087733 0,598200 291,650200 14,582510 7,345428 Índice de tablas —— 109 Tabla 11.10: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies: 143. Aminoácido Triptófano Glutamina Alanina Tirosina Serina Arginina Ácido aspártico Metionina Glicina Histidina Isoleucina Leucina Ácido glutámico Prolina Treonina Lisina Valina Cisteı́na Fenilalanina Asparagina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,004066 1,002378 1,002343 1,001643 1,001630 1,001348 1,001234 1,001222 1,001133 1,000766 1,000617 1,000610 1,000510 0,999112 0,998701 0,997286 0,997162 0,997147 0,995940 0,991699 1,646010 3,286486 6,572742 3,284074 9,852095 9,849329 3,282733 1,641347 6,564808 3,281201 4,921068 9,842060 3,280361 6,551552 6,548862 3,269789 6,538764 3,269335 3,265377 3,251472 1,005406 1,003300 1,000535 1,001714 1,000840 1,000674 0,999163 0,998794 0,999821 1,001527 1,001938 1,000138 1,000216 1,000368 1,002223 0,995840 0,996281 0,998285 0,995840 0,995693 5,049544 9,570576 18,875600 9,568267 28,292370 28,290800 9,535374 5,006041 18,859010 9,559533 14,220510 28,272520 9,536372 18,874540 18,912660 9,509499 18,794320 9,528594 9,501005 9,509695 19,996550 0,999827 0,002825 99,999460 4,999973 2,635114 19,998600 0,999930 0,002593 289,266800 14,463340 7,492521 110 —— Resultados numéricos: aminoácidos Tabla 11.11: Proteı́nas naturales de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Una proteı́na. Archaea. Número de especies: 143. Aminoácido Ácido glutámico Lisina Ácido aspártico Isoleucina Metionina Valina Alanina Glicina Asparagina Fenilalanina Tirosina Leucina Treonina Glutamina Prolina Arginina Histidina Serina Triptófano Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,592567 2,179267 1,797375 1,563346 1,491504 1,222992 1,188421 1,152426 1,112578 1,055116 1,034497 0,900288 0,732251 0,663487 0,642951 0,577833 0,536563 0,532910 0,503347 0,274937 8,500220 7,145137 5,893032 7,688586 2,445088 8,019616 7,792925 7,556891 3,647797 3,459396 3,391793 8,855287 4,801645 2,175369 4,216069 5,683605 1,759221 5,241733 0,825158 0,901432 2,607805 2,186015 1,819746 1,567930 1,491914 1,224814 1,192233 1,154717 1,134595 1,076964 1,055859 0,902329 0,737373 0,700687 0,648780 0,580009 0,581508 0,536251 0,695158 0,372810 24,571670 20,597410 17,146290 22,160350 7,028676 23,081270 22,467290 21,760320 10,690560 10,147540 9,948684 25,506130 13,895580 6,602119 12,226080 16,395110 5,479178 15,158220 3,275012 3,512746 21,754650 1,087733 0,598200 100,000000 5,000000 2,619791 22,267500 1,113375 0,582826 291,650200 14,582510 7,345428 Índice de tablas —— 111 Tabla 11.12: Proteı́nas aleatorias de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Una proteı́na. Archaea. Número de especies: 143. Aminoácido Triptófano Glutamina Treonina Isoleucina Tirosina Histidina Serina Arginina Alanina Prolina Ácido glutámico Leucina Glicina Ácido aspártico Metionina Cisteı́na Valina Lisina Fenilalanina Asparagina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,005406 1,003300 1,002223 1,001938 1,001714 1,001527 1,000840 1,000674 1,000535 1,000368 1,000216 1,000138 0,999821 0,999163 0,998794 0,998285 0,996281 0,995840 0,995840 0,995693 1,648206 3,289507 6,571954 4,927565 3,284308 3,283694 9,844330 9,842699 6,560885 6,559792 3,279397 9,837424 6,556205 3,275944 1,637368 3,273067 6,532992 3,265048 3,265048 3,264568 1,071822 1,015731 1,003606 1,006156 1,015485 1,014559 1,000897 1,000842 1,001639 1,001583 1,012100 1,000195 1,000759 1,011994 1,062588 1,011275 0,997326 1,009248 1,008347 1,009269 5,049544 9,570576 18,912660 14,220510 9,568267 9,559533 28,292370 28,290800 18,875600 18,874540 9,536372 28,272520 18,859010 9,535374 5,006041 9,528594 18,794320 9,509499 9,501005 9,509695 19,998600 0,999930 0,002593 100,000000 5,000000 2,633202 20,255420 1,012771 0,019516 289,266800 14,463340 7,492521 112 —— Resultados numéricos: aminoácidos Tabla 11.13: Proteı́nas naturales de UniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies: 1722. Aminoácido Ácido glutámico Lisina Ácido aspártico Metionina Alanina Isoleucina Glicina Valina Glutamina Asparagina Fenilalanina Leucina Tirosina Treonina Histidina Prolina Arginina Triptófano Serina Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,069770 1,874050 1,670561 1,587105 1,431857 1,297489 1,146948 1,145660 1,141201 1,132851 1,118625 0,975884 0,818675 0,786743 0,673493 0,628058 0,612642 0,562817 0,544975 0,302986 6,786129 6,144425 5,477249 2,601811 9,389223 6,381094 7,520967 7,512523 3,741643 3,714266 3,667623 9,598859 2,684180 5,158968 2,208174 4,118410 6,025990 0,922651 5,360414 0,993398 2,089114 1,721344 1,737589 1,530405 1,442299 1,290927 1,167664 1,125345 1,152414 1,145945 1,131331 0,987949 0,845269 0,795737 0,671253 0,646437 0,583251 0,592804 0,549502 0,290676 21,519960 17,694090 17,946390 7,830096 29,548510 19,871740 23,927450 23,041790 11,934630 11,855850 11,763290 30,365730 8,942415 16,351670 7,192397 13,390900 17,973300 4,032980 16,912820 3,795067 21,522390 1,076119 0,476514 100,008000 5,000400 2,495270 21,497250 1,074863 0,467362 315,891100 15,794550 7,620098 Índice de tablas —— 113 Tabla 11.14: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies: 1722. Aminoácido Triptófano Histidina Cisteı́na Alanina Ácido glutámico Metionina Isoleucina Leucina Valina Lisina Arginina Serina Glutamina Treonina Tirosina Fenilalanina Glicina Prolina Asparagina Ácido aspártico Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,001004 1,000690 1,000672 1,000607 1,000479 1,000465 1,000420 1,000307 1,000237 1,000201 1,000029 0,999974 0,999882 0,999832 0,999829 0,999726 0,999695 0,999627 0,999488 0,999450 1,640990 3,280949 3,280892 6,561356 3,280258 1,640106 4,920100 9,839087 6,558928 3,279346 9,836349 9,835805 3,278302 6,556278 3,278126 3,277791 6,555376 6,554932 3,277008 3,276883 1,000159 1,000272 1,000357 1,000320 1,000053 0,999967 0,999878 0,999896 1,000161 1,000360 0,999891 0,999998 0,999474 0,999963 0,999948 0,999908 0,999968 0,999871 0,999933 0,999895 5,410071 10,346340 10,342500 20,481860 10,343140 5,406820 15,389690 30,685070 20,480230 10,347720 30,685420 30,688400 10,335600 20,476560 10,340560 10,341850 20,478050 20,476380 10,340640 10,342640 20,002610 1,000130 0,000443 100,008900 5,000443 2,631379 20,000270 1,000014 0,000211 313,739500 15,686980 8,137665 114 —— Resultados numéricos: aminoácidos Tabla 11.15: Proteı́nas naturales de UniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Una proteı́na. Bacteria. Número de especies: 1722. Aminoácido Ácido glutámico Ácido aspártico Lisina Metionina Alanina Isoleucina Glicina Glutamina Asparagina Fenilalanina Valina Leucina Tirosina Treonina Histidina Prolina Triptófano Arginina Serina Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,089114 1,737589 1,721344 1,530405 1,442299 1,290927 1,167664 1,152414 1,145945 1,131331 1,125345 0,987949 0,845269 0,795737 0,671253 0,646437 0,592804 0,583251 0,549502 0,290676 6,849553 5,697011 5,643750 2,508861 9,457695 6,348820 7,656812 3,778407 3,757195 3,709283 7,379314 9,717533 2,771375 5,217949 2,200830 4,238932 0,971810 5,736890 5,404940 0,953035 2,104176 1,754760 1,730090 1,531220 1,444595 1,295266 1,169788 1,166943 1,159240 1,150190 1,126489 0,989639 0,874371 0,799416 0,703257 0,654667 0,788673 0,585762 0,551200 0,371074 21,519960 17,946390 17,694090 7,830096 29,548510 19,871740 23,927450 11,934630 11,855850 11,763290 23,041790 30,365730 8,942415 16,351670 7,192397 13,390900 4,032980 17,973300 16,912820 3,795067 21,497250 1,074863 0,467362 99,999990 5,000000 2,498789 21,950820 1,097541 0,452823 315,891100 15,794550 7,620098 Índice de tablas —— 115 Tabla 11.16: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Una proteı́na. Bacteria. Número de especies: 1722. Aminoácido Lisina Cisteı́na Alanina Histidina Valina Triptófano Ácido glutámico Serina Glicina Metionina Treonina Tirosina Asparagina Fenilalanina Leucina Ácido aspártico Arginina Isoleucina Prolina Glutamina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,000360 1,000357 1,000320 1,000272 1,000161 1,000159 1,000053 0,999998 0,999968 0,999967 0,999963 0,999948 0,999933 0,999908 0,999896 0,999895 0,999891 0,999878 0,999871 0,999474 3,279870 3,279860 6,559477 3,279580 6,558433 1,639604 3,278861 9,836045 6,557169 1,639290 6,557133 3,278518 3,278468 3,278388 9,835040 3,278343 9,834993 4,917431 6,556532 3,276965 1,011778 1,011268 1,001337 1,011643 1,001257 1,057971 1,011330 1,000155 1,001150 1,057335 1,001078 1,011078 1,011086 1,011204 1,000047 1,011281 1,000058 1,003120 1,001069 1,010593 10,347720 10,342500 20,481860 10,346340 20,480230 5,410071 10,343140 30,688400 20,478050 5,406820 20,476560 10,340560 10,340640 10,341850 30,685070 10,342640 30,685420 15,389690 20,476380 10,335600 20,000270 1,000014 0,000211 100,000000 5,000000 2,631114 20,225840 1,011292 0,016630 313,739500 15,686980 8,137665 116 —— Resultados numéricos: aminoácidos Tabla 11.17: Proteı́nas naturales de UniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508. Aminoácido Lisina Ácido glutámico Metionina Ácido aspártico Asparagina Fenilalanina Glutamina Isoleucina Alanina Glicina Leucina Tirosina Valina Treonina Serina Triptófano Prolina Cisteı́na Histidina Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,917793 1,878291 1,505548 1,497886 1,329161 1,312225 1,198322 1,130792 1,070570 1,003017 0,982514 0,969565 0,956556 0,831760 0,778950 0,778236 0,764139 0,699445 0,699154 0,541456 6,287847 6,158332 2,468111 4,911102 4,357905 4,302376 3,928924 5,561270 7,020130 6,577157 9,664069 3,178900 6,272499 5,454160 7,661805 1,275796 5,010745 2,293261 2,292307 5,325797 1,861494 1,966838 1,412019 1,576586 1,400828 1,285953 1,263083 1,129131 1,043009 0,970976 0,984159 0,953201 0,942497 0,837683 0,814318 0,765203 0,781612 0,567619 0,721403 0,524559 24,659910 26,113420 9,347548 20,990710 18,613720 17,048590 16,898440 22,377370 27,412920 25,482980 38,732880 12,800660 24,773940 22,026860 31,975230 5,797478 20,661210 8,145520 10,031810 20,806350 21,845380 1,092269 0,383227 100,002500 5,000125 2,064268 21,802170 1,090109 0,397875 404,697500 20,234880 8,268866 Índice de tablas —— 117 Tabla 11.18: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508. Aminoácido Triptófano Glutamina Valina Glicina Metionina Asparagina Fenilalanina Prolina Leucina Histidina Arginina Ácido aspártico Serina Lisina Ácido glutámico Tirosina Cisteı́na Treonina Isoleucina Alanina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,000977 1,000905 1,000828 1,000754 1,000578 1,000509 1,000360 1,000319 1,000283 1,000228 1,000203 0,999976 0,999872 0,999839 0,999714 0,999611 0,999428 0,999251 0,998863 0,998802 1,640945 3,281655 6,562808 6,562320 1,640292 3,280356 3,279870 6,559465 9,838851 3,279436 9,838059 3,278608 9,834807 3,278161 3,277749 3,277412 3,276814 6,552467 4,912438 6,549521 0,999004 1,000712 1,000095 0,999906 0,999013 1,000438 1,000488 1,000124 1,000463 0,999687 0,999872 0,999915 0,999901 0,999647 0,999769 1,000249 1,000326 1,000058 0,999852 0,999455 6,934621 13,272330 26,169950 26,160580 6,932356 13,281880 13,277390 26,169180 39,191830 13,267440 39,162650 13,267790 39,168950 13,257710 13,269720 13,269960 13,275130 26,169570 19,705920 26,160730 20,001300 1,000065 0,000642 100,002000 5,000102 2,631403 19,998980 0,999949 0,000453 401,365700 20,068290 10,367080 118 —— Resultados numéricos: aminoácidos Tabla 11.19: Proteı́nas naturales de UniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Una proteı́na. Eukaryota. Número de especies: 6508. Aminoácido Ácido glutámico Lisina Ácido aspártico Metionina Asparagina Fenilalanina Glutamina Isoleucina Alanina Leucina Glicina Tirosina Valina Treonina Serina Prolina Triptófano Histidina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,966838 1,861494 1,576586 1,412018 1,400828 1,285953 1,263083 1,129131 1,043009 0,984159 0,970976 0,953201 0,942497 0,837684 0,814318 0,781612 0,765203 0,721403 0,567619 0,524559 6,448650 6,103258 5,169136 2,314784 4,592877 4,216240 4,141255 5,553104 6,839405 9,680252 6,367054 3,125248 6,180305 5,493006 8,009689 5,125324 1,254431 2,365255 1,861046 5,159600 2,001297 1,889902 1,608699 1,432767 1,426530 1,306581 1,295073 1,143291 1,050444 0,989459 0,976490 0,981025 0,949321 0,844054 0,816830 0,791724 0,888622 0,768824 0,624262 0,531513 26,113420 24,659910 20,990710 9,347548 18,613720 17,048590 16,898440 22,377370 27,412920 38,732880 25,482980 12,800660 24,773940 22,026860 31,975230 20,661210 5,797478 10,031810 8,145520 20,806350 21,802170 1,090109 0,397875 99,999920 4,999996 2,110246 22,316710 1,115835 0,397451 404,697500 20,234880 8,268866 Índice de tablas —— 119 Tabla 11.20: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Una proteı́na. Eukaryota. Número de especies: 6508. Aminoácido Glutamina Fenilalanina Leucina Asparagina Cisteı́na Tirosina Prolina Valina Treonina Ácido aspártico Glicina Serina Arginina Isoleucina Ácido glutámico Histidina Lisina Alanina Metionina Triptófano Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,000712 1,000488 1,000463 1,000438 1,000326 1,000249 1,000124 1,000095 1,000058 0,999915 0,999906 0,999901 0,999872 0,999852 0,999769 0,999687 0,999647 0,999455 0,999013 0,999004 3,281022 3,280290 9,840619 3,280126 3,279757 3,279506 6,558188 6,557997 6,557756 3,278409 6,556757 9,835092 9,834809 4,917304 3,277932 3,277661 3,277532 6,553804 1,637726 1,637711 1,017173 1,017561 1,001183 1,017905 1,017388 1,016991 1,002785 1,002815 1,002800 1,016826 1,002456 1,000599 1,000438 1,006803 1,016973 1,016798 1,016053 1,002461 1,062573 1,062920 13,272330 13,277390 39,191830 13,281880 13,275130 13,269960 26,169180 26,169950 26,169570 13,267790 26,160580 39,168950 39,162650 19,705920 13,269720 13,267440 13,257710 26,160730 6,932356 6,934621 19,998980 0,999949 0,000453 99,999990 5,000000 2,631528 20,301500 1,015075 0,017828 401,365700 20,068290 10,367080 120 —— Resultados numéricos: aminoácidos Tabla 11.21: Proteı́nas naturales de UniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698. Aminoácido Ácido glutámico Lisina Metionina Ácido aspártico Glutamina Fenilalanina Asparagina Alanina Leucina Glicina Isoleucina Valina Tirosina Prolina Trptófano Treonina Serina Histidina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,925802 1,742931 1,547740 1,383774 1,300611 1,263917 1,096256 1,094026 1,063049 1,007279 0,966404 0,952174 0,918557 0,870472 0,856765 0,810533 0,771941 0,770497 0,753719 0,572662 6,314105 5,714526 2,537278 4,536963 4,264299 4,143991 3,594280 7,173942 10,456220 6,605108 4,752807 6,243761 3,011661 5,708011 1,404533 5,314973 7,592862 2,526218 2,471209 5,632737 2,007639 1,704655 1,438537 1,436825 1,348611 1,239269 1,123213 1,077755 1,052045 1,008869 0,968127 0,949553 0,889376 0,890511 0,832990 0,818043 0,792205 0,780288 0,697148 0,554260 27,127520 23,155280 9,684018 19,505280 18,214980 16,837240 15,263330 28,977310 42,522980 27,168770 19,800330 25,600000 12,172950 24,032880 6,190198 22,020600 31,887460 10,829800 9,824651 22,399690 21,669110 1,083455 0,350219 99,999480 4,999974 2,146805 21,609920 1,080496 0,358274 413,215200 20,660760 8,801924 Índice de tablas —— 121 Tabla 11.22: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698. Aminoácido Ácido glutámico Leucina Asparagina Glicina Arginina Ácido aspártico Tirosina Prolina Alanina Glutamina Trptófano Isoleucina Fenilalanina Treonina Lisina Serina Valina Histidina Metionina Cisteı́na Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,002648 1,001577 1,001077 1,000894 1,000380 1,000327 1,000163 1,000141 1,000083 1,000080 0,999871 0,999655 0,999530 0,999163 0,999154 0,999121 0,999058 0,998872 0,998617 0,997371 3,287369 9,851580 3,282219 6,563242 9,839807 3,279759 3,279222 6,558301 6,557922 3,278949 1,639132 4,916337 3,277146 6,551888 3,275916 9,827418 6,551199 3,274990 1,637076 3,270070 1,000099 1,001191 1,001175 1,000780 1,000339 0,999909 1,000092 0,999432 0,999978 1,000305 0,997435 1,001084 0,999197 0,999607 0,999999 0,999673 0,999234 0,999000 0,997867 0,999281 13,495840 40,250880 13,520440 26,832850 40,213840 13,496730 13,499210 26,802920 26,820680 13,499560 6,970660 20,166760 13,496250 26,807610 13,499520 40,185190 26,798230 13,488550 6,968460 13,493610 19,997780 0,999889 0,001148 99,999530 4,999977 2,632451 19,995670 0,999784 0,000983 410,307800 20,515390 10,694000 122 —— Resultados numéricos: aminoácidos Tabla 11.23: Proteı́nas naturales de UniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Una proteı́na. Mammalia. Número de especies: 1698. Aminoácido Ácido glutámco Lisina Metionina Ácido aspártico Glutamina Fenilalanina Asparagina Alanina Leucina Glicina Isoleucina Valina Prolina Tirosina Trptófano Treonina Serina Histidina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,007639 1,704655 1,438537 1,436825 1,348611 1,239269 1,123213 1,077755 1,052045 1,008869 0,968127 0,949553 0,890511 0,889376 0,832990 0,818043 0,792205 0,780288 0,697148 0,554260 6,582422 5,589031 2,358257 4,710900 4,421675 4,063178 3,682666 7,067246 10,347980 6,615536 4,761282 6,226578 5,839417 2,915987 1,365557 5,364213 7,792184 2,558322 2,285730 5,451735 2,024606 1,728145 1,445493 1,455736 1,359436 1,256612 1,139146 1,081330 1,057888 1,013842 0,985187 0,955301 0,896822 0,908503 0,923985 0,821730 0,793297 0,808260 0,733242 0,557260 27,127520 23,155280 9,684018 19,505280 18,214980 16,837240 15,263330 28,977310 42,522980 27,168770 19,800330 25,600000 24,032880 12,172950 6,190198 22,020600 31,887460 10,829800 9,824651 22,399690 21,609920 1,080496 0,358274 99,999900 4,999995 2,171898 21,945820 1,097291 0,357395 413,215200 20,660760 8,801924 Índice de tablas —— 123 Tabla 11.24: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Una proteı́na. Mammalia. Número de especies: 1698. Aminoácido Leucina Asparagina Isoleucina Glicina Arginina Glutamina Ácido glutámico Tirosina Lisina Alanina Ácido aspártico Serina Treonina Prolina Cisteı́na Valina Fenilalanina Histidina Metionina Trptófano Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,001191 1,001175 1,001084 1,000780 1,000339 1,000305 1,000099 1,000092 0,999999 0,999978 0,999909 0,999673 0,999606 0,999432 0,999281 0,999234 0,999197 0,999000 0,997867 0,997435 9,847779 3,282540 4,923365 6,562490 9,839399 3,279688 3,279014 3,278991 3,278685 6,557234 3,278390 9,832846 6,554796 6,553651 3,276332 6,552353 3,276055 3,275408 1,635847 1,635139 1,001362 1,009070 1,003418 1,001307 1,000441 1,007511 1,007233 1,007485 1,007508 1,000853 1,007300 0,999728 1,000365 1,000190 1,007068 1,000015 1,007264 1,006689 1,040153 1,040481 40,250880 13,520440 20,166760 26,832850 40,213840 13,499560 13,495840 13,499210 13,499520 26,820680 13,496730 40,185190 26,807610 26,802920 13,493610 26,798230 13,496250 13,488550 6,968460 6,970660 19,995670 0,999784 0,000983 100,000000 5,000000 2,632860 20,155440 1,007772 0,011615 410,307800 20,515390 10,694000 124 —— Resultados numéricos: aminoácidos Tabla 11.25: Proteı́nas naturales de UniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies: 1. Aminoácido Ácido glutámco Lisina Metionina Glutamina Ácido aspártico Fenilalanina Alanina Glicina Leucina Asparagina Prolina Valina Cisteı́na Isoleucina Tirosina Trptófano Serina Treonina Histidina Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,913201 1,679810 1,441490 1,358908 1,287512 1,201866 1,123918 1,052552 1,035577 1,006603 0,961937 0,916895 0,885732 0,882164 0,872867 0,852166 0,808753 0,792402 0,787095 0,602555 6,272790 5,507574 2,363098 4,455435 4,221349 3,940544 7,369956 6,901978 10,186010 3,300339 6,307781 6,012427 2,904038 4,338513 2,861860 1,396994 7,954945 5,196076 2,580638 5,926768 2,005143 1,657942 1,332880 1,392336 1,355339 1,185052 1,105636 1,043642 1,029135 1,056590 0,957294 0,914088 0,802385 0,885660 0,858480 0,816591 0,817757 0,808615 0,824191 0,586672 25,581260 21,209670 8,459574 17,753480 17,434040 15,304710 28,115010 26,502510 39,308030 13,702490 24,339550 23,253680 10,627110 17,128780 11,286840 5,757850 31,069280 20,578940 10,906640 22,398910 21,464000 1,073200 0,325395 99,999110 4,999956 2,182170 21,435430 1,071771 0,337882 390,718400 19,535920 8,370809 Índice de tablas —— 125 Tabla 11.26: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies: 1. Aminoácido Ácido aspártico Leucina Tirosina Asparagina Glicina Prolina Arginina Ácido glutámico Alanina Serina Cisteı́na Fenilalanina Metionina Treonina Isoleucina Glutamina Trptófano Valina Histidina Lisina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,005947 1,004643 1,004481 1,002797 1,002509 1,002414 1,000687 1,000408 0,999987 0,999661 0,999509 0,999115 0,997883 0,997691 0,997184 0,996447 0,995641 0,994817 0,994809 0,994138 3,298186 9,881737 3,293379 3,287859 6,573829 6,573208 9,842822 3,280028 6,557288 9,832735 3,277079 3,275785 1,635874 6,542233 4,904184 3,267040 1,632198 6,523392 3,261670 3,259467 1,004713 1,004292 1,003310 1,000409 1,001592 1,001014 1,001319 0,999735 1,000741 0,997554 1,000313 1,001212 0,997080 0,997904 1,001098 0,998429 0,995603 0,994655 0,996769 0,995817 12,819700 38,114980 12,798310 12,752590 25,362290 25,344220 37,997020 12,733570 25,344180 37,854160 12,772280 12,764570 6,608486 25,265480 19,043310 12,734300 6,635417 25,172990 12,707930 12,695780 19,990770 0,999538 0,003494 99,999990 5,000000 2,636572 19,993560 0,999678 0,002862 387,521500 19,376080 10,091440 126 —— Resultados numéricos: aminoácidos Tabla 11.27: Proteı́nas naturales de UniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Homo sapiens. Número de especies: 1. Aminoácido Ácido glutámico Lisina Glutamina Ácido aspártico Metionina Fenilalanina Alanina Asparagina Glicina Leucina Prolina Valina Isoleucina Tirosina Histidina Serina Triptófano Treonina Cisteı́na Arginina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,005143 1,657942 1,392336 1,355339 1,332880 1,185052 1,105636 1,056590 1,043642 1,029135 0,957294 0,914088 0,885660 0,858480 0,824191 0,817757 0,816591 0,808615 0,802385 0,586672 6,574240 5,435876 4,565037 4,443735 2,185049 3,885416 7,250069 3,464229 6,843554 10,122640 6,277338 5,994020 4,355707 2,814688 2,702266 8,043516 1,338673 5,302395 2,630770 5,770545 2,022393 1,676785 1,403547 1,378293 1,337587 1,209954 1,111353 1,083285 1,047612 1,035869 0,962113 0,919190 0,902776 0,892310 0,862253 0,818757 0,910404 0,813461 0,840154 0,590270 25,581260 21,209670 17,753480 17,434040 8,459574 15,304710 28,115010 13,702490 26,502510 39,308030 24,339550 23,253680 17,128780 11,286840 10,906640 31,069280 5,757850 20,578940 10,627110 22,398910 21,435430 1,071771 0,337882 99,999760 4,999988 2,193906 21,818370 1,090918 0,335762 390,718400 19,535920 8,370809 Índice de tablas —— 127 Tabla 11.28: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Homo sapiens. Número de especies: 1 Aminoácido Ácido aspártico Leucina Tirosina Glicina Arginina Fenilalanina Isoleucina Prolina Alanina Asparagina Cisteı́na Ácido glutámico Glutamina Treonina Serina Metionina Histidina Lisina Trptófano Valina Total Media aritmética Desviación tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,004713 1,004292 1,003310 1,001592 1,001319 1,001212 1,001098 1,001014 1,000741 1,000409 1,000313 0,999735 0,998429 0,997904 0,997554 0,997080 0,996769 0,995817 0,995603 0,994655 3,294139 9,878277 3,289542 6,567816 9,849039 3,282662 4,923431 6,564025 6,562236 3,280030 3,279714 3,277818 3,273537 6,543633 9,812010 1,634557 3,268096 3,264972 1,632135 6,522328 1,013494 1,004429 1,011803 1,002541 1,001321 1,009136 1,003682 1,001826 1,001825 1,008189 1,009746 1,006685 1,006743 0,998714 0,997556 1,044902 1,004658 1,003698 1,049160 0,995058 12,819700 38,114980 12,798310 25,362290 37,997020 12,764570 19,043310 25,344220 25,344180 12,752590 12,772280 12,733570 12,734300 25,265480 37,854160 6,608486 12,707930 12,695780 6,635417 25,172990 19,993560 0,999678 0,002862 100,000000 5,000000 2,634237 20,175170 1,008758 0,013901 387,521500 19,376080 10,091440 128 —— Resultados numéricos: aminoácidos 12.-Resultados numéricos: Dipéptidos Introducción 160 En este capı́tulo se exponen los principales datos numéricos encontrados en nuestro análisis de la frecuencia y redundancia de los dipéptidos en las proteı́nas naturales de la base de datos UniProt y en las proteı́nas aleatorias de RandomUniProt, aunque en este último caso solo en las dos primeras tablas, correspondientes a las proteı́nas de todos los organismos. Los datos se exponen en forma de tablas con filas ordenadas por el valor decreciente de la primera columna numérica. 161 Cada tabla incluye los 30 dipéptidos de mayor frecuencia relativa y los 30 de menor frecuencia relativa, separados por una fila de puntos suspensivos. Las medidas estadı́sticas, total, media aritmética y desviación tı́pica, corresponden a los datos de la tabla completa de los 400 dipéptidos. Índice de tablas Dipéptidos. Dipéptidos. Dipéptidos. Dipéptidos. Dipéptidos. Dipéptidos. Dipéptidos. Naturales. Cada. Todos. Aleatorias. Cada. Todos. Naturales. Una. Todos. Aleatorias. Una. Todos. Naturales. Cada. Virus. Naturales. Cada. Archaea. Naturales. Cada. Bacteria. 129 131 133 135 137 139 141 143 130 —— Resultados numéricos: Dipéptidos Dipéptidos. Naturales. Cada. Eukaryota. Dipéptidos. Naturales. Cada. Mammalia. Dipéptidos. Naturales. Cada. Homo sapiens. 145 147 188 Tabla 12.1 Dipéptido EE KK EK KE DE MK ED KD ME DK EM EI DD EA IE AE EN EQ KN KI MA IK MM AK MD ID KA NK VE KM .. . RT SP Frecuencia relativa Frecuencia Redundancia relativa Redundancia 4,992191 4,799176 4,499742 4,224720 3,596615 3,418783 3,172202 2,945582 2,892102 2,872317 2,869384 2,829170 2,759097 2,734181 2,714757 2,704290 2,623441 2,615918 2,594225 2,515235 2,513322 2,424041 2,389865 2,387424 2,385083 2,379651 2,377729 2,368074 2,352405 2,323716 .. . 0,426107 0,425365 0,536651 0,515902 0,483713 0,454149 0,386629 0,183756 0,341005 0,316644 0,155448 0,308768 0,154227 0,456195 0,296597 0,587838 0,437746 0,581411 0,282015 0,281206 0,278874 0,405574 0,270177 0,390869 0,064226 0,513287 0,128196 0,383712 0,511202 0,254563 0,505758 0,124897 .. . 0,274834 0,274355 5,123930 4,140254 4,397487 4,165792 3,758457 2,924930 3,354291 2,979438 2,840932 2,822972 2,975516 2,789393 2,916480 2,720749 2,687842 2,652913 2,733113 2,651271 2,522937 2,347419 2,213750 2,266501 2,358842 2,194065 2,438996 2,422047 2,193489 2,280603 2,255527 2,268162 .. . 0,406727 0,464165 2,908596 2,529190 2,501615 2,500178 2,256279 1,401411 2,164484 2,022041 1,465419 1,931956 1,494781 2,336684 2,073569 2,757095 2,289828 2,722057 1,942946 1,885988 1,940813 2,200931 1,588714 2,144513 1,251446 2,360644 1,392223 2,154467 2,352404 1,865885 2,380200 1,385256 .. . 1,744983 2,029863 Índice de tablas —— 131 Tabla 12.1 Dipéptido CY SW HR HS CC CV RW LC WS WR RP CL CP CH SR TC WP PR HC RS CT WC CS CW SC CR PC RC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,423991 0,415586 0,410002 0,408653 0,402771 0,398647 0,391217 0,384818 0,380716 0,380460 0,373217 0,369737 0,362473 0,361894 0,356980 0,353236 0,348246 0,343191 0,339188 0,332511 0,327516 0,317994 0,302817 0,294059 0,286602 0,264797 0,251578 0,238244 0,045578 0,067012 0,132223 0,131788 0,043297 0,085707 0,063083 0,124102 0,061389 0,061348 0,240720 0,119238 0,077930 0,038903 0,345372 0,075944 0,037436 0,221354 0,036462 0,321698 0,070415 0,017092 0,097657 0,015805 0,092427 0,085395 0,054088 0,076832 0,394290 0,446345 0,395244 0,429420 0,267530 0,382174 0,388602 0,382657 0,407148 0,399994 0,374221 0,365001 0,323190 0,332261 0,351300 0,331703 0,377322 0,339725 0,325516 0,329336 0,306159 0,295006 0,286612 0,294927 0,268014 0,224571 0,244629 0,209697 1,186463 1,294313 1,396836 1,467181 1,290137 1,307659 1,238557 1,444256 1,298076 1,256913 1,755977 1,443796 1,348857 1,171007 2,010930 1,330269 1,203743 1,707641 1,172324 1,962053 1,272206 1,111827 1,429711 1,101115 1,429507 1,282898 1,288481 1,285689 465,297200 1,163243 0,719313 100,008800 0,250022 0,172812 466,411400 1,166028 0,708574 710,927600 1,777319 0,497485 Tabla 12.1: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. 132 —— Resultados numéricos: Dipéptidos Tabla 12.2 Dipéptido MF WE EM QE NW TM DM VW GW KQ FN MW KH EW AE MM CE QY EQ AM QQ WF MI WI HE EK MQ CK YV QH . . . YW DF NG MN IN NK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,005744 1,005302 1,004948 1,004919 1,004914 1,004734 1,004521 1,004351 1,004118 1,003907 1,003760 1,003630 1,003459 1,003387 1,003331 1,003269 1,003129 1,003058 1,002936 1,002898 1,002892 1,002843 1,002765 1,002683 1,002648 1,002612 1,002602 1,002491 1,002368 1,002360 . . . 0,998095 0,998059 0,998044 0,998024 0,998015 0,997979 0,054058 0,054034 0,054015 0,108027 0,054013 0,108007 0,053992 0,107966 0,107941 0,107918 0,107902 0,026972 0,107870 0,053931 0,215712 0,026962 0,107834 0,107827 0,107814 0,107810 0,107809 0,053902 0,080846 0,080840 0,107783 0,107779 0,053889 0,107766 0,215505 0,107752 . . . 0,053647 0,107289 0,214576 0,053643 0,160927 0,107281 1,001072 0,999874 1,000695 1,000079 1,000741 1,000085 0,999965 1,000045 1,000353 1,000484 1,000285 0,998665 1,000268 0,999783 0,999763 1,000011 0,999663 0,999994 1,000222 1,000273 0,999829 0,999680 0,999676 0,999927 1,000188 0,999988 0,999771 1,000376 1,000612 1,000518 . . . 1,000444 1,000233 0,999618 0,999053 0,999848 0,999720 1,147573 1,142690 1,149892 1,296647 1,148695 1,284255 1,144928 1,285786 1,291740 1,287936 1,279471 1,076004 1,283719 1,144524 1,569275 1,088555 1,282108 1,283086 1,286258 1,292884 1,321487 1,142691 1,214865 1,221478 1,287224 1,290841 1,148138 1,292445 1,584770 1,284172 . . . 1,148700 1,295352 1,584454 1,146143 1,441807 1,297726 Índice de tablas —— 133 Tabla 12.2 Dipéptido FQ IG TP KI YF AD WQ FY FF ND KN CN CC TY NP YK TW EN VC PI QF FW YM MK Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,997883 0,997863 0,997783 0,997543 0,997529 0,997491 0,997294 0,997268 0,997247 0,997107 0,997098 0,996846 0,996661 0,996650 0,996614 0,996537 0,996427 0,996243 0,996231 0,996007 0,995295 0,995132 0,994566 0,992552 0,107270 0,321805 0,429039 0,160851 0,107232 0,214456 0,053604 0,107204 0,107202 0,107187 0,107186 0,107159 0,107139 0,214276 0,214268 0,107126 0,107114 0,107094 0,214186 0,321206 0,106992 0,053487 0,053457 0,053349 0,999332 0,999834 0,999773 0,999817 1,000336 0,999358 1,000079 0,999618 0,999424 0,999874 1,000096 0,999897 1,000039 0,999923 0,999555 0,999675 1,000844 1,000188 1,000299 1,000036 1,000057 0,999441 0,999452 0,999954 1,286208 1,868276 2,182158 1,435876 1,288360 1,578649 1,146840 1,293791 1,328279 1,288039 1,284082 1,286434 1,322204 1,584930 1,571578 1,292672 1,289175 1,288481 1,580264 1,888674 1,288019 1,143461 1,148298 1,144855 400,047200 1,000118 0,001675 100,009800 0,250024 0,193217 399,989400 0,999974 0,000317 673,516100 1,683790 0,545697 Tabla 12.2: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. 134 —— Resultados numéricos: Dipéptidos Tabla 12.3 Dipéptido EE EK KE KK DE ED KD EM MK DD ME DK EI EN EA IE AE EQ KN MD ID MM KI DI NE FD QE FE NK KM . . . QC TR WS RT WR HR CY RR Frecuencia relativa Frecuencia Redundancia relativa Redundancia 5,123930 4,397487 4,165792 4,140254 3,758457 3,354291 2,979438 2,975516 2,924930 2,916480 2,840932 2,822972 2,789393 2,733113 2,720749 2,687841 2,652913 2,651271 2,522937 2,438996 2,422047 2,358842 2,347419 2,341805 2,313462 2,308182 2,306871 2,288380 2,280603 2,268162 . . . 0,416601 0,416021 0,407148 0,406727 0,399994 0,395244 0,394290 0,393024 0,550812 0,472721 0,447814 0,445069 0,404027 0,360580 0,320284 0,159931 0,157212 0,313516 0,152697 0,303464 0,449781 0,293804 0,584950 0,433406 0,570366 0,285006 0,271211 0,131094 0,390548 0,063393 0,378514 0,377609 0,248693 0,248125 0,247984 0,245996 0,245160 0,121911 . . . 0,044784 0,268329 0,065651 0,262334 0,064498 0,127464 0,042385 0,380244 8,016909 6,895155 6,891193 6,971158 6,218940 5,965927 5,573313 8,240075 7,725364 5,715338 8,078213 5,325013 4,293801 5,355305 3,799665 4,207700 3,751378 5,198313 5,349428 7,674715 3,958965 13,797350 4,044345 3,897357 5,030309 4,800632 5,023207 4,788952 5,142903 7,636311 . . . 3,424250 0,796213 2,385293 0,801628 2,309654 1,283386 3,270226 0,688043 2,908596 2,501615 2,500178 2,529190 2,256279 2,164484 2,022041 1,494781 1,401411 2,073569 1,465419 1,931956 2,336684 1,942946 2,757095 2,289828 2,722057 1,885988 1,940813 1,392223 2,154467 1,251446 2,200931 2,120940 1,825035 1,741706 1,822458 1,737468 1,865885 1,385256 . . . 1,242344 1,733195 1,298076 1,744983 1,256913 1,396836 1,186463 2,246675 Índice de tablas —— 135 Tabla 12.3 Dipéptido RW LC CV WP RP CL SR PR CH TC RS HC CP CT WC CW CS SC CC PC CR RC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,388602 0,382657 0,382174 0,377322 0,374221 0,365001 0,351300 0,339725 0,332261 0,331703 0,329336 0,325516 0,323190 0,306159 0,295006 0,294927 0,286612 0,268014 0,267530 0,244629 0,224571 0,209697 0,062661 0,123405 0,082166 0,040561 0,241368 0,117710 0,339876 0,219118 0,035717 0,071315 0,318626 0,034992 0,069485 0,065823 0,015856 0,015852 0,092430 0,086433 0,028759 0,052594 0,072423 0,067626 2,275925 1,326955 1,802138 3,317855 0,806679 1,326532 0,615846 0,784474 3,227625 1,833298 0,600878 3,231254 1,858914 1,753279 6,129018 6,069968 1,313590 1,313403 3,555981 1,775709 1,178702 1,181267 1,238557 1,444256 1,307659 1,203743 1,755977 1,443796 2,010930 1,707641 1,171007 1,330269 1,962053 1,172324 1,348857 1,272206 1,111827 1,101115 1,429711 1,429507 1,290137 1,288481 1,282898 1,285689 466,411400 1,166028 0,708574 99,999920 0,250000 0,170519 1258,021000 3,145054 1,967275 710,927600 1,777319 0,497485 Tabla 12.3: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. 136 —— Resultados numéricos: Dipéptidos Tabla 12.4 Dipéptido MF TW NW EM AY CQ WC YV HL AC FT FD WP YG QH HC NF YQ MT KQ QV MP YT YW VK KP CR HK YA VQ . . . GC FM DK YD KW NM PE AN Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,001071 1,000843 1,000741 1,000695 1,000655 1,000650 1,000615 1,000612 1,000568 1,000553 1,000547 1,000541 1,000535 1,000533 1,000518 1,000513 1,000507 1,000501 1,000484 1,000484 1,000467 1,000467 1,000461 1,000444 1,000436 1,000433 1,000422 1,000422 1,000416 1,000410 . . . 0,999509 0,999509 0,999504 0,999504 0,999498 0,999498 0,999481 0,999478 0,053807 0,107589 0,053789 0,053786 0,215137 0,107568 0,053782 0,215128 0,322677 0,215115 0,215114 0,107556 0,107556 0,215111 0,107554 0,107553 0,107553 0,107552 0,107550 0,107550 0,215096 0,107548 0,215095 0,053773 0,215090 0,215089 0,322630 0,107543 0,215085 0,215084 . . . 0,214890 0,053723 0,107445 0,107445 0,053722 0,053722 0,214884 0,214884 6,326065 3,553328 6,332253 6,338850 2,171891 3,557917 6,287266 2,184036 1,715091 2,170665 2,168404 3,552594 3,563751 2,162083 3,539540 3,570378 3,555632 3,553627 3,551974 3,549914 2,175879 3,556458 2,172075 6,332283 2,178290 2,168906 1,723586 3,560301 2,177589 2,160919 . . . 2,178559 6,313716 3,566724 3,553189 6,311418 6,305076 2,180473 2,173698 1,147573 1,289175 1,148695 1,149892 1,575958 1,290840 1,140534 1,584770 1,866703 1,575068 1,573427 1,288908 1,292956 1,568840 1,284172 1,295360 1,290011 1,289283 1,288683 1,287936 1,578851 1,290310 1,576091 1,148700 1,580601 1,573791 1,875949 1,291705 1,580092 1,567996 . . . 1,580796 1,145332 1,294035 1,289124 1,144915 1,143765 1,582185 1,577269 Índice de tablas —— 137 Tabla 12.4 Dipéptido QW RK YM IH FW ED FF EA HI AD FQ AW CW WM DI NE HF MD MN KM MC MW Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,999475 0,999452 0,999452 0,999448 0,999441 0,999429 0,999424 0,999415 0,999403 0,999358 0,999333 0,999304 0,999293 0,999281 0,999262 0,999253 0,999236 0,999087 0,999053 0,998836 0,998825 0,998665 0,053721 0,322317 0,053720 0,161158 0,053719 0,107437 0,107436 0,214870 0,161151 0,214858 0,107426 0,107423 0,053711 0,026855 0,161128 0,107418 0,107416 0,053700 0,053698 0,053686 0,053686 0,026839 6,310202 1,709675 6,330065 2,630344 6,303400 3,527426 3,661110 2,167895 2,624779 2,175601 3,545151 3,541879 6,318623 11,882370 2,629052 3,545050 3,543689 6,284036 6,318183 6,305347 6,319138 11,863080 1,144695 1,860808 1,148298 1,431432 1,143461 1,279777 1,328279 1,573058 1,428404 1,578649 1,286208 1,285021 1,146222 1,077754 1,430729 1,286171 1,285678 1,139948 1,146143 1,143814 1,146316 1,076004 399,989400 0,999974 0,000317 100,000000 0,250000 0,193158 1134,226000 2,835565 1,665651 673,516100 1,683790 0,545697 Tabla 12.4: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. 138 —— Resultados numéricos: Dipéptidos Tabla 12.5 Dipéptido KK EE EK KE KN ME NK ED DE NN DD MD EN KD DK IK KI MK KY NE DN MN IN ND MM FK KM DI EI NI . . . RW RA RG LR CS CH RL GR Frecuencia relativa Frecuencia Redundancia relativa Redundancia 4,571925 4,391614 3,526478 3,515122 3,358992 3,330936 3,306557 3,258003 3,205071 3,195755 3,070823 2,912341 2,872242 2,852124 2,825294 2,791410 2,790963 2,740978 2,646326 2,645820 2,625135 2,623264 2,578710 2,492596 2,470927 2,468374 2,405621 2,388942 2,386614 2,372239 . . . 0,535215 0,534750 0,533373 0,522976 0,522580 0,520136 0,519439 0,518523 0,491473 0,472090 0,379089 0,377869 0,361085 0,179035 0,355448 0,350229 0,344539 0,343537 0,330107 0,156535 0,308760 0,306598 0,303713 0,450106 0,450034 0,147325 0,284475 0,284420 0,282197 0,140998 0,415809 0,267949 0,066405 0,265345 0,129300 0,385210 0,384834 0,382516 . . . 0,086302 0,344907 0,344019 0,505970 0,168529 0,055914 0,502548 0,334441 4,009552 4,051164 3,479038 3,326773 3,051542 3,091751 2,974552 3,155806 3,142090 3,049672 3,025515 2,722075 2,756674 2,762908 2,768674 2,589083 2,604772 2,530691 2,401024 2,577290 2,615318 2,274163 2,442169 2,442168 2,666904 2,375309 2,483001 2,333385 2,332139 2,345645 . . . 0,453419 0,570411 0,564956 0,527414 0,476641 0,489681 0,511119 0,539812 2,998135 3,023261 2,702870 2,570878 2,475035 1,787851 2,375358 2,421260 2,435492 2,568653 2,480577 1,630812 2,224906 2,239798 2,317980 2,794863 2,839506 1,626402 2,106947 2,176780 2,208317 1,484435 2,727747 2,120720 1,555071 2,127146 1,658547 2,691515 2,632344 2,740471 . . . 1,382325 2,830626 2,764713 3,109444 1,731132 1,220194 3,031947 2,628304 Índice de tablas —— 139 Tabla 12.5 Dipéptido GC VR CP WR RV RR TR PH HS SH RT SC RH WP RP PR SR RS PC HR CR RC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,517965 0,513785 0,513739 0,508368 0,508322 0,503716 0,487456 0,487359 0,481784 0,478888 0,467014 0,460795 0,457870 0,451413 0,426065 0,425567 0,416038 0,412691 0,411855 0,390596 0,384407 0,364871 0,111360 0,331385 0,110452 0,081973 0,327862 0,487336 0,314403 0,104780 0,155372 0,154438 0,301219 0,148603 0,147660 0,048526 0,274807 0,274486 0,402509 0,399271 0,088547 0,125965 0,123969 0,117669 0,511422 0,529630 0,488745 0,452380 0,541475 0,440086 0,505162 0,503317 0,474771 0,473005 0,479966 0,447289 0,421834 0,484226 0,416769 0,416093 0,414803 0,403496 0,402950 0,374975 0,334818 0,327129 1,616901 2,483557 1,568784 1,425671 2,589565 3,097002 2,430696 1,650230 1,655616 1,703461 2,332786 1,728222 1,642727 1,337495 2,309298 2,324626 2,677322 2,686924 1,560821 1,580815 1,518257 1,526175 487,522400 1,218806 0,671410 100,000100 0,250000 0,143840 483,679200 1,209198 0,638838 847,236000 2,118090 0,593264 Tabla 12.5: Proteı́nas naturales de UniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies: 751. 140 —— Resultados numéricos: Dipéptidos Tabla 12.6 Dipéptido EE EK KE KK DE EI KI IE ED MK IK ME KD EM VE EV EN DI DK ID EA VK AE KN KM DD FE EF GK KV . . . HR WT QS RH CV CA WH RS Frecuencia relativa Frecuencia Redundancia relativa Redundancia 7,631730 6,528430 6,323930 6,197247 4,837389 4,607181 4,268946 4,229261 4,081056 4,027580 3,842196 3,664239 3,547477 3,419460 3,355040 3,244847 3,209041 3,057293 3,057025 3,014323 2,999669 2,992123 2,932047 2,922185 2,920192 2,900531 2,881310 2,827001 2,819514 2,816094 . . . 0,304674 0,303854 0,301775 0,294559 0,288465 0,281132 0,279644 0,271351 0,820396 0,701793 0,679810 0,666192 0,520010 0,742894 0,688355 0,681956 0,438705 0,216478 0,619542 0,196949 0,381347 0,183793 0,721320 0,697629 0,344966 0,492979 0,328624 0,486051 0,644917 0,643294 0,630378 0,314129 0,156957 0,311801 0,309735 0,303897 0,606184 0,605449 . . . 0,098256 0,032664 0,097321 0,094993 0,062019 0,060442 0,015031 0,262527 7,645892 6,437656 6,218466 5,437330 4,967788 4,620080 3,972535 4,249151 4,234108 3,523529 3,627513 3,609128 3,551644 3,584415 3,360389 3,239243 3,258494 3,097802 3,100548 3,109382 3,082819 2,741497 2,968299 2,841064 2,825485 3,042347 2,915919 2,940452 2,649093 2,562062 . . . 0,297507 0,322698 0,315893 0,290882 0,271840 0,272287 0,304790 0,261254 3,087425 2,729198 2,725025 2,506232 2,274412 2,797585 2,605716 2,604420 2,075310 1,383101 2,476769 1,434653 1,957268 1,473932 2,739016 2,651495 1,878006 2,146769 1,841915 2,171502 2,633270 2,341184 2,557948 1,853388 1,375109 1,964273 1,762420 1,766921 2,289938 2,261261 . . . 1,252261 1,158098 1,278261 1,243747 1,176744 1,195362 1,061097 1,615404 Índice de tablas —— 141 Tabla 12.6 Dipéptido SW RC HS HW CY TC WP LC CH WS CR HC CL QC CT CS PC SC CQ CW CC WC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,270608 0,268794 0,265531 0,261485 0,259507 0,245394 0,245229 0,235468 0,226947 0,223102 0,220386 0,216745 0,195861 0,195181 0,193014 0,185276 0,164334 0,163938 0,148463 0,132587 0,123554 0,116354 0,043635 0,086685 0,085632 0,014055 0,027896 0,052759 0,026362 0,075937 0,024396 0,035975 0,071073 0,023300 0,063164 0,020982 0,041497 0,059751 0,035331 0,052869 0,015959 0,007126 0,013282 0,006254 0,278525 0,179018 0,269870 0,244978 0,250529 0,218743 0,278466 0,221937 0,195553 0,237457 0,157946 0,196448 0,190240 0,164930 0,195911 0,166841 0,172541 0,144396 0,143978 0,125712 0,097776 0,145053 1,160697 1,222086 1,193821 1,050691 1,067939 1,142123 1,155275 1,188619 1,054054 1,119302 1,142981 1,056840 1,177318 1,072177 1,141367 1,195978 1,104931 1,123549 1,042801 1,086687 1,109756 1,134454 470,585100 1,176463 1,010594 99,999950 0,250000 0,198001 470,865800 1,177164 0,995959 645,199600 1,612999 0,465983 Tabla 12.6: Proteı́nas naturales de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies: 143. 142 —— Resultados numéricos: Dipéptidos Tabla 12.7 Dipéptido EE KK EK KE DE MK EI AE EA IE EM ED DK KD EQ ME MA DD ID AK VE KA KI EN IK KN AD EV DA DI . . . SR SW CI PP CN SS PR WP Frecuencia relativa Frecuencia Redundancia relativa Redundancia 4,564809 4,504370 4,453343 4,121467 3,667467 3,473996 3,068383 3,068374 3,035017 3,016671 2,997580 2,996469 2,946637 2,871064 2,832220 2,736422 2,714981 2,697889 2,650007 2,642129 2,592728 2,582768 2,533940 2,521248 2,506563 2,466563 2,426150 2,419229 2,414011 2,412196 . . . 0,336392 0,335172 0,333194 0,332177 0,327151 0,322078 0,320277 0,318136 0,490708 0,484211 0,478725 0,443049 0,394245 0,186724 0,494768 0,659688 0,652516 0,486429 0,161117 0,322114 0,316758 0,308634 0,304458 0,147080 0,291855 0,290018 0,427306 0,568047 0,557426 0,555285 0,408590 0,271029 0,404176 0,265151 0,521613 0,520124 0,519003 0,388959 . . . 0,325453 0,054045 0,053726 0,142834 0,035168 0,311604 0,206575 0,034199 4,585247 3,657004 4,260348 4,001120 3,828364 2,938810 3,035537 3,084371 3,083692 3,029512 3,114550 3,119900 2,893022 2,883081 2,853886 2,683886 2,441735 2,803878 2,723896 2,458998 2,485874 2,407161 2,355088 2,576096 2,301399 2,321762 2,540292 2,412649 2,519868 2,509863 . . . 0,321725 0,350948 0,327886 0,339967 0,328396 0,327296 0,312264 0,359796 2,476128 2,175540 2,268428 2,313520 2,103231 1,331210 2,266080 2,779347 2,767111 2,267943 1,444826 1,930759 1,848619 1,891782 1,813940 1,370859 1,581689 1,849244 2,129269 2,347378 2,336898 2,321961 2,091476 1,775038 2,039608 1,774794 2,476201 2,326648 2,476817 2,060561 . . . 1,758049 1,193459 1,172133 1,493009 1,113815 1,899164 1,540051 1,196290 Índice de tablas —— 143 Tabla 12.7 Dipéptido YC RS WS CV LC CH CM QC CY CP CL HC CT TC WC CR CS CW RC SC PC CC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,314085 0,308552 0,302159 0,300910 0,294068 0,290055 0,284057 0,271150 0,260182 0,259724 0,258053 0,248142 0,225931 0,224821 0,199195 0,195763 0,185806 0,173026 0,167704 0,164555 0,155211 0,122490 0,033764 0,298518 0,048722 0,064694 0,094835 0,031180 0,015268 0,029148 0,027969 0,055840 0,083220 0,026675 0,048574 0,048336 0,010707 0,063133 0,059921 0,009300 0,054083 0,053068 0,033370 0,013167 0,300627 0,294068 0,313719 0,296512 0,289736 0,262052 0,298545 0,262555 0,277837 0,237580 0,253403 0,240127 0,218853 0,227378 0,211284 0,168426 0,175718 0,191801 0,154392 0,157534 0,164022 0,109215 1,087344 1,699858 1,195201 1,173462 1,230704 1,120940 1,051409 1,091243 1,086278 1,178503 1,205498 1,079925 1,118676 1,169522 1,083009 1,149731 1,170800 1,066364 1,145594 1,151534 1,121989 1,076332 459,098900 1,147747 0,756055 100,005100 0,250013 0,186790 459,649100 1,149123 0,740546 665,559100 1,663898 0,488459 Tabla 12.7: Proteı́nas naturales de UniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies: 1722. 144 —— Resultados numéricos: Dipéptidos Tabla 12.8 Dipéptido EE KK EK KE ED DE MK ME KD DD KN EN DK NK NN MM EM QE QQ KM QK MD EQ NE KQ KI FF MA MN EA . . . RY HC SH TH AR HS RG RA Frecuencia relativa Frecuencia Redundancia relativa Redundancia 5,689515 5,316120 4,436717 4,256407 3,447459 3,307643 3,280591 3,102836 3,046486 2,848537 2,765153 2,755181 2,680386 2,642442 2,628246 2,593756 2,560679 2,506777 2,454570 2,421790 2,395639 2,314779 2,301130 2,299361 2,293665 2,209394 2,205527 2,154371 2,128924 2,121657 . . . 0,545832 0,545245 0,544289 0,540915 0,540674 0,540108 0,539784 0,539680 0,611611 0,571472 0,476938 0,457555 0,370595 0,355565 0,176329 0,166774 0,327491 0,306212 0,297248 0,296176 0,288136 0,284057 0,282531 0,069706 0,137634 0,269474 0,263861 0,130169 0,257526 0,124417 0,247367 0,247177 0,246564 0,356258 0,237090 0,231591 0,114428 0,456148 . . . 0,176028 0,058613 0,175530 0,116295 0,348728 0,174182 0,348154 0,348087 5,974699 4,904411 4,551036 4,359192 3,715764 3,583874 2,885840 3,023628 3,122713 3,096080 2,798033 2,964139 2,675582 2,613101 3,306837 2,341188 2,716898 2,692689 2,855786 2,406901 2,426123 2,368800 2,455696 2,508204 2,301041 2,149126 1,969398 1,867252 2,043467 2,141186 . . . 0,505692 0,479850 0,569640 0,571689 0,525822 0,580082 0,495914 0,531743 3,789903 3,186012 2,965726 2,842270 2,635272 2,600751 1,532141 1,615469 2,269748 2,548349 2,203105 2,257608 2,087726 2,111931 3,203878 1,310669 1,593715 2,181833 2,862673 1,496675 2,012321 1,485242 2,093700 2,143023 1,970973 2,307331 1,951346 1,596915 1,430642 2,753839 . . . 1,552986 1,268130 1,738569 1,475865 2,276977 1,760554 2,171066 2,300929 Índice de tablas —— 145 Tabla 12.8 Dipéptido CH PH LR WH RL RV PC VR RR WP CR WR RW HR SR RT RH RS PR TR RC RP Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,529309 0,528423 0,527896 0,524210 0,501434 0,477238 0,469086 0,467156 0,462281 0,420768 0,417692 0,415741 0,412568 0,409595 0,403625 0,400767 0,394316 0,387576 0,386064 0,384715 0,383913 0,378416 0,056900 0,113609 0,510730 0,028176 0,485128 0,307813 0,100852 0,301310 0,447249 0,045232 0,134703 0,067037 0,066525 0,132092 0,390500 0,258490 0,127164 0,374973 0,249007 0,248136 0,123810 0,244074 0,455040 0,550094 0,542407 0,540078 0,504931 0,469396 0,379913 0,457401 0,385921 0,406727 0,320381 0,426167 0,405913 0,409879 0,402044 0,395021 0,388198 0,391495 0,382172 0,376999 0,299744 0,376489 1,227893 1,463777 2,933858 1,165479 2,797997 2,072418 1,436003 2,085991 2,566222 1,203255 1,422407 1,282555 1,283312 1,523053 2,495382 1,924138 1,505256 2,430338 1,988267 1,856306 1,425328 1,933141 476,521100 1,191303 0,668507 99,999590 0,249999 0,155076 476,313200 1,190783 0,695081 786,102900 1,965257 0,592114 Tabla 12.8: Proteı́nas naturales de UniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508. 146 —— Resultados numéricos: Dipéptidos Tabla 12.9 Dipéptido EE KK EK KE ED ME QE MK MM DE KD EN EM QK KM DK MA EQ MD QQ EA KN DD KQ AE NK FF LE EF DF . . . PI YR GR AR RG NR RR PC Frecuencia relativa Frecuencia Redundancia relativa Redundancia 6,285100 4,487946 4,423820 4,239181 3,699599 3,248833 3,101870 3,062393 2,904276 2,822245 2,744689 2,617676 2,599930 2,564086 2,468382 2,456960 2,441735 2,426542 2,387249 2,284816 2,274932 2,217363 2,217022 2,154217 2,038494 2,027434 1,994033 1,944265 1,941287 1,928283 . . . 0,588324 0,580071 0,580008 0,568011 0,566765 0,565182 0,564294 0,555619 0,675636 0,482445 0,475552 0,455703 0,397699 0,174622 0,333445 0,164601 0,078051 0,303386 0,295049 0,281395 0,139744 0,275634 0,132673 0,264118 0,262482 0,260848 0,128312 0,245613 0,489101 0,238362 0,238325 0,231574 0,438268 0,217945 0,214355 0,627014 0,208685 0,207287 . . . 0,189731 0,187070 0,374098 0,366360 0,365557 0,182268 0,545944 0,119456 6,620176 4,198071 4,495448 4,269969 3,826203 3,266235 3,282201 2,819614 2,466779 2,944539 2,789532 2,741106 2,716100 2,543489 2,425965 2,365485 2,090048 2,612480 2,321289 2,438442 2,330593 2,170194 2,303208 2,205034 2,074426 2,011593 1,873028 2,040000 1,914476 2,005038 . . . 0,600465 0,515895 0,566436 0,553563 0,553563 0,565326 0,439631 0,541227 4,148242 2,918339 3,005549 2,801526 2,640712 1,658666 2,446178 1,533291 1,296832 2,310983 2,107565 2,112836 1,612352 2,042930 1,492875 1,947593 1,615941 2,200276 1,445103 2,376056 2,917828 1,906376 2,147484 1,922251 2,726032 1,810525 1,855602 3,526641 1,752553 1,804367 . . . 1,727715 1,628560 2,327769 2,383798 2,359270 1,653097 2,770079 1,626937 Índice de tablas —— 147 Tabla 12.9 Dipéptido WH RL WS CT CR WC WP IR RI RV PR WR RP RH HR SR VR RW RC RS RT TR Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,555259 0,544469 0,543443 0,534800 0,526415 0,504849 0,497785 0,495564 0,495100 0,490626 0,480043 0,478285 0,469796 0,468629 0,463703 0,455458 0,451457 0,439096 0,436358 0,429653 0,399968 0,383538 0,029845 0,526764 0,087629 0,114980 0,169766 0,027135 0,053511 0,239725 0,239500 0,316448 0,309622 0,077122 0,303013 0,151130 0,149542 0,440648 0,291184 0,070803 0,140723 0,415681 0,257974 0,247377 0,567370 0,544848 0,561977 0,516908 0,434198 0,481196 0,494572 0,499007 0,498689 0,486289 0,483267 0,468720 0,464067 0,461759 0,472015 0,434227 0,456728 0,441722 0,382811 0,408980 0,406037 0,378987 1,190064 2,948596 1,427484 1,508292 1,536193 1,154197 1,235799 1,855776 1,908376 2,112536 2,258193 1,305744 2,136806 1,604986 1,638427 2,616615 2,107456 1,306746 1,577789 2,459517 1,964447 1,842371 469,742700 1,174357 0,630867 99,999460 0,249999 0,162966 468,283400 1,170709 0,640972 782,668700 1,956672 0,607649 Tabla 12.9: Proteı́nas naturales de UniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698. 148 —— Resultados numéricos: Dipéptidos Tabla 12.10 Dipéptido EE KK EK KE ED QE ME MK DE QQ KM QK EM EQ KD EN MA EA MD KQ AE DK KN PE DD MM FF LE AA NK . . . RG ST HA PR CT SI RP WR Frecuencia relativa Frecuencia Redundancia relativa Redundancia 6,395520 4,392437 4,299105 3,984385 3,599617 3,283466 3,120030 2,813267 2,678169 2,645632 2,597998 2,555544 2,516010 2,486757 2,475294 2,390217 2,303952 2,289959 2,214284 2,122454 2,057529 2,043944 2,032310 2,017055 2,014599 2,002159 1,947907 1,926657 1,918315 1,909299 . . . 0,625701 0,623605 0,623084 0,622393 0,617300 0,611137 0,592443 0,579243 0,687506 0,472178 0,462145 0,428313 0,386952 0,352966 0,167699 0,151210 0,287898 0,284400 0,139640 0,274716 0,135233 0,267321 0,266089 0,256944 0,247670 0,492332 0,119016 0,228160 0,442361 0,219720 0,218469 0,433659 0,216565 0,053807 0,209396 0,621335 0,824860 0,205246 . . . 0,403570 0,402217 0,133961 0,401436 0,132717 0,295632 0,382119 0,093401 6,692800 4,074931 4,596410 4,094245 3,711239 3,479798 3,026736 2,592662 2,778600 2,540612 2,449935 2,515078 2,584805 2,756013 2,506240 2,619178 1,994582 2,346654 2,133054 2,118650 2,122251 2,062672 2,031246 2,032719 2,131417 1,931402 1,803079 2,035393 1,842443 1,914707 . . . 0,601081 0,644674 0,632616 0,587059 0,560107 0,631870 0,548376 0,528571 4,124470 2,862926 3,173107 2,703047 2,534541 2,530350 1,582677 1,547480 2,233684 2,366880 1,489057 2,005481 1,576677 2,289638 1,987023 2,168293 1,589617 2,877760 1,421466 1,937725 2,666255 1,884834 1,876323 2,638411 2,110535 1,253186 1,906542 3,429491 4,112715 1,799692 . . . 2,448766 2,481310 1,521055 2,425609 1,489121 2,133628 2,322320 1,326396 Índice de tablas —— 149 Tabla 12.10 Dipéptido WH RL PI WS NR WC RR CR RY RW HR RH RV RI YR IR VR SR RC RS RT TR Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,577365 0,573512 0,550925 0,549447 0,547607 0,545043 0,539368 0,535136 0,530802 0,530524 0,521715 0,513771 0,507379 0,506426 0,499187 0,467245 0,460736 0,458861 0,454268 0,430367 0,425201 0,398503 0,031033 0,554862 0,177670 0,088597 0,176600 0,029296 0,521829 0,172578 0,171181 0,085545 0,168250 0,165688 0,327254 0,244979 0,160985 0,226026 0,297169 0,443940 0,146499 0,416372 0,274250 0,257029 0,566326 0,564108 0,568181 0,578548 0,554105 0,493653 0,489361 0,473466 0,512313 0,505220 0,521806 0,539265 0,498509 0,496563 0,491689 0,464628 0,457044 0,461063 0,431783 0,421562 0,426327 0,384862 1,196404 2,879502 1,724743 1,476880 1,673698 1,165379 2,766605 1,603474 1,570759 1,319840 1,703598 1,705314 2,076591 1,875275 1,606417 1,805768 2,048166 2,575376 1,607230 2,424179 1,966776 1,858272 460,735900 1,151840 0,601109 99,998860 0,249997 0,167621 460,868400 1,152171 0,616820 783,527700 1,958819 0,598517 Tabla 12.10: Proteı́nas naturales de UniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies: 1. 150 —— Resultados numéricos: Dipéptidos 13.-Resultados numéricos: Tripéptidos Introducción 162 Se muestran en este capı́tulo los principales datos numéricos encontrados en el análisis de la frecuencia y de la redundancia de los tripéptidos en las proteı́nas naturales de la base de datos UniProt y en las proteı́nas aleatorias de RandomUniProt, aunque en este último caso solo en las dos primeras tablas, correspondientes a las proteı́nas de todos los organismos. Los datos se exponen en forma de tablas con filas ordenadas por el valor decreciente de la primera columna numérica. 163 Cada tabla incluye los 30 tripéptidos de mayor frecuencia relativa y los 30 de menor frecuencia relativa, separados por una fila de puntos suspensivos. Las medidas estadı́sticas, total, media aritmética y desviación tı́pica, corresponden a los datos de la tabla completa de los 8000 tripéptidos. Índice de tablas Tripéptidos. Tripéptidos. Tripéptidos. Tripéptidos. Tripéptidos. Tripéptidos. Tripéptidos. Naturales. Cada. Todos. Aleatorias. Cada. Todos. Naturales. Una. Todos. Aleatorias. Una. Todos. Naturales. Cada. Virus. Naturales. Cada. Archaea. Naturales. Cada. Bacteria. 151 153 155 157 159 161 163 165 152 —— Resultados numéricos: Tripéptidos Tripéptidos. Naturales. Cada. Eukaryota. Tripéptidos. Naturales. Cada. Mammalia. Tripéptidos. Naturales. Cada. Homo sapiens. 167 169 191 Tabla 13.1 Dipéptido EEE KKK KEK MKK EEK KEE EKE DEE KKE EKK EEM EEI EKM MEK EDE EKI MAK KKI EED IEK KEI MKE MEE DDE KNK IEE NNN EEA DKK AKK . . . TRC Frecuencia relativa Frecuencia Redundancia relativa Redundancia 14,615340 10,946620 10,393710 10,285960 10,266800 9,636394 9,466668 9,430338 9,224192 8,534490 8,280358 8,171175 7,988013 7,763685 7,702605 7,611315 7,309571 7,284275 7,274119 7,265225 7,211823 7,167647 7,133473 7,067442 7,047207 7,044464 7,009557 6,905039 6,883803 6,858969 . . . 0,179824 0,051512 0,038582 0,036633 0,018127 0,036186 0,033964 0,033366 0,033237 0,032511 0,030080 0,014592 0,043199 0,014077 0,013682 0,027148 0,040239 0,025763 0,038510 0,025638 0,038410 0,038127 0,012631 0,012571 0,024909 0,024838 0,037243 0,024705 0,048674 0,024262 0,048349 . . . 0,003803 15,786300 9,756468 10,298560 8,283152 9,895306 9,729084 9,806875 9,912922 8,642803 8,243908 8,796641 8,253733 7,988035 7,399895 8,178849 7,089778 5,097217 6,328614 8,267803 6,947336 7,062568 6,978848 7,337453 7,658209 6,046405 7,033034 11,812870 6,933412 6,158731 5,542596 . . . 0,139826 1,642166 1,440747 1,222616 1,043736 1,198264 1,211371 1,228366 1,203626 1,186903 1,186579 1,066980 1,163620 1,058130 1,045542 1,229019 1,141798 1,034368 1,161361 1,203524 1,144732 1,163296 1,045136 1,060502 1,180264 1,141568 1,137345 4,210569 1,189541 1,115957 1,144599 . . . 1,017989 Índice de tablas —— 153 Tabla 13.1 Dipéptido PCS CSW SWC CWS CRT CWP WRC PCW HSC RTC SPC RSC SCR CTW CRS WCS PRC CSR CWR WPR HRC CHW CRW PCR RCT SRC RCS RPC WPC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,177827 0,177399 0,176785 0,176103 0,174996 0,173980 0,170199 0,168651 0,162396 0,162082 0,161484 0,159370 0,159237 0,158293 0,158013 0,157521 0,155948 0,152781 0,151493 0,150979 0,149872 0,149579 0,145125 0,139789 0,137534 0,132022 0,128060 0,126542 0,114442 0,003761 0,000938 0,000935 0,000931 0,003701 0,000613 0,000900 0,000594 0,001717 0,003428 0,003415 0,005055 0,005051 0,000558 0,005012 0,000833 0,003298 0,004846 0,000801 0,001596 0,001585 0,000264 0,000767 0,002956 0,002908 0,004188 0,004062 0,002676 0,000403 0,191279 0,189535 0,161047 0,182442 0,157471 0,167791 0,174535 0,183663 0,170349 0,150494 0,173140 0,136841 0,126105 0,190814 0,147810 0,159768 0,137035 0,139806 0,184186 0,165524 0,154651 0,160117 0,132093 0,130320 0,134651 0,120291 0,125272 0,120494 0,117035 1,054656 1,039541 1,013909 1,008355 1,022847 1,004175 1,021088 1,000000 1,024476 1,045859 1,083697 1,043446 1,029914 1,023386 1,031373 1,033083 1,043844 1,033821 1,014084 1,029656 1,025048 1,006579 1,008881 1,038934 1,019815 1,024426 1,030448 1,029558 1,012066 10044,700000 1,255588 1,038732 99,999320 0,012500 0,011497 10100,520000 1,262565 1,034213 8431,288000 1,053911 0,062133 Tabla 13.1: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. 154 —— Resultados numéricos: Tripéptidos Tabla 13.2 Dipéptido WEW EWC MWF KQE DMM YYW QEW MWD CMW HMD DNW KMW MMW FWM TMM MWM KEM WWA MMH MVW MFD WHM NWH YWM MWY EMQ IMQ FMC MMI WFE . . . WHE YWW IMK KHW DDK DMW Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,075444 1,053831 1,053647 1,053171 1,052359 1,049121 1,048399 1,047893 1,046733 1,045310 1,044839 1,043996 1,043353 1,043330 1,042640 1,042429 1,041267 1,040918 1,040665 1,039958 1,039902 1,039900 1,039775 1,038766 1,038589 1,038207 1,037911 1,037845 1,036398 1,036189 . . . 0,966950 0,966687 0,966624 0,966091 0,966050 0,966034 0,000948 0,001857 0,000928 0,003712 0,000927 0,001849 0,001848 0,000923 0,000922 0,001842 0,001841 0,000920 0,000460 0,000919 0,001837 0,000459 0,001835 0,001834 0,000917 0,001833 0,001833 0,000916 0,001832 0,000915 0,000915 0,001830 0,002744 0,001829 0,001370 0,001826 . . . 0,001704 0,000852 0,002555 0,001703 0,003405 0,000851 1,026978 1,012676 1,040234 1,005699 1,001862 1,011629 1,000815 1,014420 1,024188 1,016862 1,005699 1,026281 1,024188 1,017211 1,015467 1,059071 1,012676 1,007792 1,023490 1,015467 1,009536 1,019304 1,016164 1,008141 1,013722 1,006746 1,006048 1,010583 0,996746 1,013723 . . . 0,989304 0,987908 0,992327 0,994188 1,001513 0,992095 1,005464 1,000689 1,000000 1,011047 1,014124 1,002073 1,002796 1,000688 1,000000 1,001718 1,005932 1,003411 1,006859 1,004824 1,006918 1,000000 1,004846 1,002429 1,000000 1,002756 1,004512 1,000000 1,002064 1,000000 1,000689 1,003477 1,008157 1,008354 1,004688 1,003107 . . . 1,002120 1,002123 1,008509 1,003875 1,010560 1,007082 Índice de tablas —— 155 Tabla 13.2 Dipéptido TQM EQN QHM IEE YQW WQM KWF MMM KMH TWM WMM WDM FWW FWG YCM FMF MWT WWY CWH YMK MMD MMN WMY DMN Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,965647 0,965591 0,964911 0,964362 0,964235 0,964177 0,963642 0,963572 0,963418 0,963205 0,962827 0,962628 0,961748 0,961658 0,960078 0,959779 0,959136 0,957290 0,955113 0,953731 0,953581 0,950534 0,946395 0,941130 0,003403 0,003403 0,001700 0,005098 0,001699 0,000850 0,001698 0,000425 0,001698 0,001697 0,000424 0,000848 0,000847 0,003389 0,001692 0,001691 0,001690 0,000843 0,001683 0,001681 0,000840 0,000838 0,000834 0,001659 0,990002 0,990699 0,998025 0,995699 0,992095 0,980234 0,978839 0,997676 0,999071 0,986513 0,976746 0,980932 0,989304 0,998548 0,999420 0,993141 0,990001 0,980234 0,981629 0,985118 0,985815 0,973955 0,979536 0,978490 1,013934 1,014105 1,002453 1,014333 1,004947 1,000712 1,003936 1,057692 1,002801 1,008919 1,000000 1,000712 1,000706 1,012916 1,008093 1,004233 1,006740 1,001426 1,007880 1,004625 1,002839 1,004317 1,000000 1,004296 8000,618000 1,000077 0,009504 99,999960 0,012500 0,012598 7999,718000 0,999965 0,004392 8275,729000 1,034466 0,034708 Tabla 13.2: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. 156 —— Resultados numéricos: Tripéptidos Tabla 13.3 Dipéptido EEE NNN KEK DEE EEK EKE QQQ KKK KEE EEM KKE MKK EED EEI EKK EDE EKM DDE MEK MEE DED EKI KEI IEE MKE DDD IEK EEA EME KEM . . . CWP CRP CCR WPR CTR RCC SWC CHW Frecuencia relativa Frecuencia Redundancia relativa Redundancia 15,786300 11,812870 10,298560 9,912922 9,895306 9,806875 9,778620 9,756468 9,729085 8,796641 8,642803 8,283152 8,267803 8,253734 8,243908 8,178849 7,988036 7,658210 7,399895 7,337453 7,156929 7,089778 7,062569 7,033034 6,978848 6,961057 6,947336 6,933412 6,705010 6,662801 . . . 0,167791 0,166977 0,166570 0,165524 0,165349 0,162675 0,161047 0,160117 0,055639 0,041635 0,036298 0,034938 0,034876 0,034565 0,034465 0,034387 0,034290 0,015502 0,030462 0,014597 0,029140 0,043636 0,029056 0,028827 0,014077 0,026992 0,013041 0,012931 0,025225 0,037482 0,037338 0,037182 0,012299 0,024534 0,036729 0,048874 0,011816 0,011742 . . . 0,000591 0,003531 0,001761 0,001750 0,003497 0,001720 0,000851 0,000282 138,477200 355,060200 103,098200 101,496900 101,044700 103,583100 234,611100 121,492300 102,150000 179,948100 100,086700 176,028100 101,488300 65,407000 100,059400 103,638200 178,455700 99,526860 176,332600 178,855700 100,958400 64,180360 65,388760 63,930060 176,264200 124,415800 64,345290 50,154590 177,566700 177,381600 . . . 84,678020 15,014400 31,564370 28,938450 14,275850 29,485440 56,991750 169,761400 1,642166 4,210569 1,222616 1,203626 1,198264 1,228366 2,782194 1,440747 1,211371 1,066980 1,186903 1,043736 1,203524 1,163620 1,186579 1,229019 1,058130 1,180264 1,045542 1,060502 1,197240 1,141798 1,163296 1,137345 1,045136 1,475416 1,144732 1,189541 1,052859 1,051762 . . . 1,004175 1,068452 1,123089 1,029656 1,015896 1,049119 1,013909 1,006579 Índice de tablas —— 157 Tabla 13.3 Dipéptido WCS CRT RRC CRR HRC RTC CRS CPR CRC TRC CSR PRC RSC RCT RCR CRW PCR SCR RCS RPC SRC WPC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,159768 0,157471 0,157151 0,154884 0,154651 0,150494 0,147810 0,146657 0,146163 0,139826 0,139806 0,137035 0,136841 0,134651 0,134109 0,132093 0,130320 0,126105 0,125272 0,120494 0,120291 0,117035 0,000845 0,003330 0,004985 0,004913 0,001635 0,003183 0,004689 0,003101 0,001545 0,002957 0,004435 0,002898 0,004341 0,002847 0,004254 0,000698 0,002756 0,004000 0,003974 0,002548 0,003816 0,000412 58,069490 14,373540 9,688599 9,825748 28,808930 14,696910 9,662304 14,797490 30,441990 14,305270 9,685239 14,668600 9,775414 14,330930 9,756100 56,709110 14,599600 9,648644 9,653642 14,467840 9,597230 85,343440 1,033083 1,022847 1,034179 1,048819 1,025048 1,045859 1,031373 1,053016 1,083154 1,017989 1,033821 1,043844 1,043446 1,019815 1,041384 1,008881 1,038934 1,029914 1,030448 1,029558 1,024426 1,012066 10100,520000 1,262565 1,034213 100,000100 441601,800000 0,012500 0,011307 8431,288000 55,200220 58,081330 1,053911 0,062133 Tabla 13.3: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. 158 —— Resultados numéricos: Tripéptidos Tabla 13.4 Dipéptido MWM WWE WWW MWF WMN QWW FMW WEW KMW MME WWH WMF WQW EWW CMW MMW CWM MMH EMF EWH QMM CMC YQM WHM CWY MWQ PMW HWW GMQ NDW . . . WDM NWK AWM EWD WWY WQM MMF FWN Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,059071 1,040932 1,040932 1,040234 1,038141 1,029071 1,027676 1,026978 1,026281 1,025583 1,024885 1,024885 1,024188 1,024188 1,024188 1,024188 1,023490 1,023490 1,023141 1,022094 1,021397 1,019653 1,019304 1,019304 1,018955 1,018606 1,018257 1,017908 1,017560 1,017560 . . . 0,980932 0,980583 0,980234 0,980234 0,980234 0,980234 0,980234 0,979885 0,000467 0,000917 0,000459 0,000917 0,000915 0,000907 0,000906 0,000905 0,000904 0,000904 0,000903 0,000903 0,000902 0,000902 0,000902 0,000451 0,000902 0,000902 0,001803 0,001801 0,000900 0,001797 0,001796 0,000898 0,001796 0,000898 0,001794 0,000897 0,003586 0,001793 . . . 0,000864 0,001728 0,001727 0,001727 0,000864 0,000864 0,000864 0,001727 674,607400 337,756500 674,607400 337,303700 338,212900 337,532600 337,303700 339,146900 338,454200 337,533300 337,303700 337,303700 337,303700 337,303700 337,303700 679,234400 338,457300 337,303700 170,218800 169,287400 337,534300 169,463500 170,048600 337,303700 169,814600 339,395900 169,581400 337,766800 85,364820 169,640500 . . . 337,543800 168,711900 169,254200 169,073000 337,784500 337,544000 337,303700 169,375400 1,000000 1,001342 1,000000 1,000000 1,002695 1,000678 1,000000 1,005464 1,003411 1,000681 1,000000 1,000000 1,000000 1,000000 1,000000 1,006859 1,003420 1,000000 1,009291 1,003768 1,000684 1,004813 1,008282 1,000000 1,006894 1,006203 1,005512 1,001373 1,012320 1,005862 . . . 1,000712 1,000356 1,003571 1,002497 1,001426 1,000712 1,000000 1,004290 Índice de tablas —— 159 Tabla 13.4 Dipéptido WFY WMH WMY KWF EWK DMN MWC CWE MQE WHW WMM CMD MMN YWE WMW TMW QMW FMQ DWW CMM MWW WWD Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,979536 0,979536 0,979536 0,978839 0,978839 0,978490 0,978141 0,977095 0,977095 0,976746 0,976746 0,976397 0,973955 0,973606 0,972560 0,972211 0,970467 0,970118 0,967676 0,966978 0,960002 0,955815 0,001726 0,000863 0,000863 0,001725 0,001725 0,001724 0,000862 0,001722 0,001722 0,000861 0,000430 0,001721 0,000858 0,001716 0,000428 0,001713 0,000855 0,001710 0,000853 0,000852 0,000423 0,000842 169,073300 337,544100 337,303700 169,315600 169,073600 169,376500 337,785600 170,170700 169,742700 337,544800 674,607400 169,195900 338,759700 168,772800 674,607400 169,381200 337,303700 169,321600 337,303700 337,303700 674,607400 337,303700 1,002499 1,000713 1,000000 1,003936 1,002501 1,004296 1,001429 1,009006 1,006468 1,000715 1,000000 1,003226 1,004317 1,000717 1,000000 1,004324 1,000000 1,003971 1,000000 1,000000 1,000000 1,000000 7999,718000 0,999965 0,004392 99,999730 433229,400000 0,012500 0,012596 8275,729000 54,153670 57,331410 1,034466 0,034708 Tabla 13.4: Proteı́nas aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124. 160 —— Resultados numéricos: Tripéptidos Tabla 13.5 Dipéptido EEE KKK KEE DEE DDD EDE KEK KKI DDE DED KNK KKN EKE MKK NKK KKE EED KKM EEK EKK IKK KNN KKY MMM MEQ EDD MEK NNN NNK MDE . . . CRR SWR CTR WPG RCS HRT TRC CWS Frecuencia relativa Frecuencia Redundancia relativa Redundancia 16,957130 12,164360 9,229603 9,135238 8,795831 8,708159 8,660282 8,389360 8,359850 8,341499 8,287954 8,185553 8,155593 8,115122 8,100307 8,092379 8,059515 7,908504 7,651673 7,606940 7,386122 7,257917 7,252396 7,207379 7,119873 7,026076 6,911339 6,815853 6,779328 6,672134 . . . 0,258974 0,258767 0,256985 0,255101 0,252421 0,250915 0,247769 0,245426 0,059766 0,042874 0,032530 0,032197 0,031001 0,030692 0,030523 0,044353 0,029464 0,029400 0,029211 0,028850 0,028745 0,014301 0,028550 0,028522 0,028406 0,013937 0,026969 0,026811 0,039049 0,025581 0,025561 0,003175 0,012547 0,024764 0,012180 0,024023 0,023894 0,011758 . . . 0,008215 0,004104 0,005434 0,001798 0,008007 0,005306 0,005240 0,001298 13,813010 10,282330 9,229318 7,857071 8,114367 8,042895 7,980953 7,201122 7,909482 7,494949 6,923179 6,541999 7,690304 5,946405 6,260880 7,251947 6,856473 7,852306 6,637295 7,223359 7,045475 6,427646 5,855875 9,529496 3,697444 6,075055 6,022642 6,480058 5,641462 6,727825 . . . 0,213355 0,244590 0,320826 0,290650 0,198531 0,267620 0,265238 0,216002 1,632320 1,386889 1,236120 1,210720 1,468103 1,291507 1,158368 1,226068 1,221486 1,191667 1,182262 1,091415 1,167873 1,072165 1,113559 1,135821 1,179508 1,043038 1,173547 1,144151 1,195687 1,097640 1,133764 1,033058 1,029178 1,135352 1,073005 1,333333 1,112782 1,030657 . . . 1,116343 1,031250 1,041237 1,016667 1,024590 1,024316 1,098684 1,014925 Índice de tablas —— 161 Tabla 13.5 Dipéptido TRW RMW RHS SRC HWS PCH WPR RPC AHC HWW WHM PCR WSC CRP RSC HRS RCR SCR RWP CWP WPC WHC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,243900 0,237529 0,236978 0,236461 0,236211 0,234023 0,233241 0,232471 0,231878 0,231781 0,231699 0,224060 0,217553 0,215996 0,205653 0,204781 0,200941 0,200526 0,195340 0,190547 0,174162 0,118612 0,002579 0,000628 0,007517 0,007501 0,001249 0,001650 0,002466 0,004916 0,001635 0,000204 0,000204 0,004738 0,001150 0,004568 0,006523 0,006496 0,006374 0,006361 0,002065 0,000672 0,000614 0,000209 0,270002 0,317650 0,232943 0,225002 0,362121 0,235855 0,228708 0,231884 0,321621 0,304944 0,381180 0,234267 0,219178 0,194561 0,192178 0,203825 0,197472 0,178413 0,227120 0,152472 0,157237 0,190590 1,005917 1,000000 1,037736 1,051980 1,027027 1,010204 1,014084 1,006896 1,000000 1,000000 1,000000 1,064982 1,000000 1,029412 1,028329 1,069444 1,056657 1,024316 1,014184 1,000000 1,000000 1,000000 10804,770000 1,350597 1,041804 99,999990 0,012500 0,009572 10697,780000 1,337223 0,983543 8616,118000 1,077015 0,071261 Tabla 13.5: Proteı́nas naturales de UniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies: 751. 162 —— Resultados numéricos: Tripéptidos Tabla 13.6 Dipéptido EEE EEI KEE KEK EEK EKI KKE IEE DEE EKE KEI IEK MKK KKI IKE EIE EIK KKK DEI IKK MKE EEA KIK EKK EEM VEE MEK MEE IDE EEF . . . CRW SCC PCC WPW QCC TCC CWP CCP Frecuencia relativa Frecuencia Redundancia relativa Redundancia 19,143880 17,439780 16,616500 15,453870 14,995630 14,958150 14,714140 14,058590 13,793950 13,582750 13,568210 13,546190 13,169590 13,114880 12,465130 12,147250 12,079290 11,720720 11,579480 11,453310 11,360120 11,305220 11,279470 11,206660 11,182940 11,091360 11,011750 10,699530 10,670350 10,602490 . . . 0,056266 0,055455 0,052952 0,052415 0,051718 0,051241 0,051172 0,050686 0,067473 0,092200 0,058565 0,054468 0,052852 0,079081 0,051860 0,074325 0,048617 0,047873 0,071732 0,071616 0,023208 0,069336 0,065900 0,064220 0,063861 0,041310 0,061218 0,060551 0,020020 0,079691 0,059632 0,039498 0,019707 0,078184 0,019406 0,018855 0,056412 0,037369 . . . 0,000297 0,000586 0,000373 0,000092 0,000182 0,000361 0,000180 0,000357 19,199950 17,009380 16,377230 15,297480 15,144010 14,681780 13,494230 14,301760 13,724430 14,036850 13,633080 13,245760 10,983930 11,597800 12,533230 12,295720 11,447990 9,558868 11,798770 10,545450 10,271400 10,855130 9,916961 10,391980 12,595340 11,288120 10,512560 10,567370 10,567370 11,142880 . . . 0,051156 0,054810 0,041108 0,098658 0,087696 0,101399 0,060291 0,049329 1,421672 1,232460 1,207761 1,183630 1,200261 1,217576 1,155869 1,184625 1,143379 1,196729 1,252013 1,179245 1,037267 1,159664 1,184801 1,176573 1,187192 1,197802 1,136972 1,160901 1,049272 1,193072 1,161318 1,140794 1,058986 1,225528 1,052689 1,037675 1,131013 1,113363 . . . 1,000000 1,034483 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 Índice de tablas —— 163 Tabla 13.6 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,049053 0,046921 0,045396 0,042020 0,041543 0,040981 0,040355 0,040228 0,039933 0,039490 0,038840 0,038037 0,034351 0,033710 0,030384 0,029713 0,025127 0,024088 0,024045 0,023528 0,017410 0,001887 0,000086 0,000165 0,000160 0,000148 0,000146 0,000144 0,000142 0,000142 0,000035 0,000139 0,000411 0,000134 0,000061 0,000178 0,000054 0,000105 0,000022 0,000042 0,000042 0,000021 0,000031 0,000007 0,065772 0,065772 0,098658 0,038367 0,049329 0,049329 0,032886 0,043848 0,087696 0,049329 0,038367 0,060291 0,021924 0,047502 0,043848 0,049329 0,021924 0,021924 0,032886 0,043848 0,021924 0,005481 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 1,000000 Total Average S.D. 10179,070000 1,272384 1,489055 100,000000 0,012500 0,013453 10201,760000 1,275220 1,466102 8283,841000 1,035480 0,038674 Total Average S.D. 470,585100 1,176463 1,010594 99,999950 0,250000 0,198001 470,865800 1,177164 0,995959 645,199600 1,612999 0,465983 QWC CWV CCY NCC TWC WCA QCH WPH CWW CCH HSC CTW CWC SWC QCW WHT WCW CWH WCQ CMW CQW PCW Tabla 13.6: Proteı́nas naturales de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies: 143. 164 —— Resultados numéricos: Tripéptidos Tabla 13.7 Dipéptido MKK KEK EEE EEK MAK EKM EEI KEE EKE EKI KKE KKK EEM DEE IEK IEE KEI MEK AKK KKI EEA EKK KNK EIE IKE DKK MKE KKA EKA AKE . . . WTC WCC SPC TCC WWC CMW CCI HSC Frecuencia relativa Frecuencia Redundancia relativa Redundancia 11,205030 9,558001 9,453230 9,074572 8,841528 8,625473 8,624070 8,431584 8,244724 8,219271 8,212364 8,077364 8,051406 7,915052 7,868661 7,544481 7,536212 7,450618 7,420534 7,204997 7,132503 7,130339 7,004619 6,990292 6,965307 6,941974 6,912667 6,860850 6,847263 6,735296 . . . 0,084947 0,082476 0,082370 0,081411 0,080859 0,080674 0,079772 0,078314 0,019746 0,033687 0,033318 0,031984 0,031162 0,015200 0,045594 0,029717 0,029059 0,043454 0,028945 0,028469 0,014189 0,027897 0,041600 0,039886 0,039842 0,013130 0,052308 0,038091 0,050277 0,025131 0,024688 0,036956 0,036824 0,024467 0,012182 0,048362 0,048267 0,047477 . . . 0,000299 0,000145 0,001742 0,000574 0,000071 0,000071 0,000422 0,000828 8,702891 8,937271 9,106514 8,382728 6,189847 8,554586 8,742051 8,082046 8,078847 7,543203 7,308824 6,009845 8,560402 8,045114 7,593802 7,571896 7,437160 7,165171 5,930314 6,172205 7,150777 6,438185 5,534978 7,194638 6,702808 5,938601 6,777252 5,338547 6,467410 6,219944 . . . 0,080841 0,083749 0,080792 0,071390 0,100033 0,097707 0,077545 0,082198 1,026478 1,141086 1,209532 1,124605 1,032048 1,048396 1,148628 1,144640 1,137255 1,129463 1,117762 1,198921 1,046573 1,100915 1,134701 1,126890 1,158968 1,033470 1,120830 1,153049 1,158345 1,098596 1,106821 1,127784 1,144034 1,096719 1,038499 1,110752 1,128301 1,136017 . . . 1,000000 1,066667 1,004217 1,006148 1,000000 1,000000 1,000000 1,005931 Índice de tablas —— 165 Tabla 13.7 Dipéptido PPC CIW NCC YCW CKW SRC RPC CSW CRW RCS CWC WCS CRC HCC WPC CCR CMC RCC PCC CCP CWW CCC Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,078166 0,076927 0,073918 0,072747 0,072653 0,072135 0,071969 0,071711 0,069067 0,068091 0,067718 0,067378 0,066023 0,061442 0,060849 0,055973 0,055376 0,054731 0,054297 0,052689 0,048535 0,045151 0,001102 0,000203 0,000261 0,000128 0,000128 0,002288 0,001522 0,000379 0,000365 0,002160 0,000119 0,000356 0,000698 0,000217 0,000214 0,000592 0,000098 0,000579 0,000383 0,000371 0,000043 0,000159 0,068409 0,095768 0,085203 0,077933 0,069791 0,071309 0,074007 0,074831 0,080453 0,068789 0,079678 0,070372 0,048950 0,062230 0,071245 0,046139 0,040130 0,044201 0,053797 0,046382 0,047690 0,036640 1,001064 1,008163 1,000000 1,007519 1,008403 1,003182 1,002626 1,000000 1,000000 1,005194 1,000000 1,002762 1,005976 1,000000 1,012397 1,004219 1,000000 1,004405 1,002710 1,006309 1,000000 1,076923 9823,719000 1,227965 1,076215 99,999340 0,012500 0,012514 9856,301000 1,232038 1,052969 8309,242000 1,038655 0,038147 Tabla 13.7: Proteı́nas naturales de UniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies: 1722. 166 —— Resultados numéricos: Tripéptidos Tabla 13.8 Dipéptido EEE NNN KKK QQQ EEK DEE EKE KEK KEE EKK EED EDE KKE DDD DED DDE EEM MEE MEK EDD MKK MKE QEE NKK KKM KNK KKD EEQ DKK KKN . . . WTR RST RLC WRT WRP CRH HRC RWH Frecuencia relativa Frecuencia Redundancia relativa Redundancia 25,691970 18,753290 17,344140 15,541910 12,663420 12,380200 11,877880 11,831160 11,532610 11,518710 11,202330 11,058770 10,948310 10,163470 9,034679 8,723994 8,661751 8,455058 8,143301 8,125828 8,005497 7,398709 7,093279 7,051556 6,922498 6,916203 6,875600 6,860163 6,785423 6,696084 . . . 0,275650 0,273384 0,273167 0,270152 0,269906 0,269584 0,266405 0,264944 0,090552 0,066096 0,061130 0,054778 0,044633 0,043634 0,041864 0,041699 0,040647 0,040598 0,039483 0,038977 0,038588 0,035821 0,031843 0,030748 0,015264 0,014900 0,014351 0,028640 0,014108 0,013038 0,025000 0,024853 0,012199 0,024376 0,024233 0,024179 0,023915 0,023601 . . . 0,002915 0,017344 0,008665 0,002856 0,002854 0,002850 0,002817 0,001401 27,752880 30,601250 16,490860 22,424690 12,485910 13,150950 12,758760 12,535850 12,124210 11,415010 12,412300 12,162590 10,742610 11,716250 9,915650 9,794209 9,170701 9,007728 7,677650 8,931498 7,523088 7,261278 7,638747 6,837020 6,620948 6,786025 6,859626 7,489967 6,605702 6,614114 . . . 0,289848 0,291922 0,278049 0,315959 0,294405 0,245337 0,244636 0,304218 2,112952 7,192389 1,688721 4,722653 1,303226 1,349463 1,361744 1,358225 1,301100 1,300725 1,333974 1,384003 1,293864 1,835145 1,352722 1,317166 1,104190 1,085530 1,063192 1,271061 1,080163 1,053708 1,200330 1,183133 1,068919 1,195075 1,162716 1,175495 1,159026 1,173820 . . . 1,038293 1,083469 1,066786 1,032055 1,025015 1,032448 1,041014 1,009302 Índice de tablas —— 167 Tabla 13.8 Dipéptido RRP CWR SRC TRR PRC RRW RCS CRT HRT HTR RPC PCW RCT RWS RTR PCR WPC RHT RPH WPR TRC RWP Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,263828 0,263525 0,261919 0,260918 0,260585 0,258415 0,257211 0,256145 0,252979 0,251480 0,249600 0,249273 0,248785 0,247781 0,247131 0,245662 0,237523 0,234087 0,232388 0,227369 0,216075 0,215369 0,016738 0,001393 0,008308 0,016553 0,005511 0,004099 0,008159 0,005417 0,005350 0,005318 0,005278 0,000879 0,005261 0,003930 0,015678 0,005195 0,000837 0,004950 0,004914 0,002404 0,004569 0,002277 0,250332 0,212742 0,200592 0,245512 0,208712 0,270689 0,223315 0,204418 0,259532 0,262248 0,197058 0,232369 0,198986 0,262861 0,239291 0,195218 0,200300 0,249368 0,257604 0,218175 0,184879 0,211516 1,092961 1,003306 1,035897 1,067429 1,056319 1,028407 1,046251 1,035049 1,030978 1,037435 1,052410 1,000000 1,028533 1,025992 1,081870 1,060952 1,013298 1,027808 1,048128 1,018822 1,020803 1,010888 10458,170000 1,307271 1,059451 99,999000 0,012500 0,010430 10466,400000 1,308300 1,139998 8582,633000 1,072829 0,104644 Tabla 13.8: Proteı́nas naturales de UniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508. 168 —— Resultados numéricos: Tripéptidos Tabla 13.9 Dipéptido EEE KKK EEK EED KEE EDE EKE DEE KEK MEE EKK EEM QQQ KKE QEE WWN EEQ MEK DED MMF MKE MKK EME EDD EQE DDD EEA EKM EMK KMK . . . WTR SRW VRP THR SRT WRC IRP HTR Frecuencia relativa Frecuencia Redundancia relativa Redundancia 31,098110 15,059440 13,671380 12,479810 12,158490 11,661270 11,559820 11,520860 11,501840 10,151510 10,073200 10,027300 9,967902 9,839431 9,203201 8,870749 8,391528 8,329630 8,077299 7,866692 7,805060 7,399291 7,290658 7,097834 7,013269 6,976424 6,967886 6,832005 6,756270 6,707900 . . . 0,294441 0,292474 0,291654 0,291582 0,290245 0,290244 0,289479 0,289021 0,109606 0,053077 0,048185 0,043985 0,042853 0,041100 0,040743 0,040606 0,040539 0,017890 0,035503 0,017671 0,035132 0,034679 0,032437 0,007816 0,029576 0,014679 0,028469 0,006932 0,013755 0,013039 0,012848 0,025016 0,024718 0,024589 0,049117 0,012040 0,011906 0,011821 . . . 0,003113 0,004639 0,012335 0,006166 0,018414 0,001534 0,009182 0,006112 33,087940 14,285840 13,547140 13,196380 13,112330 11,919420 12,616090 11,605830 11,874160 10,251280 9,885973 10,173690 10,923710 9,845563 10,046000 8,133782 8,827223 7,826664 8,364929 7,235058 7,283550 7,054020 8,253397 7,524395 7,909101 6,986130 7,527628 7,403164 6,533535 6,297539 . . . 0,314123 0,306759 0,304020 0,294726 0,314033 0,286644 0,290774 0,301730 2,307259 1,642141 1,325478 1,353224 1,304390 1,367835 1,359756 1,313575 1,327191 1,103340 1,226143 1,134054 2,563733 1,258991 1,267333 1,000000 1,215176 1,086625 1,279674 1,010840 1,056259 1,071709 1,110483 1,218586 1,284252 1,534801 1,309433 1,124202 1,052056 1,053542 . . . 1,033688 1,031401 1,068655 1,043893 1,111217 1,064000 1,045866 1,048689 Índice de tablas —— 169 Tabla 13.9 Dipéptido TRS PTR RTC RWP RHT CIR CRW RTS PCR PYR RWS RWC RST RHA IWP RCT STR TRR RTR TRC TTR WCT Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,288373 0,283628 0,283336 0,282253 0,281572 0,279104 0,278363 0,277718 0,275529 0,275190 0,274434 0,269976 0,268840 0,268084 0,265629 0,263855 0,261791 0,258299 0,257853 0,256108 0,255286 0,251381 0,018295 0,011996 0,005992 0,002984 0,005954 0,004427 0,001472 0,017619 0,005827 0,005819 0,004353 0,001427 0,017056 0,005669 0,001404 0,005580 0,016608 0,016387 0,016359 0,005416 0,010797 0,000886 0,285746 0,276406 0,306310 0,281256 0,292571 0,289517 0,245695 0,293020 0,274251 0,318703 0,266888 0,255393 0,287003 0,303347 0,286644 0,237343 0,273084 0,240486 0,251981 0,227375 0,269537 0,257009 1,104478 1,054471 1,137000 1,019531 1,036260 1,013837 1,004405 1,099764 1,087607 1,069620 1,031944 1,021552 1,093397 1,052336 1,011407 1,042603 1,091137 1,074639 1,091829 1,028015 1,075806 1,006329 10244,320000 1,280540 1,021067 99,999320 0,012500 0,011143 10205,710000 1,275714 1,029452 8594,392000 1,074299 0,081115 Tabla 13.9: Proteı́nas naturales de UniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698. 170 —— Resultados numéricos: Tripéptidos Tabla 13.10 Dipéptido EEE KKK QQQ EEK EED EDE KEE DEE QEE KEK EKE EEM MEE KKE EKK EEQ EQE GEK DED MYF EME MKE MEK EKM EDD MKK PEE EKP KMK EEA . . . YPR CRI YRT CIR RPI WRC PTR SRT Frecuencia relativa Frecuencia Redundancia relativa Redundancia 33,156740 14,822770 13,956780 13,183690 12,786660 12,744740 11,875500 11,526520 10,924640 10,862820 10,344140 9,714064 9,454300 9,347754 9,144328 8,768473 8,538439 8,048815 8,019942 8,005039 7,810014 7,802949 7,639336 7,470064 7,090977 7,088323 6,962056 6,886501 6,775283 6,771398 . . . 0,317414 0,316844 0,316279 0,316113 0,316101 0,315680 0,309474 0,309420 0,116862 0,052243 0,049191 0,046466 0,045067 0,044919 0,041855 0,040625 0,038504 0,038286 0,036458 0,017119 0,016661 0,032946 0,032229 0,030905 0,030094 0,056736 0,028266 0,014107 0,013763 0,013751 0,013463 0,013164 0,024992 0,012491 0,049076 0,048543 0,011940 0,047732 . . . 0,006712 0,005025 0,006688 0,005014 0,010027 0,001669 0,013089 0,019630 34,145420 13,754270 10,500890 14,595140 13,123610 11,592020 12,482950 11,321740 12,583050 11,511940 11,712150 10,110490 9,269614 9,299645 8,929261 9,539895 10,510900 9,800165 8,438753 6,586832 8,388700 7,127393 7,487766 8,228535 7,457735 6,907164 6,281515 8,563882 6,106334 7,317589 . . . 0,285296 0,293638 0,313659 0,293638 0,279178 0,327006 0,292804 0,334792 2,362188 1,673569 2,280435 1,468278 1,378549 1,327982 1,286894 1,283768 1,529197 1,370679 1,366822 1,163594 1,110312 1,284924 1,220246 1,215561 1,583710 2,438356 1,302937 1,085809 1,088312 1,078788 1,103245 1,313099 1,225329 1,061538 1,235236 2,516176 1,085409 1,317117 . . . 1,017857 1,023256 1,021739 1,015385 1,068085 1,042553 1,054054 1,182711 Índice de tablas —— 171 Tabla 13.10 Dipéptido RTY IRP RTS RSI TRY CMW TRS PIR RTR IWC VWC PCR WPI RCT STR RTN WTR RHA TRR TRC TTR WWH Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,306845 0,304607 0,300064 0,299173 0,297301 0,296922 0,293728 0,292576 0,289280 0,288338 0,287490 0,283747 0,276992 0,276114 0,274149 0,269797 0,268172 0,267255 0,265292 0,259688 0,246799 0,242440 0,006489 0,009662 0,019036 0,014235 0,006287 0,000262 0,018635 0,009281 0,018352 0,000762 0,001013 0,006000 0,001464 0,005839 0,017392 0,005705 0,002836 0,005652 0,016830 0,005492 0,010438 0,000214 0,288633 0,280291 0,306985 0,300311 0,280291 0,520540 0,285296 0,276954 0,276398 0,293638 0,360374 0,306985 0,273617 0,288633 0,276398 0,306985 0,286964 0,296975 0,249703 0,250260 0,269446 0,200208 1,042169 1,041322 1,112903 1,074271 1,024390 1,000000 1,117647 1,064103 1,147806 1,000000 1,058824 1,115152 1,000000 1,081250 1,089912 1,057471 1,075000 1,078788 1,095122 1,034483 1,129371 1,000000 9957,922000 1,244740 0,997294 99,998480 0,012500 0,011621 9976,780000 1,247097 1,015551 8738,302000 1,092288 0,133134 Tabla 13.10: Proteı́nas naturales de UniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies: 1. 172 —— Resultados numéricos: Tripéptidos 14.-Resultados numéricos: Tetrapéptidos Introducción 164 Este capı́tulo presenta algunas tablas con los datos numéricos encontrados en el análisis de la frecuencia y de la redundancia de aproximadamente 1200 tetrapéptidos definidos a partir de los 30 tripéptidos de mayor frecuencia relativa en las proteı́nas naturales de la base de datos UniProt. Solo se muestran los 50 tetrapéptidos de mayor frecuencia relativa. Los datos se exponen en forma de tablas con filas ordenadas por el valor decreciente de la primera columna numérica. Índice de tablas Tetrapéptidos. Tetrapéptidos. Tetrapéptidos. Tetrapéptidos. Tetrapéptidos. Tetrapéptidos. Tetrapéptidos. Naturales. Naturales. Naturales. Naturales. Naturales. Naturales. Naturales. Cada. Cada. Cada. Cada. Cada. Cada. Cada. 173 Todos. Virus. Archaea. Bacteria. Eukaryota. Mammalia. Homo sapiens. 175 176 178 179 181 183 184 174 —— Resultados numéricos: Tetrapéptidos Tabla 14.1 Tetrapéptido EEEE KKKK MAKK EEEK EDEE KEKE DEEE EEDE KKEE KKEK KEKK EEKE EEED EKEK KEEE EEKK DEDE DDEE EKEE EKIK EEIK EDED KEEK EEME EMKK EKKK EKKE MKKI EIEK EEIE KKKE EEEF MKKK EEMK DEEK MAKE EKME EEEI EMEK EKMK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 82,30801000 45,65164000 35,24572000 35,12217000 30,43094000 29,98376000 29,93162000 28,93010000 28,59137000 28,46014000 28,44228000 28,17944000 27,42096000 27,41476000 27,06306000 25,93475000 25,09348000 24,58647000 24,45123000 24,28135000 24,25025000 24,19086000 23,93432000 23,87176000 23,58141000 22,97684000 22,97280000 22,75746000 22,22403000 21,47120000 21,34494000 21,25508000 21,08878000 20,98310000 20,72022000 20,21479000 20,17583000 20,00598000 19,98540000 19,61820000 0,00951136 0,00527542 0,00407293 0,00405865 0,00351654 0,00346487 0,00345884 0,00334311 0,00330397 0,00328880 0,00328674 0,00325636 0,00316872 0,00316800 0,00312736 0,00299697 0,00289976 0,00284117 0,00282554 0,00420886 0,00420347 0,00279545 0,00276581 0,00137929 0,00136251 0,00265516 0,00265469 0,00197236 0,00385225 0,00372176 0,00246658 0,00245620 0,00121849 0,00121238 0,00239439 0,00233598 0,00116574 0,00346778 0,00115474 0,00113352 99,66961000 44,32309000 16,48177000 34,61224000 34,82567000 32,13651000 34,15871000 31,50157000 27,81465000 27,30243000 29,88487000 28,08677000 32,17920000 31,66698000 28,22016000 26,76353000 27,29176000 27,72928000 26,02721000 20,15090000 23,83605000 26,20329000 23,62084000 23,48745000 21,56662000 23,36473000 22,78315000 16,39106000 21,61642000 23,11040000 20,89433000 16,17764000 17,61826000 21,82273000 19,73650000 13,52049000 16,54046000 22,04327000 21,95079000 20,49950000 2,16028700 1,59077000 1,00259700 1,08405700 1,16470400 1,16883400 1,13692100 1,14175200 1,07795700 1,15014600 1,12923400 1,07340900 1,13003600 1,17107300 1,09254300 1,08383800 1,19789200 1,08860500 1,08159600 1,02478300 1,03923700 1,20515300 1,07009900 1,00824600 1,00697600 1,08337500 1,10966700 1,00392200 1,02860500 1,01865800 1,06936100 1,01269200 1,00978600 1,01137500 1,02352000 1,00675400 1,01241000 1,02446700 1,00932300 1,00261000 Índice de tablas —— 175 Tabla 14.1 Tetrapéptido DEED MKEK MEEM MEEK MKKF EEDD EKIE KMKK IKEK KKEI Frecuencia relativa Frecuencia Redundancia relativa Redundancia 19,06352000 18,87787000 18,69766000 18,41895000 17,99845000 17,80214000 17,79546000 17,54677000 17,50919000 17,49699000 0,00220295 0,00109075 0,00054017 0,00106423 0,00103993 0,00205718 0,00308462 0,00101384 0,00303500 0,00303288 23,43410000 19,88056000 20,27540000 16,09226000 11,16214000 20,44614000 16,56891000 17,49020000 15,96065000 15,09628000 1,12904900 1,00323100 1,00849300 1,00266000 1,00095700 1,07913300 1,01881000 1,01297900 1,02583400 1,02043800 Tabla 14.1: Proteı́nas naturales de UniProt. Número de proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124. Tabla 14.2 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEEE DDDD MEQE KKKK EEDE EEED DEDE EDED MMMG EDEE KKEE DDEE DEDD DKEE EEEK GMMM 119,846100 54,076540 53,564220 45,121320 42,833250 38,987250 37,956450 37,152170 36,794540 36,786830 36,087680 35,252860 34,814450 33,166710 32,933090 32,780250 0,013849 0,006249 0,003095 0,005214 0,004950 0,004505 0,004386 0,004293 0,001063 0,004251 0,004170 0,004074 0,004023 0,003833 0,003806 0,000947 90,170900 49,528450 14,275850 31,319460 32,193490 30,299750 31,173790 31,902150 60,599510 31,610800 47,052020 27,094970 25,783930 41,807830 26,803630 58,851450 1,847761 1,497797 1,000000 1,295181 1,099502 1,124324 1,163043 1,196721 1,000000 1,179348 1,076667 1,134146 1,092593 1,000000 1,016575 1,000000 176 —— Resultados numéricos: Tetrapéptidos Tabla 14.2 Tetrapéptido DDED DEEE MKKM KKKY KKIK KEKK MDEM EEDD MDEN EDDE DEED KKEK DDDE EKEE MEQA MMMF NKKK EDDD QMMM MMMN KEEE MDED KKNK KNNM NNNN EEEN KEKE MMMQ KKKQ KEEI KNKN EEKE KKKE KIKK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 31,795820 31,764110 31,744880 31,508910 31,462340 31,458080 31,021920 30,372400 30,044310 29,938110 29,894540 28,682010 28,117940 26,667030 26,353610 26,080150 26,006940 25,901930 25,848440 25,460300 25,297060 25,231980 24,888250 24,853520 24,698420 24,324920 23,924390 23,794850 23,610280 23,446290 23,040920 22,881370 22,592970 22,096810 0,003674 0,003671 0,000917 0,003641 0,005454 0,003635 0,000896 0,003510 0,001736 0,003460 0,003455 0,003314 0,003249 0,003082 0,003045 0,000377 0,003005 0,002993 0,000373 0,000368 0,002923 0,001458 0,002876 0,001436 0,002854 0,002811 0,002765 0,000344 0,002728 0,004064 0,002663 0,002644 0,002611 0,003830 27,823330 30,154080 16,897940 21,850780 19,908490 29,571400 26,220940 21,559440 15,732570 21,413770 22,142130 20,976750 24,472880 24,472880 6,409563 5,826876 16,023910 21,122430 4,661500 48,945760 21,850780 32,339160 19,520030 41,079480 24,909890 15,149880 26,657960 22,142130 23,598850 26,803630 14,712860 18,937350 16,315250 16,703710 1,067039 1,150000 1,000000 1,020408 1,019900 1,025253 1,000000 1,104478 1,000000 1,195122 1,101449 1,035971 1,076923 1,005988 1,000000 1,000000 1,009174 1,035714 1,000000 1,000000 1,027397 1,000000 1,030769 1,000000 1,230216 1,050505 1,051724 1,000000 1,000000 1,018450 1,097826 1,007752 1,046729 1,061728 Tabla 14.2: Proteı́nas naturales de UniProt. Número de proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies: 751. Índice de tablas —— 177 Tabla 14.3 Tetrapéptido EEEE EEIK EEIE EKIK KIEE KKEE EEKK EIEK EEKE EIKE EEMK KIKE KMKK EKIE EEEI MKEK KEEI EIKK KEEE EKKE KIKK KKEK EEFK EEEK KEEK EMEK KEKE IEEI EVEE KEIK EIEE EKEK EEAE EKEE IEEE DEIK KEIE EEME Frecuencia relativa Frecuencia Redundancia relativa Redundancia 80,695840 59,170990 58,517460 57,889350 56,283290 53,835170 53,020360 52,856990 52,700420 51,216510 48,689380 48,652030 48,029090 45,648720 44,953850 44,826040 44,203440 43,902710 42,703200 42,701400 42,666050 42,457260 41,992250 41,750690 41,671350 40,380890 40,110190 38,748850 38,398980 38,155390 37,982120 37,152100 36,843960 36,538440 36,461110 36,228610 36,223850 35,411640 0,009325 0,010257 0,010143 0,010034 0,009756 0,006221 0,006127 0,009162 0,006090 0,008878 0,002813 0,008433 0,002775 0,007913 0,007792 0,002590 0,007662 0,007610 0,004935 0,004934 0,007396 0,004906 0,004853 0,004825 0,004815 0,002333 0,004635 0,010075 0,008875 0,006614 0,006584 0,004293 0,008515 0,004222 0,006320 0,006280 0,006279 0,002046 81,866110 58,827290 54,241890 55,248440 53,347180 51,334080 47,643390 50,998560 45,462530 44,959260 50,327530 50,103850 28,183420 42,834320 44,735580 30,196520 45,071090 44,176380 41,939610 42,275120 32,992490 39,423230 41,939600 42,442880 40,094260 34,222720 43,449430 34,073600 36,319700 35,676620 42,163290 43,113910 33,300050 34,390480 31,426740 33,328010 43,057990 34,558240 1,820896 1,037475 1,027542 1,040000 1,017058 1,104693 1,126984 1,034014 1,066929 1,025510 1,000000 1,032258 1,012048 1,046448 1,036269 1,000000 1,022843 1,036745 1,063830 1,130045 1,017241 1,026201 1,028807 1,090517 1,043668 1,062500 1,065844 1,024664 1,058680 1,032362 1,038568 1,070833 1,050265 1,045918 1,010791 1,013605 1,072423 1,000000 178 —— Resultados numéricos: Tetrapéptidos Tabla 14.3 Tetrapéptido KKKK EEAK IEKI KIEK KEKI KKKE KIDE MMEK DEIE IKEI EEFE MKKI Frecuencia relativa Frecuencia Redundancia relativa Redundancia 34,827420 34,705170 34,660330 34,146380 33,982580 33,948190 33,470420 33,470130 33,435790 33,371630 33,276760 33,089610 0,004025 0,008021 0,009012 0,005919 0,005890 0,003923 0,005802 0,000967 0,005796 0,008677 0,003845 0,002868 24,324970 33,467800 33,775360 32,545140 34,334560 25,667040 29,749160 28,183420 32,433300 32,135060 34,390480 21,920430 1,188525 1,028350 1,031891 1,031915 1,023333 1,047945 1,015267 1,000000 1,046931 1,036058 1,025000 1,000000 Tabla 14.3: Proteı́nas naturales de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies: 143. Tabla 14.4 Tetrapéptido MAKK MKKI EKIK EMKK MAKE KEKE EEIK EEEK KAKE KNKK EKME EEEF EKAK EIEK Frecuencia relativa Frecuencia Redundancia relativa Redundancia 45,546220 27,501450 26,436440 26,100510 26,036300 25,466960 25,158920 24,427520 23,242470 23,186240 22,992840 22,849370 22,141650 22,038250 0,005263 0,002384 0,004582 0,001508 0,003009 0,002943 0,004361 0,002823 0,005372 0,002679 0,001329 0,002640 0,005117 0,003820 20,420760 20,358470 20,904210 23,045650 17,270890 22,271530 25,560800 20,447450 17,297580 16,674730 16,176450 15,518000 21,457370 23,164290 1,000436 1,005272 1,021745 1,003098 1,007788 1,043787 1,038563 1,017264 1,025587 1,034787 1,002205 1,006928 1,026170 1,024128 Índice de tablas —— 179 Tabla 14.4 Tetrapéptido EEEE EEME EEIE MKKF KKEK KEIE KEKK MKKK KKKK KEIK EKEK EEKF EEAK EIKE MEEK EMKE KKEE MEEM EKIE QEKM KAKK EMEK KEEK DEEK EIEE EEAE EKMK AKEK EEKK KKEI EEEI KIKE EEKE MDKK EKEM AEKI Frecuencia relativa Frecuencia Redundancia relativa Redundancia 21,654460 21,597010 21,591860 21,508030 21,325530 21,254640 21,217500 21,196750 21,193970 20,962210 20,863040 20,784640 20,509160 20,201380 19,432220 19,402840 19,352830 19,228110 19,136290 18,941030 18,877450 18,808730 18,796070 18,737320 18,682570 18,587240 18,377880 18,251170 18,250040 18,106860 18,064700 18,058930 17,832340 17,766610 17,662110 17,518510 0,002502 0,001248 0,003743 0,001243 0,002464 0,003684 0,002452 0,001225 0,002449 0,003634 0,002411 0,002402 0,004740 0,003502 0,001123 0,001121 0,002236 0,000555 0,003317 0,001094 0,004363 0,001087 0,002172 0,002165 0,003238 0,004296 0,001062 0,004218 0,002109 0,003139 0,003131 0,003130 0,002061 0,001027 0,001021 0,006073 19,504270 19,237330 23,650710 11,069030 17,386560 24,172720 19,397500 15,802730 15,357830 19,587320 20,429660 16,425590 19,530970 20,607620 15,073100 26,231110 18,178480 21,960100 17,950100 17,119630 14,605960 20,696600 16,932770 17,333180 17,173010 15,264410 19,842390 14,543670 16,745910 15,725610 20,607620 16,674730 17,644610 10,997850 16,959470 12,587610 1,209713 1,000926 1,012957 1,001610 1,017708 1,030602 1,014425 1,002257 1,234621 1,011952 1,041270 1,002172 1,016674 1,011059 1,001182 1,004772 1,049307 1,000000 1,014415 1,011567 1,032715 1,002586 1,031996 1,005679 1,012946 1,022958 1,000000 1,009886 1,025054 1,019223 1,006373 1,017004 1,023220 1,000000 1,008466 1,004259 180 —— Resultados numéricos: Tetrapéptidos Tabla 14.4 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 14.4: Proteı́nas naturales de UniProt. Número de proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies: 1722. Tabla 14.5 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia NNNN QQQQ EEEE KKKK DDDD DEEE EEED EDEE EEDE EEEK DEDE EEKE KEEE EDED KKEE EKEE KEKK DDDE DDEE KKEK EKKK DEDD EDDD EKEK DDED EEKK 378,971300 262,160100 218,708300 103,638000 86,703650 68,253950 66,565060 63,441480 61,428340 59,169350 49,802450 49,366130 47,607970 47,312620 45,789390 44,818590 44,443180 43,552050 43,231280 43,053330 42,990810 42,794600 41,989530 41,960060 41,425210 41,123370 0,043793 0,030295 0,025274 0,011976 0,010019 0,007887 0,007692 0,007331 0,007099 0,006838 0,005755 0,005705 0,005501 0,005467 0,005291 0,005179 0,005136 0,005033 0,004996 0,004975 0,004968 0,004945 0,004852 0,004849 0,004787 0,004752 654,916900 415,204500 247,251600 100,003400 108,330300 75,585260 73,431200 72,932870 66,518890 60,313890 55,973610 46,296380 53,256910 54,526840 40,846900 47,148350 48,804100 49,688230 51,504720 44,753160 45,556920 48,225390 46,617880 52,324550 46,891160 44,206610 15,230280 7,680345 2,468068 1,759333 2,265972 1,179925 1,167391 1,213102 1,197685 1,132850 1,272661 1,114983 1,121910 1,268986 1,099048 1,120321 1,247842 1,156811 1,131756 1,288292 1,125944 1,181568 1,124467 1,298883 1,207868 1,125665 Índice de tablas —— 181 Tabla 14.5 Tetrapéptido EDDE KEKE DEED EEDD EKKE KKKE KEEK KKMK QEEE EEEM EEMM MEEE EEME KDKK EEMK DKKK EEEQ EEEN EEKQ EKEF DEEK EMKE AEEE KKKQ Frecuencia relativa Frecuencia Redundancia relativa Redundancia 41,085990 39,699350 39,215870 37,253180 35,577750 35,109510 34,052460 32,461040 30,471160 29,302460 29,163880 27,815860 27,648790 27,128240 26,746900 26,606280 26,219980 25,419280 24,350570 24,267870 24,075680 24,021750 23,890260 23,359520 0,004748 0,004588 0,004532 0,004305 0,004111 0,004057 0,003935 0,001876 0,003521 0,001693 0,000843 0,001607 0,001598 0,003135 0,001545 0,003075 0,003030 0,002937 0,002814 0,002804 0,002782 0,001388 0,005521 0,002699 43,692200 49,479250 46,360680 41,280940 35,333130 35,622490 35,429580 22,087230 33,227290 32,085960 29,835440 28,356530 29,031680 26,298910 27,809970 23,726890 30,783880 24,868230 21,090570 16,669910 23,614370 24,723550 22,561450 21,154870 1,149260 1,316510 1,169031 1,104991 1,193916 1,113008 1,111447 1,028443 1,050839 1,032058 1,026549 1,009153 1,019187 1,191551 1,024881 1,049787 1,071628 1,045977 1,022603 1,008755 1,045552 1,013175 1,065275 1,027322 Tabla 14.5: Proteı́nas naturales de UniProt. Número de proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508. Tabla 14.6 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEEE WWNF 304,917300 246,713600 0,035236 0,007127 321,243500 221,806300 2,742616 1,000000 182 —— Resultados numéricos: Tetrapéptidos Tabla 14.6 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia QQQQ KKKK EEED DEEE EDEE EEDE EEEK EDED MMFR KEEE SWWN SMMF DDDD EKEE KKEE EEKE DEDE EKEK EEME EEKK EEEM AWWN DEED KKKE KEKK EKKK KEKE MEEE EDDD EEMK QEEE EEDD KEEK EQEE MEEM KKEK EEEA EDDE DDEE DEDD 134,213500 84,052150 83,192120 73,473130 71,990020 70,356250 61,954990 53,912720 53,761910 52,790980 50,473160 50,058850 48,547600 48,515340 41,391320 40,971430 40,940530 40,887260 40,627570 39,165340 38,878830 38,491090 37,501590 37,036580 36,642310 36,195170 36,155670 35,789440 35,661550 35,546230 34,559620 34,359460 32,699340 31,806300 30,661770 30,189100 30,130790 29,363230 29,180570 29,144170 0,015509 0,009713 0,009614 0,008490 0,008319 0,008130 0,007159 0,006230 0,004659 0,006100 0,004374 0,004339 0,005610 0,005606 0,004783 0,004735 0,004731 0,004725 0,002347 0,004526 0,002246 0,002224 0,004334 0,004280 0,004234 0,004183 0,004178 0,002068 0,004121 0,002054 0,003994 0,003971 0,003779 0,003675 0,000886 0,003489 0,006964 0,003393 0,003372 0,003368 154,345200 86,686330 84,709450 75,220410 77,147870 68,795540 66,077320 54,907930 49,422080 57,428460 44,611660 46,259060 51,201270 52,387410 38,400960 46,308490 45,517740 48,235950 38,450380 42,502990 42,107610 35,583900 37,807890 34,249500 39,389400 37,511360 41,860500 35,188520 35,831010 34,101230 38,845760 34,990830 37,659630 38,648060 25,897170 35,188520 30,295730 29,455560 32,173780 31,383020 5,061588 1,791624 1,210452 1,180760 1,233992 1,248430 1,140785 1,265376 1,000000 1,094162 1,000000 1,000000 2,043392 1,109948 1,071724 1,118138 1,241240 1,180169 1,023684 1,091371 1,033981 1,000000 1,150376 1,084507 1,081411 1,046897 1,143050 1,005650 1,105183 1,023739 1,052209 1,104524 1,107558 1,352941 1,056452 1,107309 1,073555 1,105751 1,099662 1,144144 Índice de tablas —— 183 Tabla 14.6 Tetrapéptido EKKE DDED EEEQ EKMK EMEE DDDE AEEE EEEN Frecuencia relativa Frecuencia Redundancia relativa Redundancia 27,946130 27,935160 27,844340 27,657400 26,344260 26,127460 26,088850 26,086360 0,003229 0,003228 0,003218 0,001598 0,001522 0,003019 0,006030 0,003014 27,182140 27,280990 33,458750 23,821450 32,618580 25,501790 26,910320 25,798330 1,055662 1,154812 1,113487 1,008368 1,018519 1,121739 1,086826 1,025540 Tabla 14.6: Proteı́nas naturales de UniProt. Número de proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698. Tabla 14.7 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEEE QQQQ MYFF EKPY KKKK EEED PMYF EDEE DEEE EEDE EEEK EQEE GEKP TGEK EDED KEEE EKEE EEKE 342,802800 229,014200 146,035400 97,154180 88,685210 87,512120 83,862900 81,391410 78,735760 73,977540 61,984830 61,396140 58,524450 57,319090 55,945420 52,435020 48,919960 45,166960 0,039614 0,026464 0,008438 0,022454 0,010248 0,010113 0,009691 0,009405 0,009099 0,008549 0,007163 0,007095 0,027052 0,026495 0,006465 0,006059 0,005653 0,005219 345,909100 134,690300 119,384600 139,894200 82,038640 88,773160 68,263490 77,753030 75,916350 68,569600 67,039030 87,854800 81,273350 79,360130 55,712800 55,406680 52,039430 50,508860 2,658823 4,036697 1,059783 5,345029 1,740260 1,203320 1,000000 1,198113 1,153488 1,230769 1,123077 2,432203 5,009434 4,650224 1,246575 1,110429 1,111111 1,100000 184 —— Resultados numéricos: Tetrapéptidos Tabla 14.7 Tetrapéptido EEME EEMK DEDE MEEM EEEM EEDD QEEK DEED QEEE KEEK KEKK MEEE EEKK KKKE KKEE KKEK EDDD MKEE EKEK EEEA EEEG QQQC EEMM EDDE DDED MKEK EEKM KKMK EEQE AEEE EEEN EEEQ Frecuencia relativa Frecuencia Redundancia relativa Redundancia 44,960410 43,753000 43,226530 43,095170 42,979710 41,451100 41,273970 40,486670 39,616680 38,203470 36,551030 34,923650 34,114940 33,910320 33,828630 33,129570 32,922410 32,346050 31,927320 31,817980 31,285450 30,746380 30,561920 30,310030 30,156150 30,029400 29,690070 29,620780 28,648630 27,878830 27,719880 27,564990 0,002598 0,002528 0,004995 0,001245 0,002483 0,004790 0,004770 0,004679 0,004578 0,004415 0,004224 0,002018 0,003942 0,003919 0,003909 0,003828 0,003804 0,001869 0,003689 0,007354 0,007231 0,003553 0,000883 0,003503 0,003485 0,001735 0,001715 0,001711 0,003311 0,006443 0,003203 0,003185 37,345940 48,978290 47,753830 23,264690 47,141600 39,794860 56,937260 39,488740 41,019310 46,529370 35,509250 28,162520 39,488740 29,386970 33,672570 35,509260 31,223660 18,366860 42,549890 32,907290 29,233910 8,571200 36,733720 31,223660 30,917540 31,223660 50,202740 19,591310 35,815370 28,774750 28,774740 31,529770 1,016667 1,066667 1,181818 1,055556 1,013158 1,092437 2,513514 1,075000 1,055118 1,151515 1,074074 1,022222 1,066116 1,054945 1,100000 1,137255 1,051546 1,000000 1,188034 1,064356 1,136905 1,000000 1,666667 1,073684 1,086022 1,020000 2,928571 1,000000 1,114286 1,093023 1,056180 1,061856 Tabla 14.7: Proteı́nas naturales de UniProt. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies: 1. 15.-Resultados numéricos: Proteoma humano Introducción 165 Este capı́tulo presenta algunas tablas con los datos numéricos encontrados en el análisis de la frecuencia y de la redundancia de aminoácidos, dipéptidos, tripéptidos y tetrapéptidos en las proteı́nas de Homo sapiens Los datos se exponen en forma de tablas con filas ordenadas por el valor decreciente de la primera columna numérica. Índice de tablas Aminoácidos. Naturales. Cada. Homo sapiens Aminoácidos. Naturales. Una. Homo sapiens Dipéptidos. Naturales. Cada. Homo sapiens. Dipéptidos. Naturales. Una. Homo sapiens. Tripéptidos. Naturales. Cada. Homo sapiens. Tripéptidos. Naturales. Una. Homo sapiens. Tetrapéptidos. Naturales. Cada. Homo sapiens. 186 187 188 190 191 193 194 Tabla 15.1 Aminoácido Ácido glutámico Lisina Metionina Frecuencia relativa Frecuencia Redundancia relativa Redundancia 1,913201 1,679810 1,441490 6,272790 5,507574 2,363098 2,005143 1,657942 1,332880 25,581260 21,209670 8,459574 185 186 —— Resultados numéricos: Proteoma humano Tabla 15.1 Aminoácido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Glutamina Ácido aspártico Fenilalanina Alanina Glicina Leucina Asparagina Prolina Valina Cisteı́na Isoleucina Tirosina Trptófano Serina Treonina Histidina Arginina 1,358908 1,287512 1,201866 1,123918 1,052552 1,035577 1,006603 0,961937 0,916895 0,885732 0,882164 0,872867 0,852166 0,808753 0,792402 0,787095 0,602555 4,455435 4,221349 3,940544 7,369956 6,901978 10,186010 3,300339 6,307781 6,012427 2,904038 4,338513 2,861860 1,396994 7,954945 5,196076 2,580638 5,926768 1,392336 1,355339 1,185052 1,105636 1,043642 1,029135 1,056590 0,957294 0,914088 0,802385 0,885660 0,858480 0,816591 0,817757 0,808615 0,824191 0,586672 17,753480 17,434040 15,304710 28,115010 26,502510 39,308030 13,702490 24,339550 23,253680 10,627110 17,128780 11,286840 5,757850 31,069280 20,578940 10,906640 22,398910 Total Media 1,073200 D. tı́pica 21,464000 4,999956 0,325395 99,999110 1,071771 2,182170 21,435430 19,535920 0,337882 390,718400 8,370809 Tabla 15.1: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Tabla 15.2 Aminoácido Ácido glutámico Lisina Glutamina Ácido aspártico Metionina Fenilalanina Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,005143 1,657942 1,392336 1,355339 1,332880 1,185052 6,574240 5,435876 4,565037 4,443735 2,185049 3,885416 2,022393 1,676785 1,403547 1,378293 1,337587 1,209954 25,581260 21,209670 17,753480 17,434040 8,459574 15,304710 Índice de tablas —— 187 Tabla 15.2 Aminoácido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Alanina Asparagina Glicina Leucina Prolina Valina Isoleucina Tirosina Histidina Serina Trptófano Treonina Cisteı́na Arginina 1,105636 1,056590 1,043642 1,029135 0,957294 0,914088 0,885660 0,858480 0,824191 0,817757 0,816591 0,808615 0,802385 0,586672 7,250069 3,464229 6,843554 10,122640 6,277338 5,994020 4,355707 2,814688 2,702266 8,043516 1,338673 5,302395 2,630770 5,770545 1,111353 1,083285 1,047612 1,035869 0,962113 0,919190 0,902776 0,892310 0,862253 0,818757 0,910404 0,813461 0,840154 0,590270 28,115010 13,702490 26,502510 39,308030 24,339550 23,253680 17,128780 11,286840 10,906640 31,069280 5,757850 20,578940 10,627110 22,398910 Total Media D. tı́pica 21,435430 1,071771 0,337882 99,999760 4,999988 2,193906 21,818370 1,090918 0,335762 390,718400 19,535920 8,370809 Tabla 15.2: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Tabla 15.3 Dipéptido EE KK EK KE ED QE ME MK DE Frecuencia relativa Frecuencia Redundancia relativa Redundancia 6,395520 4,392437 4,299105 3,984385 3,599617 3,283466 3,120030 2,813267 2,678169 0,687506 0,472178 0,462145 0,428313 0,386952 0,352966 0,167699 0,151210 0,287898 6,692800 4,074931 4,596410 4,094245 3,711239 3,479798 3,026736 2,592662 2,778600 4,124470 2,862926 3,173107 2,703047 2,534541 2,530350 1,582677 1,547480 2,233684 188 —— Resultados numéricos: Proteoma humano Tabla 15.3 Dipéptido QQ KM QK EM EQ KD EN MA EA MD KQ . . . RL PI WS NR WC RR CR RY RW HR RH RV RI YR IR VR SR RC RS RT TR Total Media D. tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 2,645632 2,597998 2,555544 2,516010 2,486757 2,475294 2,390217 2,303952 2,289959 2,214284 2,122454 . . . 0,573512 0,550925 0,549447 0,547607 0,545043 0,539368 0,535136 0,530802 0,530524 0,521715 0,513771 0,507379 0,506426 0,499187 0,467245 0,460736 0,458861 0,454268 0,430367 0,425201 0,398503 0,284400 0,139640 0,274716 0,135233 0,267321 0,266089 0,256944 0,247670 0,492332 0,119016 0,228160 . . . 0,554862 0,177670 0,088597 0,176600 0,029296 0,521829 0,172578 0,171181 0,085545 0,168250 0,165688 0,327254 0,244979 0,160985 0,226026 0,297169 0,443940 0,146499 0,416372 0,274250 0,257029 2,540612 2,449935 2,515078 2,584805 2,756013 2,506240 2,619178 1,994582 2,346654 2,133054 2,118650 . . . 0,564108 0,568181 0,578548 0,554105 0,493653 0,489361 0,473466 0,512313 0,505220 0,521806 0,539265 0,498509 0,496563 0,491689 0,464628 0,457044 0,461063 0,431783 0,421562 0,426327 0,384862 2,366880 1,489057 2,005481 1,576677 2,289638 1,987023 2,168293 1,589617 2,877760 1,421466 1,937725 . . . 2,879502 1,724743 1,476880 1,673698 1,165379 2,766605 1,603474 1,570759 1,319840 1,703598 1,705314 2,076591 1,875275 1,606417 1,805768 2,048166 2,575376 1,607230 2,424179 1,966776 1,858272 460,735900 1,151840 0,601109 99,998860 0,249997 0,167621 460,868400 1,152171 0,616820 783,527700 1,958819 0,598517 Índice de tablas —— 189 Tabla 15.3 Dipéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 15.3: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Tabla 15.4 Dipéptido EE EK KE KK ED QE ME DE EQ EN MK EM QQ QK KD KM EA MD DD AE . . . NR RP RH WR HR Frecuencia relativa Frecuencia Redundancia relativa Redundancia 6,692800 4,596410 4,094245 4,074931 3,711239 3,479798 3,026736 2,778600 2,756013 2,619178 2,592662 2,584805 2,540612 2,515079 2,506240 2,449934 2,346654 2,133054 2,131417 2,122251 . . . 0,554105 0,548376 0,539265 0,528571 0,521806 0,719463 0,494105 0,440123 0,438047 0,398951 0,374071 0,162684 0,298694 0,296266 0,281556 0,139353 0,138931 0,273111 0,270366 0,269416 0,131682 0,504521 0,114650 0,229123 0,456275 . . . 0,178696 0,353696 0,173910 0,085231 0,168279 9,971004 7,671062 6,534681 6,921190 6,127312 6,117181 7,652319 5,399985 5,535254 5,241899 7,482137 7,623310 5,721989 4,848299 4,803675 7,199661 3,478526 6,872855 5,102268 3,222868 . . . 1,348739 0,935713 1,374216 2,137736 1,372833 4,124470 3,173107 2,703047 2,862926 2,534541 2,530350 1,582677 2,233684 2,289638 2,168293 1,547480 1,576677 2,366880 2,005481 1,987023 1,489057 2,877760 1,421466 2,110535 2,666255 . . . 1,673698 2,322320 1,705314 1,326396 1,703598 190 —— Resultados numéricos: Proteoma humano Tabla 15.4 Dipéptido RY RW RV RI WC YR RR CR IR SR VR RC RT RS TR Total Media D. tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,512313 0,505220 0,498509 0,496563 0,493653 0,491689 0,489361 0,473466 0,464628 0,461063 0,457044 0,431783 0,426327 0,421562 0,384862 0,165218 0,081465 0,321532 0,240208 0,026533 0,158567 0,473448 0,152690 0,224759 0,446070 0,294788 0,139247 0,274976 0,407854 0,248231 1,265786 2,127169 0,836704 1,007451 5,634661 1,294521 0,743150 1,292149 0,970110 0,691783 0,825251 1,295176 0,792457 0,651169 0,748738 1,570759 1,319840 2,076591 1,875275 1,165379 1,606417 2,766605 1,603474 1,805768 2,575376 2,048166 1,607230 1,966776 2,424179 1,858272 460,868400 1,152171 0,616820 99,999580 0,249999 0,166776 1192,531000 2,981327 1,799842 783,527700 1,958819 0,598517 Tabla 15.4: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Tabla 15.5 Tripéptido EEE KKK QQQ EEK EED EDE KEE DEE Frecuencia relativa Frecuencia Redundancia relativa Redundancia 33,156740 14,822770 13,956780 13,183690 12,786660 12,744740 11,875500 11,526520 0,116862 0,052243 0,049191 0,046466 0,045067 0,044919 0,041855 0,040625 34,145420 13,754270 10,500890 14,595140 13,123610 11,592020 12,482950 11,321740 2,362188 1,673569 2,280435 1,468278 1,378549 1,327982 1,286894 1,283768 Índice de tablas —— 191 Tabla 15.5 Tripéptido QEE KEK EKE EEM MEE KKE EKK EEQ EQE GEK DED MYF . . . RTY IRP RTS RSI TRY CMW TRS PIR RTR IWC VWC PCR WPI RCT STR RTN WTR RHA TRR TRC TTR WWH Total Average S.D. Frecuencia relativa Frecuencia Redundancia relativa Redundancia 10,924640 10,862820 10,344140 9,714064 9,454300 9,347754 9,144328 8,768473 8,538439 8,048815 8,019942 8,005039 . . . 0,306845 0,304607 0,300064 0,299173 0,297301 0,296922 0,293728 0,292576 0,289280 0,288338 0,287490 0,283747 0,276992 0,276114 0,274149 0,269797 0,268172 0,267255 0,265292 0,259688 0,246799 0,242440 0,038504 0,038286 0,036458 0,017119 0,016661 0,032946 0,032229 0,030905 0,030094 0,056736 0,028266 0,014107 . . . 0,006489 0,009662 0,019036 0,014235 0,006287 0,000262 0,018635 0,009281 0,018352 0,000762 0,001013 0,006000 0,001464 0,005839 0,017392 0,005705 0,002836 0,005652 0,016830 0,005492 0,010438 0,000214 12,583050 11,511940 11,712150 10,110490 9,269614 9,299645 8,929261 9,539895 10,510900 9,800165 8,438753 6,586832 . . . 0,288633 0,280291 0,306985 0,300311 0,280291 0,520540 0,285296 0,276954 0,276398 0,293638 0,360374 0,306985 0,273617 0,288633 0,276398 0,306985 0,286964 0,296975 0,249703 0,250260 0,269446 0,200208 1,529197 1,370679 1,366822 1,163594 1,110312 1,284924 1,220246 1,215561 1,583710 2,438356 1,302937 1,085809 . . . 1,042169 1,041322 1,112903 1,074271 1,024390 1,000000 1,117647 1,064103 1,147806 1,000000 1,058824 1,115152 1,000000 1,081250 1,089912 1,057471 1,075000 1,078788 1,095122 1,034483 1,129371 1,000000 9957,922000 1,244740 0,997294 99,998480 0,012500 0,011621 9976,780000 1,247097 1,015551 8738,302000 1,092288 0,133134 192 —— Resultados numéricos: Proteoma humano Tabla 15.5 Tripéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 15.5: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Tabla 15.6 Tripéptido EEE EEK KKK EED QEE KEE EKE EDE KEK DEE EQE QQQ EEM GEK EEQ KKE MEE EKK CGK EKP . . . TWC RCT RTY WTR TRS Frecuencia relativa Frecuencia Redundancia relativa Redundancia 34,145420 14,595140 13,754270 13,123610 12,583050 12,482950 11,712150 11,592020 11,511940 11,321740 10,510900 10,500890 10,110490 9,800164 9,539895 9,299645 9,269614 8,929261 8,583903 8,563882 . . . 0,290301 0,288633 0,288633 0,286964 0,285296 0,120346 0,051441 0,048477 0,046254 0,044349 0,043996 0,041280 0,040856 0,040574 0,039904 0,037046 0,037011 0,017817 0,069082 0,033624 0,032777 0,016335 0,031471 0,060508 0,060367 . . . 0,001023 0,006104 0,006104 0,003034 0,018100 174,628600 108,544800 123,721300 101,911500 113,048400 95,135710 101,044600 98,173210 101,329700 94,904670 117,078400 168,584900 172,041200 90,129720 89,862340 94,990090 164,163200 90,208690 160,893600 93,006220 . . . 73,926630 13,322210 12,840690 26,490420 4,590214 2,362188 1,468278 1,673569 1,378549 1,529197 1,286894 1,366822 1,327982 1,370679 1,283768 1,583710 2,280435 1,163594 2,438356 1,215561 1,284924 1,110312 1,220246 4,352792 2,516176 . . . 1,000000 1,081250 1,042169 1,075000 1,117647 Índice de tablas —— 193 Tabla 15.6 Tripéptido YPR IRC IRP TRY TRW RPI PIR RTR STR RYR WPI TTR CTR IWP TRC TRR WWH Total Media D. tı́pica Frecuencia relativa Frecuencia Redundancia relativa Redundancia 0,285296 0,284740 0,280291 0,280291 0,280291 0,279178 0,276954 0,276398 0,276398 0,275842 0,273617 0,269446 0,268612 0,260270 0,250260 0,249703 0,200208 0,006033 0,004516 0,008891 0,005927 0,002964 0,008856 0,008785 0,017535 0,017535 0,008750 0,001447 0,011396 0,005680 0,001376 0,005292 0,015842 0,000176 12,541140 17,236070 8,553492 12,621640 24,939140 8,773322 8,740609 4,714078 4,476306 8,487868 49,284490 6,957557 12,635040 49,284490 12,745990 4,497703 295,706500 1,017857 1,049180 1,041322 1,024390 1,012048 1,068085 1,064103 1,147806 1,089912 1,033333 1,000000 1,129371 1,025478 1,000000 1,034483 1,095122 1,000000 9976,780000 1,247097 1,015551 99,999670 0,012500 0,011491 397471,000000 49,683880 51,893220 8738,302000 1,092288 0,133134 Tabla 15.6: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Tabla 15.7 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia EEEE QQQQ MYFF EKPY KKKK EEED 342,802800 229,014200 146,035400 97,154180 88,685210 87,512120 0,039614 0,026464 0,008438 0,022454 0,010248 0,010113 345,909100 134,690300 119,384600 139,894200 82,038640 88,773160 2,658823 4,036697 1,059783 5,345029 1,740260 1,203320 194 —— Resultados numéricos: Proteoma humano Tabla 15.7 Tetrapéptido PMYF EDEE DEEE EEDE EEEK EQEE GEKP TGEK EDED KEEE EKEE EEKE EEME EEMK DEDE MEEM EEEM EEDD QEEK DEED QEEE KEEK KEKK MEEE EEKK KKKE KKEE KKEK EDDD MKEE EKEK EEEA EEEG QQQC . . . Frecuencia relativa Frecuencia Redundancia relativa Redundancia 83,862900 81,391410 78,735760 73,977540 61,984830 61,396140 58,524450 57,319090 55,945420 52,435020 48,919960 45,166960 44,960410 43,753000 43,226530 43,095170 42,979710 41,451100 41,273970 40,486670 39,616680 38,203470 36,551030 34,923650 34,114940 33,910320 33,828630 33,129570 32,922410 32,346050 31,927320 31,817980 31,285450 30,746380 . . . 0,009691 0,009405 0,009099 0,008549 0,007163 0,007095 0,027052 0,026495 0,006465 0,006059 0,005653 0,005219 0,002598 0,002528 0,004995 0,001245 0,002483 0,004790 0,004770 0,004679 0,004578 0,004415 0,004224 0,002018 0,003942 0,003919 0,003909 0,003828 0,003804 0,001869 0,003689 0,007354 0,007231 0,003553 . . . 68,263490 77,753030 75,916350 68,569600 67,039030 87,854800 81,273350 79,360130 55,712800 55,406680 52,039430 50,508860 37,345940 48,978290 47,753830 23,264690 47,141600 39,794860 56,937260 39,488740 41,019310 46,529370 35,509250 28,162520 39,488740 29,386970 33,672570 35,509260 31,223660 18,366860 42,549890 32,907290 29,233910 8,571200 . . . 1,000000 1,198113 1,153488 1,230769 1,123077 2,432203 5,009434 4,650224 1,246575 1,110429 1,111111 1,100000 1,016667 1,066667 1,181818 1,055556 1,013158 1,092437 2,513514 1,075000 1,055118 1,151515 1,074074 1,022222 1,066116 1,054945 1,100000 1,137255 1,051546 1,000000 1,188034 1,064356 1,136905 1,000000 . . . Índice de tablas —— 195 Tabla 15.7 Tetrapéptido Frecuencia relativa Frecuencia Redundancia relativa Redundancia Tabla 15.7: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. 196 —— Resultados numéricos: Proteoma humano Bibliografı́a [1] Nessa Carey, Junk dna. a journey through the dark matter of the genome, Icon Books Ltd, 2015. [2] R. F. Fox, Energy and the Evolution of Life, W. H. Freeman, New York, 1988. [3] S. W. Fox and K. Dose, Molecular Evolution and the Origin of Life, W. H. Freeman, San Francisco, 1972. [4] Ezkurdia I., Juan D., Rodriguez J.M., Frankish A., Diekhans M., Harrow J., Vazquez J., Valencia A., and Tress M.L., Multiple evidence strands suggest that there may be as few as 19,000 human protein-coding genes, Human Molecular Genetics doi:10.1093/hmg/ddu309 (2014), 1–45. [5] Gert Lubec, Leila Afjehi-Sadat, Jae-Won Yang, and Julius Paul Pradeep John, Searching for hypothetical proteins: Theory and practice based upon original data and literature, Progress in Neurobiology 77 (2005), 90–127. [6] H. Maturana and F. Varela, El árbol del conocimiento. Las bases biológicas del conocimiento humano, Debate, Madrid, 1999. [7] B. McClintock, The origin and behavior of mutable loci in maize, Proceedings of the National Academy of Sciences of the United States of America 36 (6) (1950), 344–355. [8] , Induction of instability at selected loci in maize, Genetics 38(6) (1953), 579–599. 197 198 ——- Referencias bibliográficas Índice alfabético Aminoácidos codificados genéticamente, 12 Código genético ideal en diferentes grupos de organismos, 31 Aminoácidos con baja frecuencia relativa, Código genético ideal y frecuencia relativa, 26 30 Aminoácidos con elevada frecuencia Código genético optimizado, 28 relativa, 26 Campos de UniProt, 3 Aminoácidos en dipéptidos de alta Cierre semántico, 17 frecuencia, 41 Codificación de los aminoácidos, 13 Aminoácidos en dipéptidos de baja Codones por aminoácido, 24 frecuencia, 41 Composición de UniProt, 3 Aminoácidos en los dipétidos de mayor frecuencia relativa, 41 Archaea, 4 Aminoácidos más abundantes en los EB del Bacteria, 5 Eukaryota, 5 proteoma humano, 78 Aminoácidos proteinogénicos, 12 Homo sapiens, 6 Aminoácidos: carbono α, 26 MAmmalia, 5 Aminoácidos: distribución de cadenas Todos los organismos, 4 Virus, 4 laterales, 28 Apolipoprotein(a), 69 Base de datos psd7003, 2 Confianza estadı́stica, 19 Desviación tı́pica de las frecuencias de aminoácidos en el proteoma Base de datos RandomUniProt, 6 Base de datos UniProt, 3 Base de datos uniprot sprot.xml, 1 Bases de datos en Internet, 1 humano, 72 Desviación tı́pica en la frecuencias de dipéptidos, 43 Desviación tı́pica en la frecuencias de tripéptidos, 46 C, 87 Desviaciones de las frecuencias relativas en Código genético, 13 Código genético ideal, 29, 75 dipéptidos, 38 Dogma Central de la Biologı́a Molecular, 11, 85 Código genético ideal comparado, 76 199 200 ——- Índice alfabético Eje peptı́dico, 27 Genes, 17 Ejemplo de programación: búsqueda de Genes operadores, 85 cadenas, 23 Genes reguladores, 85 Elementos básicos EB, 16 Genoma humano, 87 Especies catalogadas, 8 Grupo amino, 27 Estructura primaria de las proteı́nas, 12 Grupo carboxilo, 27 Expresión gradual de los genes, 89 Idoneidad biológica de UniProt, 7 Factor F, 60 Idoneidad de UniProt, 7 Frecuenca de tetrapéptidos en el proteoma Idoneidad del código genético, 22 humano, 80 Frecuencia de decapéptidos de un solo aminoácido, 66 Frecuencia de dipéotidos y tripéptidos: precisión, 37 Frecuencia de los aminoácidos en el proteoma humano, 73 Frecuencia de pentadecapéptidos de un solo aminoácido, 67 Frecuencia de pentapéptidos de un solo aminoácido, 66 Frecuencia relativa, 18 Frecuencia relativa de EB en el proteoma humano, 77 Frecuencia relativa de un aminoácido, 24 jADN y complejidad de los organismos, 87 Junk-ADN, 72 Junk-DNA, 86 Limitaciones de la Teorı́a del Aislamiento, 88 Método ’cada proteı́na’, 22 Método ’una proteı́na’, 23 Métodos de estudio de micropéptidos, 58 Métodos de estudio de tetrapéptidos, 50 Micropéptidos de un solo aminoácido, 65 Mucin-2, 69 Mutaciones, 15 Frecuencia relativa de un EB, 24 Objetivos de la investigación, 15 Frecuencia relativa y redundancia de Orden Primates, 71 tetrapéptidos, 53 Origen de los mamı́feros, 71 Frecuencias relativas de aminoácidos, 25 Frecuencias relativas de aminoácidos en proteı́nas aleatorias, 25 Frecuencias relativas de aminoácidos en proteı́nas naturales, 25 Frecuencias relativas de dipéptidos, 38 Frecuencias relativas de tripéptidos: diferencias entre organismos, 46 Fugu rubripes, 87 Funcionalidad del jADN, 88 Funciones del jADN, 88 Péptidos y cadenas peptı́dicas, 12 Polyubiquitin-C, 68 Precisión de los cálculos, 7 Precisión en las frecuencias relativas de aminoácidos, 25 Precisión en las frecuencias relativas de dipéptidos, 41, 43 Precisión en las frecuencias relativas de tripéptidos, 43 Presión selectiva, 28 Índice alfabético ——- 201 Procesos de copiar y pegar, 86 S-antigen protein, 69 Proporcionalidad genoma-complejidad del Sı́mbolos de los aminoácidos, 13 organismo, 86 Proteı́nas, 12 Saltación y transposición, 15 Señales epigenéticas, 86 Proteı́nas altamente redundantes, 68 Proteı́nas hipotéticas, 2, 17 Tamaño de las proteı́nas, 12 Proteı́nas histónicas, 86 Teorı́a del Aislamiento, 88 Proteı́nas humanas de UniProt, 72 Proteı́nas putativas, 2 Proteinoides, 12 Proyecto ENCODE, 88 Redundacia interna de micropéptidos en el proteoma humano, 82 Redundancia, 1 Redundancia en el proteoma humano, 71 Redundancia externa, 14 Redundancia externa de micropéptidos, 57 Redundancia interna, 14 Redundancia interna de micropéptidos, 57, 61 Redundancia interna de tripéptidos, 47 Redundancia interna en micropéptidos: caracterı́sticas., 62 Redundancia relativa, 18 Redundancia relativa en aminoácidos, 33 Redundancia relativa en dipéptidos, 39 Redundancia relativa en micropéptidos, 61 Redundancia relativa en proteı́nas aleatorias, 34 Redundancia relativa en proteı́nas naturales, 35 Reparto de codones, 13 Repeticiones directas, 58 Repeticiones inversas, 59 Representatividad biomolecular de UniProt, 8 Residuos de aminoácidos, 12 Retrogenes, 86 Uncharacterized protein DDB G0271670, 70 Uncharacterized protein LF3, 69 Variaciones en las cadenas peptı́dicas, 28