CAPÍTULO 20 PROTEÓMICA 367 PROTEÓMICA LILA CASTELLANOS1, LUIS JAVIER GONZÁLEZ1 Y GABRIEL PADRÓN1 1 Centro de Ingienería Genética y Biotecnología. Ave. 31 e/ 158 y 190, Playa. AP 6162, CP 10600, Ciudad de La Habana, Cuba. INTRODUCCIÓN. ALGUNOS CONCEPTOS BÁSICOS Una vez concluida la secuenciación del genoma humano, es necesario disponer de técnicas que permitan comprender la relación entre la expresión de los genes y los problemas biológicos. Este es precisamente el campo de la proteómica, ciencia dedicada al estudio de la expresión de las proteínas y de sus cambios en dependencia del contexto biológico. A diferencia de las técnicas clásicas utilizadas en la bioquímica, la proteómica se basa en la separación y la identificación de muchas proteínas (en el orden de mil o más) simultáneamente. Muchos de los métodos utilizados en proteómica permiten obtener un despliegue (u ordenamiento o arreglo) físico de mezclas muy complejas de proteínas, separadas mediante la combinación hábil de dos (o más) técnicas de separación. El proteoma [1] es el conjunto de proteínas expresadas por un organismo (o por una parte de él, por ejemplo un tipo de tejido) en un momento dado. La proteómica comprende tanto las técnicas para el estudio en gran escala de las proteínas expresadas (proteoma) como las aplicaciones de estas técnicas al análisis de problemas biológicos. Mientras que el genoma de un organismo es esencialmente constante a lo largo de la vida, el proteoma tiene un carácter dinámico: la expresión de proteínas cambia en diferentes etapas del ciclo celular pero también en respuesta a acciones externas. En particular, las diferencias entre un estado ¨normal¨ y uno patológico se traducen también a nivel molecular en cambios en los patrones de expresión de proteínas. Es precisamente esta variabilidad del proteoma lo que lo hace tan atractivo para la investigación biomédica. Recientemente, la proteómica ha comenzado a dar una contribución importante a nuestra comprensión de la biología y de la medicina. Los avances logrados en genómica no se traducen directamente en nuestro conocimiento de los respectivos proteomas: muchos genes carecen de función 368 CAPÍTULO 20 conocida, a muchos otros se les adjudica una función por analogía con otros genomas estudiados previamente. Si se extrapola la situación encontrada con la levadura, más de la mitad del genoma humano no tiene una función conocida en estos momentos. La proteómica incluye diversos campos de investigación: • La identificación de las proteínas expresadas por un organismo en una condición dada (proteómica descriptiva o estructural, todas las proteínas expresadas en un momento y en un contexto) • La identificación de los cambios en el nivel de expresión de proteínas asociados a cambios en las condiciones del organismo (proteómica comparativa, cuáles proteínas cambian cuando un organismo se somete a condiciones diferentes) • La identificación de conjuntos funcionales de proteínas, es decir, grupos de proteínas que se localizan en un mismo sitio celular y que operan en mutua interacción (interacciones proteína-proteína, proteómica funcional) • La identificación de las proteínas que forman un organelo (este enfoque conduce a la elaboración de un mapa molecular de la célula) ¿P OR QUE LA PROTEÓMICA ? El dogma central de la genética: ADN → ARN → PROTEÍNA dió lugar a uno de los paradigmas esenciales de la biología que prevaleció durante la segunda mitad del siglo pasado: un gen → una proteína Esta relación aparentemente simple, no refleja sin embargo la realidad [2]. Aunque es cierto que un gen codifica una secuencia de aminoácidos existen dos eventos que incrementan considerablemente el número de proteínas que pueden ser originadas por un gen y estar presentes en una célula en un momento dado y por tanto hace más complejo el proteoma de una célula. Uno de esos eventos es el fenómeno conocido como empalme alternativo (splicing). En los mamíferos y otros organismos superiores el gen que codifica una proteína no está constituido por una secuencia continua de nucleótidos. Una parte de la secuencia del gen está formada por regiones no codificantes que interrumpen la secuencia codificante del gen y son llamados intrones. Las PROTEÓMICA 369 regiones codificantes (y que por tanto dan lugar al ARN y posteriormente a la proteína) son conocidas como exones. Cuando se forma el ARN mensajero, mARN, los intrones son eliminados quedando así la secuencia que codifica una proteína. El fenómeno de splicing consiste en que los exones pueden reordenarse de varias formas y dar lugar a mas de una proteína a partir de un solo gen. El otro evento, es el hecho de que una proteína puede ser modificada durante o después de la traducción o síntesis de la proteína con la introducción de grupos sustituyentes, en un proceso que se conoce como modificación post traduccional (MPT). Se calcula que alrededor del 10 % de los genes de mamíferos codifican proteínas cuya función es modificar otras proteínas, y que generan más de 200 tipos de modificaciones post traduccionales tales como: glicosilación, fosforilación, incorporación de lípidos, etc. En adición, muchas proteínas participan en las rutas metabólicas que conllevan a la degradación y finalmente la eliminación de proteínas. Asi, en el sistema de ubiquitinacion participan 134 genes, mientras las fosfatasas son codificadas por unos 300 genes y las proteínas kinasas se estiman codificadas por más de 1100 genes [3]. La función de todas estas proteínas es la modificación de otras para modular su función biológica. El cuadro se completa con el conjunto de proteínas que interviene en la proteólisis y la degradación. En el proteosoma participan los productos de expresión de unos 130 genes, mientras que las proteínas con función proteolítica están codificadas por unos 1000 genes. Por ello, una secuencia única de aminoácidos puede generar muchas especies químicas diferentes. De esta forma se estima que los aproximadamente 40 000 genes del genoma humano pueden dar lugar a mas de un millón de proteínas. Las diferencias que existen entre las poblaciones de mARN y de proteínas están dadas, por una parte, por la amplia población de especies que portan modificaciones químicas pero además, intervienen otras causas importantes: el tiempo de residencia de las moléculas de proteínas en el interior de una célula o de un compartimiento celular es variable debido a la degradación por proteasas, a la traslocación intra y extracelular y a la modificación de las proteínas durante su intervención en procesos biológicos. Por ello la medición de la expresión de mARN no suministra valores confiables de los cuales se pudiera deducir la abundancia y la presencia de las proteínas traducidas. Las diferencias que existen entre las poblaciones de mRNA y de proteínas están dadas por una parte por la amplia población de especies que portan modificaciones químicas pero además, intervienen otras causas importantes: el tiempo de vida media de las moléculas de proteínas en el interior de una célula o de un compartimiento celular es variable debido a la acción de proteasas, a la 370 CAPÍTULO 20 traslocación intra- y extracelular y a la modificación de las proteínas durante su intervención en procesos biológicos. Por ello la medición de la expresión de mRNA no suministra valores confiables de los cuales se pudiera deducir la abundancia y la presencia de las proteínas traducidas. Solo el estudio directo de las proteínas, lo que es campo de la Proteómica, puede dar respuesta a estas cuestiones. Adicionalmente, una molécula de mRNA puede originar varias secuencias de proteínas, por el simple cambio del codón de iniciación o de terminación, lo que origina moléculas de secuencias más cortas o más extensas. En resumen, al concluir el siglo XX la idea de considerar las proteínas como macromoleculas definibles por una secuencia de residuos de aminoácidos completamente determinadas por la secuencia de una molécula de ADN había cambiado sustancialmente: entre genes y proteínas existen diferencias de complejidad que definen la existencia de un campo de conocimiento singular, irreducible a formas relativamente menos complejas del conocimiento: al concluir el siglo las razones para el surgimiento de la proteómica estaban solidamente establecidas. ¿COMO INVESTIGAR EL PROTEOMA? Mientras que las moléculas de ADN y de ARN se construyen mediante un ordenamiento variable de solo cuatro componentes estructuralmente invariables (desoxinucleótidos y nucleótidos respectivamente), las moléculas de proteínas presentan una diversidad estructural extraordinaria que se manifiesta en varios niveles de complejidad: a nivel de la estructura primaria por los posibles ordenamientos esencialmente de 20 residuos de aminoácidos a los que se suman todas las variantes de modificaciones post traducción posibles. Y a nivel de estructura espacial, esta diversidad se manifiesta en muy diversas estructuras de las que depende esencialmente la actividad biológica. Los estudios de la diversidad estructural tridimensional de las proteínas también están en curso, mediante ensayos masivos de cristalización y determinación de estructura tridimensional haciendo uso de técnicas de difracción de rayos X y de resonancia magnética nuclear, pero este tema no será objeto de este capitulo. Nos centraremos, por tanto en los métodos encaminados a la investigación de la diversidad molecular de las proteínas asociada a la existencia de diferentes estructuras primarias (término que será utilizado en nuestro texto para incluir también las modificaciones post traducción). Podríamos adelantar una formulación del dogma central de la proteómica comparativa en los siguientes términos: “Los cambios en un nivel superior del fenotipo de un organismo o de uno de sus componentes está relacionado con cambios en el fenotipo molecular de la expresión de proteínas”. PROTEÓMICA 371 Por tanto, la idea es relacionar las características biológicas de un sistema con la expresión de las proteínas y más específicamente, relacionar los cambios en las propiedades biológicas con los cambios en la expresión de proteínas. Para ello es necesario disponer de técnicas que permitan a) separar miles de especies; b) identificar las especies de interés y c) cuantificar la magnitud de los cambios en la expresión de proteínas. La proteómica aborda este complejo problema técnico con variadas herramientas. Estas técnicas se agrupan en dos grandes campos: las que se basan en la resolución de proteínas intactas y que utilizan principalmente técnicas de electroforesis o de cromatografía de proteínas y las que se basan en la conversión, en una primera etapa, de las mezclas de proteínas en mezclas complejas de sus péptidos de degradación proteolítica. En el primer grupo están las técnicas que utilizan la electroforesis bidimensional (2DE) atendiendo a una primera separación por carga eléctrica y una segunda separación por talla. También comprende la combinación de dos o tres métodos ortogonales de cromatografía o isoelectroenfoque en solución seguido de cromatografía (por ejemplo, separación por talla seguida de separación por hidrofobicidad; separación por carga, por talla y finalmente por hidrofobicidad; separación por IEF de flujo libre seguido de separación por masa o por hidrofobicidad). Las fracciones obtenidas en estas separaciones, tras múltiples etapas, pueden ser resueltas a continuación por 2DE o por electroforesis en geles de SDS (SDS PAGE), o alternativamente, ser digeridas y analizadas por espectrometría de masas. En el segundo grupo (técnicas basadas en un primer paso de conversión de las mezclas de proteínas en mezclas de péptidos obtenidos por proteólisis específica) se sustituye la resolución de proteínas por la resolución cromatográfica de las mezclas de sus péptidos obtenidos por proteólisis específica generalmente con tripsina. Alternativamente, se hace la selección de un conjunto de péptidos representativos de la presencia de las proteínas parentales atendiendo a alguna propiedad. Si bien la electroforesis en geles de SDS es una técnica de rutina en los laboratorios biológicos, la electroforesis bidimensional de alta resolución requiere de un laboratorio dedicado, tanto por los requisitos de reproducibilidad como por la variedad y complejidad de los pasos del proceso. La electroforesis bidimensional es hasta el presente, la única técnica que permite resolver con alta eficiencia las isoformas que difieren en punto isoeléctrico y por ello, se sigue utilizando ampliamente. A continuación discutiremos los aspectos esenciales de la técnica así como las características que deben tener las muestras para su análisis con estos métodos. Los detalles experimentales están disponibles en excelentes manuales y artículos de revisión [4-9]. 372 CAPÍTULO 20 E LECTROFORESIS BIDIMENSIONAL (2DE) Los geles bidimensionales fueron introducidos en 1975 simultáneamente por J. Klose [10] en Berlin y O’ Farrell [11], en los Estados Unidos. Estos geles [12] permiten obtener un arreglo o despliegue físico en dos dimensiones de mezclas complejas de proteínas (Figura 20.1). Se basan en la combinación de dos técnicas ortogonales (es decir, que no comparten principios físicos comunes): 1) la separación por carga eléctrica (focalización isoeléctrica, IEF) en la que las proteínas migran en un gradiente de pH hasta alcanzar el sitio donde carecen de carga, es decir su punto isoeléctrico y 2) la separación por tamaño molecular que se efectúa en un gel de poliacrilamida en presencia de un detergente aniónico muy potente, el docecil sulfato de sodio (SDS-PAGE) . Figura 20.1. Electroforesis bidimensional de proteínas de la fracción nuclear de células de cáncer de pulmón humano (small cell lung cancer). Las proteínas de la fracción nuclear se extrajeron con una solución de agentes caotrópicos y detergentes. La primera dimensión se efectuó en un gel de poliacrilamida tubular con anfolinas portadoras de rango 2 a 11. La segunda dimensión se efectuó en un gel vertical de 16.5 % poliacrilamida en presencia de SDS. Las proteínas se detectaron mediante tinción con plata (Gel confeccionado en el laboratorio de los autores). Para los organismos cuyos genomas han sido ya secuenciados es posible calcular el proteoma teórico. Estos abarcan aproximadamente desde pI 3 hasta pI 12-13 y desde 1,000- 2,000 Da hasta aproximadamente 500 kDa. Pero la mayor parte (posiblemente alrededor del 70 %-80 %) de las proteínas están concentradas en una zona mas estrecha que va aproximadamente entre pI 3.5 y pI 10 y masa entre 10 y 100 kDa. Esta es la zona que generalmente se estudia con las técnicas de electroforesis bidimensional. En adición, un tercer elemento tiene que ser considerado: el grado de hidrofobicidad de las proteínas. Este es muy variable y va desde estructuras hidrofílicas hasta estructuras muy hidrofóbicas. Las proteínas hidrofóbicas abundan en las membranas, y tienen regiones o dominios cuyas propiedades de solubilidad son más cercanas a las de los polímeros orgánicos convencionales PROTEÓMICA 373 que a las de las proteínas globulares hidrosolubles. Las técnicas basadas en 2DE no son especialmente buenas en el análisis de proteínas muy hidrofóbicas aunque continuamente se hacen avances técnicos para superar esta limitación [13]. Por ello, generalmente las poblaciones estudiadas por 2DE están sesgadas hacia las moléculas mas hidrofílicas, mientras que las proteínas hidrofóbicas se analizan preferentemente mediante combinaciones de técnicas cromatográficas y de SDS-PAGE o mediante su previa conversión a mezclas de péptidos. La Tabla 20.1 resume las etapas principales de un análisis por 2DE seguido de identificación de las proteínas de interés. Tabla 20.1. Etapas en el análisis de la expresión de proteínas por 2DE e identificación de los cambios por espectrometría de masas 374 CAPÍTULO 20 Tabla 20.1 (continuación). PROTEÓMICA P R E PARACIÓN 375 DE MUESTRAS Cualquiera sea su origen (proteínas totales o procedentes de un fraccionamiento subcelular), las muestras biológicas sometidas a electroforesis bidimensional requieren de un tratamiento previo cuya función es liberarlas de todos los componentes no proteicos presentes. Estos son esencialmente: lípidos, ácidos nucleicos, componentes de naturaleza orgánica e inorgánica de baja masa molecular como vitaminas y cofactores, las sales y los iones inorgánicos. La eliminación de estos componentes es un arte del cual depende la calidad de la preparación y por ello el éxito o el fracaso del experimento. Las técnicas utilizadas para eliminar estos componentes tienen que cumplir ciertas condiciones: a) no pueden alterar el perfil de proteínas (es decir, no es posible una técnica que cause la pérdida irrecuperable de ciertas proteínas); b) no pueden introducir modificaciones sobre las proteínas (por ejemplo, no puede trabajarse en condiciones en que las proteasas endógenas sean activas y causen la proteólisis de componentes de la muestra [14] y c) el número de pasos debe ser mínimo y su diseño concebido para que al final, la preparación esté en condiciones de ser incorporada al gel de la primera dimensión (focalización) o a cualquier procedimiento de análisis alternativo a la 2DE. Un aspecto crítico es la presencia de sales provenientes de tampones utilizados en la obtención de una preparación. Por ejemplo, el Tris, el fosfato salino (PBS) y el HEPES que son de uso frecuente en bioquímica, focalizan en una región del gel si se encuentran presentes en la preparación final, como consecuencia esa región aparece ¨vacía¨ de proteínas. El límite de la concentración total de iones que puede tener la muestra es de 40 mM. Por encima de ese valor la conductividad de la muestra es elevada, lo que provoca el sobrecalentamiento del gel y su daño. La preparación de muestras generalmente incluye los siguientes pasos: 1. Extracción o solubilización de proteínas. 2. Eliminación de lípidos mediante extracción con solvente orgánico. 3. Eliminación de ácidos nucleicos mediante digestión con nucleasas, coprecipitación con compuestos básicos o ultracentrifugación. En algunos protocolos se eliminan las sales mediante el cambio del tampón de la muestra por la solución de focalización o mediante precipitación total de proteínas con ácido tricloroacético en acetona y posterior redisolución en la solución de muestra. Otro aspecto importante es la calidad del material biológico. Las líneas celulares tienen que ser controladas para verificar la ausencia de micoplasmas. Las muestras provenientes de pacientes necesitan condiciones especiales de 376 CAPÍTULO 20 conservación que deben quedar instrumentadas antes del inicio de la manipulación médica. Las muestras provenientes de órganos o de tejidos deben ser liberadas de materiales colaterales como tejidos de sostén y epitelio vascular. Los materiales provenientes de biopsias tumorales deben además liberarse de células normales que hayan sido removidas conjuntamente con el tumor durante la biopsia. Solubilización de proteínas. Un procedimiento ideal de solubilización debe cumplir varios requisitos: extraer totalmente las proteínas que se desean estudiar, de modo que su abundancia en la solución de extracción refleje su abundancia relativa en la célula o el organelo, no modificar químicamente ningún grupo funcional presente en las proteínas (por ejemplo, evitando oxidaciones de metioninas, intercambios de puentes disulfuro, reacciones de desamidación, de isomerización entre ácido aspártico y ácido isoaspártico) e impedir las reacciones de degradación provocadas por la liberación de proteasas al medio [14]. Para la solubilización de proteínas se utilizan mezclas de agentes caotrópicos, y detergentes, a los que se adicionan otros componentes: inhibidores de proteasas, un agente reductor y anfolinas del rango adecuado. La electroforesis bidimensional impone requisitos rígidos en cuanto a los agentes solubilizantes que pueden ser utilizados. Lamentablemente, el SDS, a pesar de su alta capacidad de solubilización de proteínas, es incompatible con la focalización isoeléctrica debido a su carácter iónico, no obstante, se utiliza para la disolución de los residuos insolubles en todos los otros agentes pero estos extractos deben diluirse notablemente con soluciones que contengan detergentes no iónicos antes de aplicar a la primera dimensión. Por igual razón se excluye el cloruro de guanidinio. Los reactivos más usados para la preparación de las soluciones de solubilización son [8]: Agentes caotrópicos: urea 8-9 M, mezclas de urea 5 M + tiourea 2 M Detergentes: CHAPS 1-4 %, Triton X 100 1-2 %, NP 40 1-2 %, SB 3-10 0.5-1 %, ASB 14 0.5-1 % Reductores: DTT 1 %, DTE 1 %, TBP 1 % Anfolinas del rango adecuado: 1-2 % Inhibidores de proteasas: Mezcla comercial de inhibidores de proteasas serínicas, aspárticas y metalo-proteasas. Adicionalmente puede incorporarse glicerol o propanol en una concentración de hasta unos 15 %, especialmente recomendados para el análisis de proteínas básicas. Recientemente se ha reportado una sustancial mejora en las separaciones 2DE de proteínas hidrofóbicas (integrales de membrana) mediante la incorporación de trifluoroetanol al 50% en la solución de extracción y de rehidratación [13]. PROTEÓMICA 377 La selección de la primera dimensión. El método original propuesto de modo independiente por O’ Farrell [11] y por Klose [10]en 1975 se basa en la separación de las proteínas por su carga utilizando un gel cilíndrico de poliacrilamida al cual se le incorporan mezclas de anfolitos solubles (compuestos de bajo peso molecular que poseen carga eléctrica), presentes en una mezcla compleja de modo que sus componentes cubran con sus pK un amplio rango de valores). Con este método y haciendo uso de la focalización en condiciones de no-equilibrio de pH (NEPHGE) [15] es posible separar en un mismo gel proteínas ácidas y proteínas básicas (Figura 20.1). A principios de los años 80 se introdujo una modificación en la primera dimensión, que consistió en la co-polimerización de los anfolitos con la matriz de acrilamida, creando en el gel un gradiente estable de carga [7]. Estos geles están disponibles en el mercado (IPG: Immobilized pH Gel). Selección del rango de análisis. Hay variadas opciones en cuanto al rango de pI de separación y la longitud de la separación (están disponibles comercialmente IPG desde 7 cm hasta 24 cm). En una primera etapa frecuentemente se prefiere realizar un gel bidimensional exploratorio de rango amplio, entre pI 3 y 10 , seguido de separación por tamaño en el rango de 14 a 150 kDa utilizando geles de 12.5 % en la segunda dimensión. Esta primera etapa permite ajustar la preparación de la muestra y la cantidad de muestra a aplicar al gel. A continuación se selecciona un rango de pI mas estrecho, por ejemplo entre 4 y 7 unidades y entre 6 y 10 unidades. De esta forma, se obtiene mucha mayor información, si bien el número de geles (y el costo en muestra, tiempo y dinero) se duplica. Cuando se desea incrementar la información sobre una región especifica, se utilizan separaciones en geles llamados de rango estrecho o zoom. En estos geles es posible expandir una unidad de punto isoeléctrico a lo largo de una distancia de 18 cm. Evidentemente, un estudio abarcador del proteoma llevaría a realizar una serie de geles que cubran con una alta resolución desde pI 3 hasta pI 11, y desde masas de 2 kDa hasta masas de 500 kDa. Si bien técnicamente esto es posible, en la práctica tal estudio resulta excesivamente costoso en muestra, tiempo y recursos. Generalmente los extractos celulares totales (o las subfracciones obtenidas) se analizan mediante electroforesis en geles de focalización isoeléctrica de rango 3 a 10 o de rango 4 a 7 y 6 a 11. Esta separación se sigue con una segunda separación por tamaño en un gel convencional de SDS. El mapa obtenido tiene físicamente dos dimensiones. Un gel de alta resolución en el rango de pI de 2.5 a 10 y de masas de 15 a 120 kDa permite la resolución de 5,000 –8,000 especies [16] si la detección es radiactiva, pero rutinariamente en este sistema el número de especies detectables con tinción con plata es de unas 1500 a 2,000 (Figura 20.1). Es importante recordar que, debido a las características de la 378 CAPÍTULO 20 técnic a, las determinaciones de cambios en la expresión de proteínas requieren la realización de varias réplicas de geles (para cada muestra tres como mínimo, pero preferiblemente un número mayor de geles). Por todo ello, la estrategia más utilizada comprende: 1. La selección de uno o de varios compartimientos celulares de interés. 2. La realización de subfraccionamiento celular. 3. El análisis de la expresión diferencial de proteínas mediante geles de rango intermedio (generalmente de tres unidades de pI en 18 cm) seguidas de separaciones por tamaños entre 14 y 150 kDa. 4. Análisis de imágenes y análisis estadístico de los cambios en la expresión. Muchos de los aspectos que acabamos de discutir no sólo son importantes para las muestras destinadas a electroforesis bidimensional sino también para muestras que se analizan mediante técnicas no electroforéticas, como las basadas en la cromatografía líquida bidimensional seguida de espectrometría de masas. EL RANGO DINÁMICO D E EXPRESIÓN: U N RETO A LA TECNOLOGÍA Se estima que una célula de un organismo superior contiene en un instante de tiempo unas 5 000 especies diferentes de mARN [3]. De estas 5 000 especies, unas 4 000 existen en un número muy bajo de copias (una o dos moléculas por célula) y dan lugar a proteínas poco abundantes o muy escasas. No obstante, se debe recordar que la abundancia de una proteína no sólo depende del número de copias de mARN sino también, del tiempo de vida de la proteína sintetizada en la célula. Se estima que una célula en un instante contiene en el orden de mil millones de moléculas de proteínas, correspondientes a 5 000 secuencias de mARN presentes. Sin embargo, el 90 % de la masa de proteínas esta formado por unas 100 especies diferentes, mientras que el 10 % restante esta formado por una enorme diversidad de moléculas. Si estimamos que una secuencia de aminoácidos puede dar lugar a unas 20 variantes moleculares o especies, entonces concluimos que 5 000 mARN diferentes son responsables por unas 100 000 especies moleculares diversas a nivel de proteínas [3]. Ese es precisamente el campo de análisis de la proteómica y por ello han sido necesarias herramientas muy poderosas para la separación de especies moleculares que difieren ligeramente y para su identificación. Aquí estamos ante dos problemas: primero, un gran número de especies a resolver, cuantificar e identificar; segundo, un número muy pequeño de especies es responsable de la mayor parte del contenido total de proteínas, con lo que existe un rango dinámico de expresión muy amplio. PROTEÓMICA 379 El rango dinámico de expresión representa los órdenes de magnitud (número de copias por célula o por ml de fluido) en los que se mueve la expresión de las proteínas en una célula o fluido fisiológico [17]. El rango dinámico de expresión en las proteínas celulares es de unos 5-7 órdenes, mientras que en el plasma es de 10-11 órdenes. Por ejemplo, la concentración de albúmina y la de glucagón en plasma difieren en 9 órdenes de magnitud. La concentración de la hemoglobina es del orden de 10 11 pg/ml, mientras que las interleucinas están en concentraciones del orden de 1 a 10 pg/ml [18]. Ciertamente, no existe ningún método físico o químico de análisis que pueda dar una respuesta lineal a lo largo de un rango tan amplio de magnitudes. Por tanto, el análisis de las proteínas con bajo número de copias es un reto tecnológico de la proteómica. Los límites experimentales del método basado en 2DE están dados por dos factores: los limites de lo que podemos detectar en el gel y de lo que podemos medir por espectrometría de masas. Aproximadamente, ambos coinciden: la tinción con plata de alta sensibilidad permite ver proteínas presentes en el orden de 1 000 copias por célula, si en el gel se ha aplicado la masa correspondiente a 10 8 a 10 9 células [17]. Pero no podemos ver ni identificar proteínas expresadas en un número inferior de copias, a menos que primero se lleven a cabo pasos de prefraccionamiento, encargados de incrementar la concentración de un grupo de componentes en la muestra a expensas de la supresión de otros. PRINCIPALES FORMAS DE ABORDAR LOS PROBLEMAS QUE PLANTEA EL AMPLIO RANGO DINÁMICO Este proble ma, que es esencial para un análisis abarcador del proteoma celular, se ha abordado con los siguientes enfoques: a) Eliminación selectiva de componentes mayoritarios. Para ello es necesario que los métodos sean altamente específicos y no eliminen simultáneamente los componentes minoritarios. Este enfoque está dirigido al estudio de un subproteoma enriquecido en las especies menos abundantes, tras la eliminación de las más abundantes. Se basa principalmente en series sucesivas de cromatografías de inmunoafinidad con anticuerpos policlonales inmovilizados en columnas que retienen las especies mayoritarias. Recientemente [19] se utilizó una sucesión de 9 pasos de inmunoafinidad para la preparación de una muestra de plasma humano. Ello permitió identificar 3 800 especies moleculares correspondientes a 325 genes diferentes (es decir, que aproximadamente cada proteína aparece como promedio con 11 variantes moleculares resueltas). Algunos de estos sistemas consisten en una única columna portadora de 6 tipos de anticuerpos policlonales dirigidos contra las 6 proteínas más abundantes en el plasma y están disponibles comercialmente. 380 CAPÍTULO 20 b) Fraccionamiento de las proteínas totales. Un fraccionamiento celular típico consiste en la obtención de fracciones citosólica, microsomal, mitocondrial y nuclear [20] (ver Figura 20.2). Figura 20.2. Fraccionamiento de células en organelos subcelulares. El fraccionamiento subcelular por organelos permite concentrar el estudio en un compartimiento celular de interés para investigar allí la expresión de proteínas mucho más a fondo. Alternativamente puede realizarse un subfraccionamiento por solubilización diferencial (Figura 20.3), que consiste en la extracción de la masa celular mediante el uso de agentes solubilizantes cada vez más enérgicos [20] . Tras cada incubación, el material no disuelto se separa por centrifugación, y el sobrenadante (fracción soluble) se colecta por separado. El precipitado residual se extrae con una solución de mayor poder solubilizante. Un esquema típico consiste en: a) extracción en TRIS 40 mM pH 11, b) extracción en urea, c) extracción del residuo final en SDS. Recientemente han ganado popularidad los métodos de fraccionamiento basados en propiedades físico-químicas utilizando técnicas múltiples o en serie (por ejemplo, fraccionar por carga eléctrica mediante isoelectroenfoque en solución, seguido de separación por hidrofobicidad en columnas de fase reversa o por tamaño en columnas de exclusión molecular). Estos sistemas generan una gran cantidad de fracciones, cada una de ellas se convierte en un subproteoma y de hecho en un subproyecto de estudio. PROTEÓMICA 381 Figura 20.3. Fraccionamiento de proteínas celulares según su solubilidad en diferentes soluciones de extracción. c) Utilización de técnicas de muy alta resolución en electroforesis bidimensional. Una alternativa es utilizar geles de tipo zoom en la primera dimensión (separación por carga). Actualmente existen en el mercado geles comerciales que expanden una unidad de punto isoeléctrico a lo largo de 18 cm. En ellos es posible aplicar una alta carga de proteínas con lo que las especies poco abundantes se hacen visibles. Ciertamente estos geles permiten ver en todo detalle una región del proteoma pero excluyen el resto. Por ello se utilizan solo cuando se desea estudiar algún aspecto particular que ha sido previamente explorado con un sistema más abarcador aunque con menor profundidad. Por su costo en tiempo, en material biológico y en recursos, seria irrealizable intentar estudiar un proteoma utilizando todas las técnicas de enriquecimiento mencionadas. Pero las diversas combinaciones de ellas son de gran utilidad cuando se desea centrar el estudio en una fracción. Por ejemplo, es posible estudiar el subproteoma nuclear de una línea celular, mediante el uso de geles zoom para analizar el rango de pI 8.0 a 9.0 seguido de separaciones en geles de tris tricina [22] de segunda dimensión que resuelven específicamente las proteínas de baja talla. Con ello veremos en detalle una parte del proteoma celular correspondiente a las proteínas básicas de baja talla presentes en la fracción nuclear. 382 CAPÍTULO 20 CROMATOGRAFIA LIQUIDA Como ya se mencionó la electroforesis bidimensional posee algunas limitaciones para analizar proteínas hidrofóbicas ya que por su escasa solubilidad están subrepresentadas en los mapas electroforéticos bidimensionales obtenidos hasta el momento. Por otra parte, aquellas proteínas que poseen puntos isoeléctricos muy ácidos o básicos son difíciles de focalizar en la mayoría de los geles de isoelectroenfoque disponibles en el mercado. El amplio rango dinámico es otro problema no resuelto. Por tales motivos, en los últimos años ha existido la tendencia a trabajar con los péptidos en vez de las proteínas tratando de solucionar las limitaciones señaladas. La idea consiste en marcar diferencialmente con isótopos estables los péptidos generados por la proteólisis de todas las proteínas sintetizadas por una célula o tejido en dos condiciones que se desean estudiar o comparar. Posteriormente, mediante el análisis por cromatografía líquida de fase reversa (o combinada con otro método cromatográfico) acoplada a la espectrometría de masas se puede realizar la identificación de las proteínas en las bases de datos de secuencias. La cuantificación se logra mediante un análisis detallado de las distribuciones isotópicas de los péptidos analizados y así se infiere la expresión diferencial de las proteínas que los contienen. Aunque la idea parece sencilla, no deja de tener asociada una gran complejidad pues si bien el trabajo con péptidos puede ser más fácil en comparación con las proteínas, no es menos cierto que ya la mezcla de proteínas que se deriva de una célula o tejido de por sí es muy compleja por lo que una vez realizada la proteólisis la mezcla de péptidos que se genera debe ser mucho más compleja aún. Por tales motivos se han empleado propiedades ortogonales para lograr la separación de la mezcla de péptidos obtenida. Entre estas propiedades tenemos la talla, carga, hidrofobicidad, e interacción biológica o afinidad. Por lo tanto es de esperar un sinnúmero de posibles combinaciones en la cromatografía multidimensional pero lo común entre todas radica en que persiguen un mismo objetivo: obtener la mejor resolución posible para posteriormente identificar una mayor cantidad de proteínas en el análisis por espectrometría de masas. Entre las combinaciones más empleadas se encuentra la cromatografía de intercambio iónico con la cromatografía de fase reversa (RP). Particularmente en esta combinación la utilización de columnas de RP en el segundo paso permite que la mezcla a su vez sea desalada y pueda ser analizada mediante espectrometría de masas empleando electronebulización (ESI). También se han reportado otras combinaciones que emplean cromatografías de exclusión por tamaño molecular (SEC) y RP [23]. Raida y colaboradores combinaron la PROTEÓMICA 383 cromatografía de intercambio catiónico (SCX) con RP-HPLC acoplada al espectrómetro de masas para medir las masas de alrededor de 3000 péptidos de un hemofiltrado humano [24]. Aunque los dos pasos cromatográficos fueron desarrollados en experimentos diferentes, este estudio demostró el elevado poder resolutivo de la cromatografía multidimensional y la espectrometría de masas para el fraccionamiento y análisis de un gran número de péptidos. Mediante la combinación de intercambio catiónico y RP-HPLC se ha publicado quizás el más eficiente método de identificación de proteínas a partir de mezclas complejas de péptidos. Esta tecnología se conoce como MudPIT (Multimensional Protein Identification Technology) [25,26]. En esta metodología se emplean sales volátiles para eluir por pasos los péptidos retenidos en una matriz de intercambio catiónico y separarlos posteriormente en una columna de RP-HPLC acoplado a un espectrómetro de masas. Con la aplicación de esta metodología se logró identificar proteínas muy hidrofóbicas con múltiples regiones transmembranarias, proteínas de pI superiores a 12 e inferiores a 4 y proteínas que el uso de codones (Codon adaptation index) de su gen deben ser muy minoritarias. Otros grupos han desarrollado procedimientos SCX-RP para una gran variedad de aplicaciones [27,28]. También se ha empleado la electroforesis capilar (CE) acoplada a la cromatografía de fase reversa para separar péptidos originados por la digestión de una proteína [29] y existen reportes de cromatografías tridimensionales La inclusión de una cromatografía de afinidad en uno de los pasos de separación multidimensional de péptidos ha sido muy útil pues permite retener selectivamente péptidos o proteínas basándose en interacciones específicas lo que simplifica considerablemente la mezcla compleja de péptidos proteolíticos. Así por ejemplo, en la identificación de la fosforilación, que es una de las modificaciones postraduccionales más importantes por estar involucrada prácticamente en todos los mecanismos de transducción de señales, las columnas de IMAC-Fe 3+ han permitido el aislamiento de los fosfopéptidos y el estudio del fosfoproteoma de varios organismos [30-32]. La utilización de columnas con lectinas inmovilizadas ha permitido la captura selectiva de glicopéptidos que facilita el estudio del glicoma de los organismos [33]. También se han empleado otras variantes que incluye la derivatización química de aminoácidos para que, mediante el empleo de una cromatografía de afinidad, sea posible el aislamiento selectivo de los péptidos modificados dentro de todos los péptidos proteolíticos generados. Uno de los ejemplos más creativos dirigidos a realizar proteómica sin emplear la electroforesis bidimensional es la metodología conocida como ICAT (isotope- 384 CAPÍTULO 20 coded affinity tags) [34]. En esta metodología se procede a la derivatización química de los péptidos con un reactivo conocido también como ICAT que posee un extremo que reacciona específicamente con los residuos de cisteínas libres y en el otro extremo posee biotina. Los péptidos marcados (que contienen cisteína) se aislan selectivamente, mediante una cromatografía de afinidad con avidina, los péptidos que contienen residuos de cisteínas modificadas. Este paso de cromatografía de afinidad es esencial para simplificar las mezclas complejas de péptidos e identificar proteínas minoritarias, que de analizarse la mezcla de péptidos cruda no pudieran ser identificadas. Adicionalmente el reactivo posee una región intermedia que contiene 4 grupos metilenos, con un total de 8 hidrógenos, que pueden estar sustituidos por deuterio. De esta forma se tienen realmente dos reactivos, el ligero (con H) y el pesado (con D). La cuantificación de la expresión diferencial de proteínas se logra al marcar una condición con el reactivo ligero y la segunda condición con el reactivo pesado Ambos extremos del reactivo ICAT se encuentran enlazados por un brazo espaciador que en una de las variantes el ICAT ligero posee los isótopos naturales en cambio el ICAT pesado posee 8 átomos de deuterio. Cada una de las condiciones se marcan de manera independiente isotópicamente con cada uno de reactivos ICATy Ligeros y después los eluatos de afinidad se mezclan en cantidades equivalentes y la cuantificación se realiza al determinar la intensidad relativa de las especies ligera y pesada de los péptidos analizados por espectrometría de masas. A esta metodología se le señalan las siguientes limitaciones: 1. Las proteínas que no contienen residuos de cisteínas quedan excluidas del análisis. 2. La masa molecular del reactivo ICAT, en ocasiones comparable con la masa molecular del péptido a identificar puede causar interferencias durante la ionización de los péptidos y en la interpretación de los espectros de masas. 3. La cuantificación puede aportar resultados erróneos pues durante la separación por fase reversa los péptidos marcados con ICAT ligero pueden eluir significativamente separados de los marcados con la versión pesada. Recientemente se han introducido nuevas versiones del reactivos ICAT para tratar de solucionar estos problemas. Por ejemplo el reactivo en fase sólida para disminuir las pérdidas en la cromatografía de afinidad y se ha sustituido el marcaje con deuterio por 13 C para evitar las diferencias en el tiempo de retención en RP-HPLC de los péptidos derivatizados con el ICAT ligero y pesado con lo que se minimizan los posibles errores en la cuantificación. Esta metodología tiene el gran mérito de haber sido la pionera en proponer una estrategia bien PROTEÓMICA 385 estructurada y concebida para explotar las potencialidades de la espectrometría de masas y realizar los estudios de proteómica sin la necesidad del empleo de la electroforesis bidimensional. Gevaert y colaboradores desarrollaron un método diagonal que emplea dos pasos consecutivos de cromatografía de fase reversa, denominado COFRADIC (combined fractional diagonal chromatography) [35]. Después de obtener múltiples fracciones de una mezcla compleja de péptidos mediante cromatografía de fase reversa, a cada una de las fracciones se le realiza un tratamiento oxidativo que transforma selectivamente a los péptidos que contienen metioninas en metioninas sulfóxido, que los convierten en especies más hidrofílicas que los péptidos originales. Se repite la separación por RP-HPLC con las fracciones después de oxidadas. Solo las fracciones que redujeron el tiempo de retención (y por tanto contienen las metioninas oxidadas) son colectadas y analizadas por espectrometría de masas. De esta manera, de la mezcla compleja inicial de péptidos solo se analizan por espectrometría de masas aquellos que contienen residuos de metionina en su secuencia. Aunque en este reporte no se refieren términos cuantitativos, se sugiere que el empleo del marcaje isotópico estable con 18 O pudiera ser utilizado para que esta metodología suministre información cuantitativa sobre la expresión diferencial de proteínas. En este trabajo fueron seleccionados e identificados péptidos (que contienen metionina) provenientes de 800 proteínas diferentes. Espectrometria de masas (MS) La espectrometría de masas es la herramienta empleada en los estudios de proteómica para la identificación de las proteínas. Su principio se asemeja a lo que ocurre cuando un haz luminoso incide sobre un prisma: la radiación electromagnética es descompuesta o separada de acuerdo a las diferentes longitudes de onda. En un espectrómetro de masas un haz de iones es separado de acuerdo a la relación masa/carga: m/z. En un espectrómetro de masas hay dos elementos esenciales: la fuente de ionización, donde son producidos los iones al suministrarle energía a la muestra que se estudia y el analizador (un campo eléctrico, un campo magnético, de tiempo de vuelo o una combinación de ellos), donde los iones son separados de acuerdo a la relación masa/carga (m/z). La energía suministrada puede ser suficiente no solamente para ionizar la molécula y obtener el llamado ión molecular (la molécula intacta pero con una carga positiva o negativa) sino también para provocar la fragmentación de la molécula dando lugar a iones fragmentos. Los iones producidos son característicos de un determinado compuesto químico y por tanto es posible su identificación a partir del espectro de masas. 386 CAPÍTULO 20 Aunque la espectrometría de masas ya era una técnica establecida para la caracterización de los compuestos orgánicos desde finales de la década de los años 50, los métodos de ionización disponibles hasta 1981 no eran aplicables a las llamadas biomoléculas (péptidos, proteínas, carbohidratos y ácidos nucleicos) por cuanto exigían la evaporación previa de la muestra. Por esta razón, para estudiar los compuestos con elevados puntos de fusión o que se descomponen con la temperatura había que obtener derivados volátiles y en el caso de que esto no fuera posible, simplemente no podían ser estudiados. En 1981, Michael Barber y Richard Bordoli, de la Universidad de Manchester publican la aplicación de un método de ionización suave, el FAB (fast atom bombardment) al estudio de proteínas [36]. El método, aunque ya no se emplea debido a su baja eficiencia de ionización, fue un resultado de gran importancia pues permitió por primera vez la medición de la masa molecular de los péptidos y la determinación de la secuencia sin necesidad de obtener un derivado volátil. En 1989, John Fenn publica [37] la aplicación de la ionización por electronebulización (electrospray ionization, ESI) al estudio de péptidos, proteínas y otras biomoléculas. Un año antes Koichi Tanaka había publicado un nuevo método de ionización conocido como MALDI (Matrix Assisted Laser Desorption Ionization) [38]. Poco después Michael Karas y Franz Hillenkamp publican varias aplicaciones del MALDI en el campo de las proteínas [39]. Fenn y Tanaka recibieron el premio Nobel de Química en el 2002 por estos descubrimientos. Estos dos métodos revolucionaron completamente la aplicación de la espectrometría de masas a las biomoléculas y en apenas diez años la espectrometría de masas se convirtió en el método más poderoso para el análisis y la caracterización de péptidos y proteínas. El MALDI emplea un láser ultravioleta para suministrar la energía capaz de ionizar el compuesto. Previamente la muestra es mezclada íntimamente con la matriz. La matriz es un elemento muy importante y está constituida por compuestos insaturados (ácido sinapínico, ácido 2,5 dihidroxibenzoico (DHB), ácido 4-hidroxi-α-cianocinámico, etc.) capaces de absorber energía a la longitud de onda del láser. De esta forma la matriz absorbe la mayor parte de la energía suministrada que de otra forma destruiría la muestra totalmente y facilita la ionización del compuesto que se desea analizar. El ESI se había desarrollado como un procedimiento para la interfase entre la cromatografía líquida y la espectrometría de masas [40]. Así la muestra es transportada en solución (puede ser desde un cromatógrafo líquido) a través de un capilar en cuyo extremo se encuentra un alto voltaje (entre 3-4 kV). De esta forma se produce una nebulización de pequeñas gotas formadas por el solvente PROTEÓMICA 387 y la muestra y que portan un número considerable de cargas eléctricas. El solvente es eliminado con la ayuda de una corriente de gas (usualmente nitrógeno) y finalmente queda la muestra ionizada con varias cargas. Tanto el MALDI como el ESI son métodos de ionización suave, esto es, la energía suministrada a la muestra es relativamente baja, y los compuestos son ionizados pero no ocurre la fragmentación de las moléculas como en el caso de de la ionización por impacto electrónico, el método de ionización más usado para el estudio de moléculas orgánicas. En ambos métodos de ionización, MALDI y ESI, un péptido adquiere una carga positiva o negativa por adición o eliminación de protones respectivamente, dando lugar a los iones pseudomoleculares que corresponden a la masa molecular del péptido más (o menos en el caso de iones negativos) la masa de uno o varios protones. Si se adiciona un protón la carga del péptido será unitaria, y si se adicionan varios protones se obtendrán iones multicargados. En el MALDI los iones son fundamentalmente monocargados mientras que en el ESI los iones son usualmente multicargados. En principio es posible estudiar los iones positivos o negativos aunque es mucho más frecuente la espectrometría de masas de iones positivos. Al introducir una mezcla de péptidos en el espectrómetro de masas usando MALDI o ESI como método de ionización se obtiene un grupo de señales que corresponden a los iones moleculares de cada uno de los péptidos, por cuanto no se producen fragmentaciones de las moléculas. SECUENCIACIÓN D E PÉPTIDOS POR ESPECTROMETRÍA DE MASAS Al no producirse fragmentaciones durante la ionización por MALDI o ESI se obtiene solamente información sobre la masa molecular de un péptido pero no es posible obtener información de su secuencia. Para lograr este propósito se emplea un proceso llamado Disociación Inducida por Colisiones (DIC) o Disociación Activada por Colisiones (DAC). Este consiste en introducir el haz de iones de la muestra en una región que contiene un gas químicamente inerte (usualmente argón), para que por las colisiones generadas entre ambos, una parte de la energía cinética que poseen las moléculas se transforme en energía vibracional de sus enlaces y ocasione la disociación en dependencia de su fortaleza 41]. Aunque la eficiencia de la fragmentación de un péptido está muy influenciada por las características de su secuencia, se ha observado que también depende del gas de colisión que se emplee [42]. La nomenclatura aceptada por los especialistas en este campo para clasificar los iones fragmentos de un péptido es la que propusieron Roepstorff y Fohlmann [43]. Se plantea que la ruptura del esqueleto carbonado de un péptido puede originar seis tipos diferentes de fragmentaciones (an , bn , c¨n , xn , y¨n , zn ) que se clasifican 388 CAPÍTULO 20 en series del extremo N-terminal (an , bn , cn ) o series del extremo C-terminal (xn , y¨n , zn ) en dependencia de cuál de los dos extremos del péptido original se conservan en sus estructuras. El subíndice que acompaña cada tipo de fragmentación se corresponde con la cantidad de residuos aminoacídicos que posee el ión fragmento (ver Figura 20.4). Figura 20.4. Nomenclatura de las fragmentaciones que se obtienen por Disociación Activada por Colisiones en experimentos MS/MS. Los fragmentos a, b y c contienen el extremo N-terminal y los fragmentos x, y y z conservan el extremo C-terminal. Los subíndices que acompaña cada tipo de fragmentación se corresponden con la cantidad de residuos aminoacídicos en el ión fragmento. Nótese que los fragmentos b y y se obtienen por ruptura del enlace peptídico y por tanto son complementarios en la información sobre la secuencia. Son además, en general, los iones mas intensos en el espectro MS/MS. Aunque las fragmentaciones de las cadenas laterales son de gran importancia para la diferenciación de aminoácidos que poseen igual masa (aminoácidos isobáricos) y suministran más información estructural, es necesario destacar que en proteómica esta fragmentaciones no resultan de utilidad para la identificación de las proteínas pues la mayoría de los espectrómetros que se emplean actualmente realizan la disociación inducida por colisiones de los péptidos en un régimen de baja energía y las fragmentaciones de las cadenas laterales están ausentes del espectro de masas. Sin embargo, el desarrollo reciente de los PROTEÓMICA 389 espectrómetros de masas MALDI-TOF/TOF [44,45] pudiera vislumbrar una aplicación en el campo de la proteómica al observarse fragmentaciones de las cadenas laterales que suministran mayor cantidad de información estructural. Además se obtienen espectros de masas con muy buena calidad en el rango de los femtomoles. La abundancia relativa de estas series N y C-terminales en el espectro está determinada generalmente por la posición del residuo básico en la secuencia. Así por ejemplo, cuando residuos de Arginina están ubicados en el extremo N o en el extremo C del péptido, abundan en el espectro las series N o C-terminal respectivamente. Este fenómeno es conocido en la literatura inglesa como charge remote fragmentation [46] y plantea que la fragmentación ocurre a lo largo de la cadena peptídica inducida por la carga a pesar de que ésta se mantiene en un lugar fijo (alejado en muchos casos), presumiblemente en la posición en que está ubicado el residuo básico. Por este motivo es usual observar que los espectros de masas de los péptidos trípticos son abundantes en iones C-terminales (series y¨ n ). Para secuenciar un péptido, cada uno de los iones fragmentos observados en el espectro se debe clasificar de acuerdo a la nomenclatura antes mencionada, pues de esta manera las diferencias en masas de series consecutivas de un mismo tipo (b5 , b4 , b3 , b2 …) pueden ser asignadas a uno de los veinte aminoácidos más comunes y así obtener la secuencia peptídica. Por otra parte, un péptido se puede secuenciar simultáneamente a partir de sus dos extremos con un solo espectro pues la información suministrada por las series N y C-terminales son complementarias. Se obtienen secuencias parciales desde ambos extremos y al superponerlas se determina una secuencia altamente confiable (ver Figura 20.5). Figura 20.5. Esquema de un experimento MS/MS. La mezcla de péptidos proteolíticos es ionizada y se introduce en el primer analizador, donde se selecciona uno de los péptidos que pasa a la cámara de colisiones. Aquí ocurre la interacción con el gas neutro (Argón) y se producen las fragmentaciones que son medidas en el segundo analizador para obtener el espectro MS/MS y deducir la secuencia del péptido. 390 CAPÍTULO 20 SE C U E N C I A C I Ó N D E UNA M E Z C L A D E PÉPTIDOS . E SPECTROS MS/MS Lo referido en el epígrafe anterior implica que debemos tener un péptido puro, pues si tuviéramos una mezcla de péptidos se producirían fragmentos de todos ellos y sería imposible la interpretación de los espectros. Por esta razón se requiere aislar o seleccionar un péptido determinado para proceder a su secuenciación. Esto es posible mediante la espectrometría de masas en tándem o MS/MS que consiste en dos analizadores separados por la cámara de colisiones donde el gas neutro provoca las fragmentaciones (ver Figura 20.6). Figura 20.6. Espectro MS/MS del péptido VLFSSDGGVVK. Puede observarse que la mayoría de los iones presentes corresponden a los fragmentos y, algo frecuente en los espectros de péptidos trípticos que poseen un aminoácido básico en el extremo C-terminal y por tanto conservan la carga en ese residuo. En este ejemplo es posible deducir con relativa facilidad la secuencia completa del péptido, algo que no siempre ocurre. Cuando se introduce una mezcla de péptidos en la fuente de ionización, se produce la ionización de todos y al penetrar en el primer analizador es posible seleccionar solo uno de ellos, los restantes simplemente chocan con las paredes del analizador. El péptido seleccionado pasa a la cámara de colisiones donde se PROTEÓMICA 391 producen los fragmentos que son posteriormente analizados en el segundo analizador con lo que se obtiene la secuencia del péptido de forma similar a la descrita en el epígrafe anterior. Una vez concluida esta operación para un péptido, se selecciona otro péptido y se procede de forma similar. Este procedimiento es rápido y automático por lo que se pueden medir los espectros MS/MS de varios péptidos presentes en una mezcla en un tiempo relativamente breve y obtener sus secuencias. Esta posibilidad técnica también tiene otra repercusión importante en proteómica y es que las proteínas que se van a identificar no tienen que estar totalmente puras. Es posible identificar varias proteínas en una mezcla como ocurre en ocasiones en una banda de electroforesis donde puede existir más de una proteína. MODIFICACIONES POST-TRADUCCIONALES Como hemos la espectrometría de masas permite identificar una proteína, y secuenciarla lo que resulta de gran importancia aunque hay otro aspecto muy relevante de esta técnica que es su capacidad para identificar y localizar las modificaciones post-traduccionales. Se conocen más de 200 tipos de modificaciones. La espectrometría de masas es prácticamente el único método capaz de detectarlas y determinar su ubicación en la cadena de aminoácidos. De la descripción del procedimiento de secuenciación por espectrometría de masas resulta evidente que es posible detectar cualquier posible modificación por el corrimiento de masa que provoca en el aminoácido donde se encuentra localizada. Cuando al analizar un espectro MS/MS para secuenciar un péptido, el valor de masa obtenido para alguna de las fragmentaciones no se corresponde con ninguno de los valores de masas de los veinte aminoácidos más comunes, es muy probable que sea debido a la presencia de una modificación post traduccional. Con el auxilio de tablas que reportan los corrimientos de masa provocados por las diferentes modificaciones se puede identificar el aminoácido y la modificación correspondiente. En la Tabla 20.2 se muestran los corrimientos esperados para algunas de las modificaciones mas comunes. Pueden encontrarse tablas muy completas en: http://www.abrf.org/index.cfm/dm.home o http:// www.unimod.org/ Tabla 20.2. Modificaciones post traduccionales más comunes m m 392 CAPÍTULO 20 Tabla 20.2 (continuación). Es conocida la repercusión de estas modificaciones en las funciones biológicas de las proteínas, de ahí la importancia de contar con un método capaz de identificarlas. Sin embargo, aún es difícil poder cuantificar la fracción de moléculas de una proteína que se encuentra modificada en un sitio dado y establecer si esa modificación es transitoria. ESTRATEGIAS PARA LA IDENTIFICACIÓN D E LAS PROTEÍNAS Como ya fue mencionado anteriormente (Tabla 20.1), las proteínas separadas por electroforesis bidimensional son digeridas con una enzima, usualmente tripsina, con lo que se obtiene una mezcla de péptidos. Los péptidos son extraídos del gel e introducidos directamente en el espectrómetro de masas para su identificación. En la actualidad existen tres estrategias fundamentales para la identificación de proteínas basadas en la información primaria suministrada por la espectrometría de masas: La primera de las estrategias para la identificación de proteínas en las bases de datos se basa en que la digestión proteolítica de una proteína con una proteasa altamente específica, origina de manera reproducible un conjunto de péptidos que es característico para cada una de las proteínas. Por esta razón, es posible predecir mediante una digestión in silico el conjunto de péptidos que se debe generar mediante el tratamiento proteolítico específico de cada una de las proteínas almacenadas en las bases de datos de secuencias y por lo tanto se puede calcular teóricamente las masas moleculares de cada uno de los péptidos esperados. PROTEÓMICA 393 La masa molecular de cada uno de los péptidos proteolíticos se puede determinar experimentalmente mediante ESI-MS o MALDI-MS. Esta información se conoce como huella de masas de los péptidos de una proteína o peptide mass fingerprint (PMF). Por tanto, la proteína analizada puede ser identificada exitosamente cuando se produce una correspondencia entre los valores experimentales de las masas moleculares de cada uno de sus péptidos con los valores de masas teóricas esperadas para una de las proteínas existentes en las bases de datos. Con la instrumentación disponible en la actualidad la medición de las masas moleculares puede realizarse de manera rutinaria con un error inferior a los 50 ppm por lo que las identificaciones por esta metodología son muy confiables y es previsible que con la introducción masiva de espectrómetros más acuciosos la calidad de las identificaciones sea aún superior pues está directamente relacionada con la exactitud de la medición de las masas moleculares de los péptidos proteolíticos [47,48]. Hoy en día existen varios programas accesibles vía Internet que brindan el servicio de identificación de proteínas en línea utilizando la estrategia del PMF y entre los más empleados se encuentra el MASCOT, (http:// www.matrixscience.com/cgi/search_ form.pl?FORMVER=2&SEARCH=PMF) [49], el ProFound (http://129.85.19.192/profound_bin/WebProFound.exe) [50] y el MS-Fit (http://prospector.ucsf.edu/ucsfhtml4.0/msfit.htm). De todas las estrategias para la identificación de proteínas en las bases de datos de secuencia ésta fue la que inicialmente ganó más popularidad, debido a su gran sencillez por ello, numerosos grupos de trabajo la implementaron en sus laboratorios y desarrollaron los programas de cómputo apropiados para este propósito [51,52] (ver Figura 20.7). Sin embargo, cuando se digieren proteínas poco abundantes en la banda de gel, incluso empleando los protocolos optimizados, con frecuencia se obtienen bajos recobrados de los péptidos proteolíticos y es frecuente encontrar que solo aparezcan las señales de masas correspondientes a uno, dos o tres péptidos proteolíticos. En estos casos la estrategia de PMF puede brindar resultados ambiguos o identificaciones erróneas. En tales situaciones es necesario obtener información de la secuencia de los péptidos analizados. Esta limitante fue resuelta con el surgimiento de otra estrategia conocida como etiqueta de secuencia (sequence tag) para la identificación de proteínas. Ella plantea que para lograr la identificación solo es necesario extraer una pequeña secuencia parcial (3 a 4 aminoácidos) del espectro ESI-MS/MS de un péptido [53]. Este método revolucionó la identificación de las proteínas a partir de la secuencia deducida de los espectros de masas por cuanto se requería una 394 CAPÍTULO 20 interpretación exhaustiva del espectro MS/MS para obtener la secuencia aminoacídica lo más completa posible de algunos de los péptidos proteolíticos para poder identificar la proteína correspondiente. El procedimiento del sequence tag es particularmente útil en los espectros ESI-MSMS de los péptidos trípticos pues esa pequeña secuencia parcial es muy fácil de extraer pues la región de mayor masa es muy limpia en cuanto a la relación señal/ruido y es rica en los fragmentos y¨ n (el aminoácido básico se conserva en el C-terminal). Figura 20.7. Pasos principales en la identificación de proteínas mediante la huella de masas de los péptidos de una proteína (peptide mass fingerprint). 1: las proteínas se separan en un gel bidimensional. Las proteínas de interés se seccionan del gel y se digieren con tripsina. 2. Los péptidos procedentes de la digestión tríptica se analizan por espectrometría de masas, en este caso usando la técnica de ionización conocida como MALDI. 3. Se obtienen las masas moleculares de los péptidos trípticos obtenidos en la digestión. 4. Los valores de masas obtenidos experimentalmente se comparan con las digestiones teóricas existentes en las bases de datos de proteínas y que son accesibles vía Internet. Se obtiene el resultado con la identificación de la proteína y una evaluación de la confiabilidad de la identificación. Aunque el método es muy confiable y hay programas que extraen de manera automática la secuencia parcial a partir de los espectros ESI-MSMS, en algunos casos se requiere de la intervención del especialista, pues el éxito de la identificación se basa en una correcta interpretación de espectros para extraer la secuencia parcial. PROTEÓMICA 395 La última de las estrategias pretende minimizar la intervención del especialista en la identificación de las proteínas en las bases de datos de secuencias [54,55]. Esta estrategia se conoce como huella de masas del espectro MS/MS y se basa en que cada péptido que se fragmenta mediante un proceso de disociación inducida por colisiones produce un espectro de iones fragmentos (MS/MS), que es muy característico de su secuencia y que lo diferencia del resto de los péptidos almacenados en las bases de datos. El espectro MS/MS de un péptido está mayoritariamente representado por fragmentos originados por la ruptura del enlace peptídico (y¨ n o bn ). Si la secuencia de la proteína que contiene al péptido se conoce, es posible predecir las masas de los fragmentos iónicos que se originarán. Por ello, el programa basa su identificación en buscar primeramente el conjunto de todos los péptidos (dentro de las proteínas en las bases de datos) que, originados por un corte específico de la proteasa empleada, coincidan con la masa molecular del péptido que se analiza. Posteriormente, a cada uno de los péptidos que posean esa característica se le calculan las masas moleculares de los iones fragmentos posibles y se comparan con las masas moleculares de los fragmentos obtenidos experimentalmente en el espectro MS/MS. Se selecciona el péptido con mejor coincidencia y así queda identificada la proteína (ver Figura 20.8). Figura 20.8. Resumen de las Estrategias de Identificación de Proteínas. Las 3 principales estrategias son: 1. Huella de masas de la proteína. Se obtiene el espectro de masas de la mezcla de péptidos proteolíticos. Los valores de las masas obtenidos se comparan con las digestiones teóricas de las proteínas en las bases de datos para la identificación. 2. Etiqueta de secuencia. Requiere de espectros MS/MS. Se seleccionan uno o varios péptidos, se obtiene el espectro MS/MS y se determina una secuencia parcial. Es suficiente 3-4 residuos para identificar la proteína en las bases de datos. 3. Huella de masas MS/MS. Igualmente requiere del uso de MS/MS pero a diferencia del anterior no es necesaria la determinación de una secuencia parcial. Se basa en que los iones fragmentos de un péptido son característicos y por tanto basta para encontrar un péptido idéntico en las bases de datos e identificar la proteína correspondiente. 396 CAPÍTULO 20 Resulta evidente que para todos estos programas mencionados es indispensable disponer de la secuencia de las proteínas en las bases de datos para una correcta identificación. Particularmente para la identificación de proteínas que pertenezcan a un organismo de genoma desconocido solo se podrá obtener un resultado exitoso, mediante la estrategia de PMF, si la proteína de interés comparte una identidad de secuencia elevada con respecto a alguna de las proteínas reportadas en las bases de datos. Mientras menor sea la identidad de secuencia, menos confiable será la identificación realizada. Si la similitud de secuencia es muy baja o si la secuencia del gen no es conocida entonces los péptidos trípticos tienen que ser secuenciados completamente a partir de la interpretación manual o automática de los espectros MS/MS de cada péptido. La identificación se realiza mediante el alineamiento de las secuencias determinadas experimentalmente contra bases de datos de secuencias conocidas, para encontrar secuencias similares. No obstante, si la secuencia de la proteína en cuestión no es muy similar a las reportadas en las bases de datos esta estrategia puede fallar. Esto es debido a que es poco probable que la secuencia de genes de una especie sea idéntica a la otra y las sustituciones de nucleótidos pueden provocar sustituciones de aminoácidos que implican cambios en las masas de los péptidos analizados y por tanto, repercute negativamente en la identificación. Los programas de alineamiento de secuencias de proteínas y genes más empleados son el BLAST www.ncbi.nlm.nih.gov/blast y el FASTA www.ebi.ac.uk/searches/fasta.html. La identificación a través de estos programas resulta difícil, ya que ambos algoritmos se han optimizado para comparar secuencias de proteínas y nucleótidos de mayor longitud que los péptidos secuenciados por espectrometría de masas. Por otro lado, la espectrometría de masas no permite diferenciar aminoácidos isobáricos ya que presentan masas muy similares (Lys y Gln) o idénticas (Leu e Ile) y la calidad del alineamiento puede estar determinada por cuál aminoácido de los antes mencionados se introduzca en la secuencia a alinear ya que estos programas contienen una matriz diferente para cada uno. El auge alcanzado en la aplicación de la espectrometría de masas a la secuenciación de proteínas ha motivado que los programas de alineamientos hayan sido recientemente modificados para adaptarlos al alineamiento óptimo de secuencias cortas de péptidos. Particularmente, el FASTA modificado (FASTS) [56] posee aún una limitante pues las búsquedas son lentas y la puntuación final de los envíos depende no sólo del número de péptidos sino que disminuye con el número de secuencias de péptidos en cada solicitud enviada. PROTEÓMICA 397 Shevchenko et al., [57,58] propusieron el programa BLAST optimizado para análisis de péptidos secuenciados por espectrometría de masas (MS BLAST). Éste se encuentra disponible mediante un servicio web http://dove.emblheidelberg.de/Blast2. A diferencia del BLAST y el FASTA, el MS BLAST permite introducir algunas modificaciones a los péptidos secuenciados que aumentan la confiabilidad de la identificación, como por ejemplo las puntuaciones individuales para los aminoácidos isobáricos (Leu/Ile y Gln/Lys) son sustituidas por sus valores promedios y así la puntuación del péptido T-S-L-V-K-M es igual a la del péptido T-S-I-V-G-M). En marzo del 2003 surgió una nueva alternativa para la identificación eficiente de péptidos provenientes de organismos de genoma desconocido. Esta herramienta es la secuenciación mediante MultiTag [59] que constituye una versión modificada de la estrategia de identificación mediante etiqueta de secuencia (sequence tag). Ésta permite identificar proteínas de muy baja abundancia y de las que sólo se pueden secuenciar de tres a cuatro aminoácidos, cuya identificación no sería confiable por MS BLAST. APLICACIONES DE LA PROTEÓMICA Las múltiples aplicaciones de estas técnicas pueden agruparse en dos categorías principales: 1. Caracterización del proteoma de un organismo. El propósito de este estudio es la identificación del mayor número de proteínas expresadas por un organismo en una condición biológica particular. En el caso de organismos unicelulares o de células en cultivo, muchos trabajos se han propuesto la separación y la identificación de proteínas en preparaciones de proteínas totales y ya existen mapas en bases de datos para numerosos organismos. Sin embargo, para lograr un nivel superior de información se prefiere descomponer el estudio del proteoma en el estudio de subproteomas correspondientes a organelos subcelulares (Figura 20.9). Actualmente la Organización del Proteoma Humano (HUPO) tiene en curso 3 proyectos internacionales destinados a la construcción de los primeros mapas proteómicos de órganos o tejidos. Estos son: cerebro, hígado y plasma. 2. Proteómica Comparativa (Figura 20.10): consiste en evaluar los cambios en la expresión de proteínas de un organismo sometido a dos o varias condiciones biológicas diferentes, generalmente una de ellas es una condición control que se utiliza como referencia de la expresión de proteínas en condiciones “normales”. Este tipo de trabajo suministra información a nivel molecular de los cambios causados por la acción de un agente externo (por ejemplo un medicamento), por cambios en las condiciones de cultivo, las diferencias 398 CAPÍTULO 20 entre una línea celular normal y una tumoral, la evaluación de los cambios producidos por un agente infeccioso, el desarrollo de los mecanismos de resistencia a quimioterapéuticos o antimicrobianos. Este tipo de investigación es de alto valor en ciencias biomédicas. Para los trabajos de proteómica comparativa es necesario disponer de un diseño experimental cuidadosamente planificado. Aquí resulta de gran utilidad la existencia de una hipótesis previa que oriente la búsqueda hacia determinado tipo de proteínas que pueden ser seguidas por inmunodetección con anticuerpos específicos o que se suponen localizadas esencialmente en un organelo subcelular . Por ejemplo, algunos proyectos se orientan específicamente hacia la identificación de cambios en los patrones de fosforilación de proteínas. En este caso, la detección del subconjunto de proteínas fosforiladas puede facilitarse mediante el uso de anticuerpos específicos. Figura 20.9. Confección de un mapa bidimensional anotado. Como resultado de las identificaciones efectuadas por espectrometría de masas, el mapa bidimensional de proteínas se enriquece con abundante información que incluye la identificación de la naturaleza de las proteínas, el punto isoeléctrico y la masa experimental y teórica, y las propiedades reportadas anteriormente en la literatura. PROTEÓMICA 399 Figura 20.10. Proteómica comparativa. El esquema resume los pasos principales que permiten la comparación de la expresión de proteínas en dos condiciones biológicas y la consecuente identificación de los cambios. 3. Interacción de Proteínas. En los últimos años ha quedado evidenciada la importancia de identificar las interacciones entre proteínas y de proteínas con otras moléculas. En varias publicaciones se han reportado los resultados de aislamiento de complejos de proteínas y la posterior identificación de las proteínas componentes. Estos resultados contribuyen significativamente al establecimiento de mapas de interacciones y al esclarecimiento del mecanismo de determinadas funciones biológicas. Es posible predecir que las herramientas que se emplean en proteómica se irán perfeccionando e incluso aparecerán nuevos procedimientos y equipos que solucionarán las principales limitaciones actuales. Sin lugar a dudas la proteómica fortalecerá su posición actual en las investigaciones médicas, farmacéuticas, agrícolas y en otros campos y se multiplicarán sus aplicaciones. 400 CAPÍTULO 20 REFERENCIAS 1. Wasinger VC, Cordwell SJ, Cerpa-Poljak A, Yan JX, Gooley AA, Wilkins MR, Duncan MW, Harris R, Williams KL, Humphery-Smith I. Progress with gene-product mapping of Mycoplasma genitalium. Electrophoresis. 1995, 16:1090-1094. 2. Humphery-Smith I, Cordwell SJ, Blackstock WP. Proteome research: Complementarity and limitations with respect to the RNA and DNA worlds. Electrophoresis I, 1997, 18, 12171242. 3. Kettman JR, Coleclough C, Frey JR, Lefkovits I. Clonal proteomics: One gene-family of proteins. Proteomics 2002, 2, 624-631. 4. 2D Gel electrophoresis tutorial. http://www.aber.ac.uk/~mpgwww/Proteome/Tut_2D.html 5. Protocols for sample preparation and 2D-PAGE. http://www.abdn.ac.uk/~mmb023/ protocol.htm 6. Technical information on 2D-PAGE. http://expasy.hcuge.ch/ch2d/technical-info.html 7. Gorg A, Obermaier GB, Boguth G, Harder A, Scheibe B, Wildgruber R, Weiss W. The current state of two-dimensional electrophoresis with immobilized pH gradients. Electrophoresis 2000, 21, 1037-1053. 8. Westermeier R, Naven T (Editors). Proteomics in practice. Willey-VCH Verlag, Weinheim 2002. 9. Link AJ (Editor). Methods in Molecular Biology, Vol 112: 2D proteomics analysis protocols. Humana Press, New Jersey, 1999. 10. Klose J. Protein mapping by combined isolectric focusing and electrophoresis of mouse tissues. A novel approach to testing for induced point mutations in mammals. Humangenetik 1975, 26, 211-234. 11. O’Farrell, P H. High resolution two-dimensional electrophoresis of proteins. J. Biol. Chem. 1975, 250, 4007-4021. 12. Gonzalez LJ, Castellanos-Serra L, Badock V, Diaz M, Moro A, Perea S, Santos A, Paz-Lago D, Otto A, Muller EC, Kostka S, Wittman-Liebold B, Padron G. Identification of nuclear proteins of small cell lung cancer cell line H82: An improved procedure for the analysis of silver-stained proteins. Electrophoresis 2003, 24, 237-252. 13. Corthals GL. Exploitation of specific properties of trifluoroethanol for extraction and separation of membrane proteins. Presented at the Proteomics forum 2003, September 2003, Munich, Germany. 14. Castellanos-Serra L and Paz-Lago D. The inhibition of unwanted proteolysis during sample preparation. Its evaluation in challenge experiments. Electrophoresis 2002, 23, 1745, 1753. 15. Klose J, Kobalz U. Two-dimensional electrophoresis of proteins: An update protocols and implications for functional analysis of the genome. Electrophoresis 1995, 16, 1034-1059. 16. Gauss C, Kalkum M, Lowe M, Lehrach H, Klose J. Analysis of the mouse proteome. (I) Brain proteins: Separation by two-dimensional electrophoresis and identification by mass spectrometry and genetic variation. Electrophoresis 1999, 20, 575-600. PROTEÓMICA 401 17. Corthals GL, Wasinger VC, Hochstrasser DF, Sanchez JC. The dynamic range of proteins expression: A challenge for proteomic research. Electrophoresis 2000, 21, 1104-1115. 18. Anderson NL and Anderson NG. The human plasma proteome. Molecular and Cellular Proteomics 2002, 1, 845-867. 19. Pieper R, Gatlin CL, Makusky AJ, Russo PS, Schatz CR, Miller SS, Su Q, McGrath AM, Estock MA, Parmar PP, Zhao M, Huang ST, Zhou J, Wang F, Esquer-Blasco R, Anderson NL, Taylor J, Steiner S. The human serum proteomic display of nearly 3700 chromathographically separated protein spots on two-dimensional electrophoresis gel and identification of 325 distinct proteins. Proteomics 2003, 7, 1345-1364. 20. Graham JM and Rickwood D (Editors). Subcellular fractionation: A practical Approach. Oxford University Press 1997, New York. 21. Molloy MP, Herbert BR, Walsh BJ, Tyler MI, Traini M, Sanchez JC, Hochstrasser, DF, Willians KL, Gooley AA. Extraction of membrane proteins by differential solubilization for separating using two-dimensional gel electrophoresis. Electrophoresis 1998, 19, 837-844. 22. Schagger H and Von Jagow G. Tricine-Sodium Dodecyl Sulphate gel electrophoresis for the separation of proteins in the range from 1 to 100 kDa. Analytical Biochemistry 1987:166, 368-379. 23. Opiteck, G, J and Jorgenson, J, W Two-dimensional SEC/RPLC coupled to mass spectrometry for the analysis of peptides, Anal.Chem., 1997,69(13), 2283-2291 24. Raida M, Schulz-Knappe P, Heine G, Forssmann WG. Liquid chromatography and electrospray mass spectrometric mapping of peptides from human plasma filtrate, J Am Soc Mass Spectrom. 1999, 10(1), 45-54. 25. Washburn MP, Wolters D, Yates JR 3rd. Large-scale analysis of the yeast proteome by multidimensional protein identification technology, Nat Biotechnol. 2001, 19(3), 242-247. 26. Wolters DA, Washburn MP, Yates JR 3rd. An automated multidimensional protein identification technology for shotgun proteomics, Anal. Chem. 2001, 73(23), 5683-5690. 27. Davis MT, Beierle J, Bures ET, McGinley MD, Mort J, Robinson JH, Spahr CS, Yu W, Luethy R and Patterson SD. Automated LC–LC–MS–MS platform using binary ion-exchange and gradient reversed-phase chromatography for improved proteomic analyses, J.Choromatogr.B Biomed .Sci. Appl. 2001, 752(2), 281-291. 28. Pang JX, Ginanni N, Dongre AR, Hefta SA, Opitek GJ. Biomarker discovery in urine by proteomics, J.Proteome Res. 2002, 1(2), 161-169. 29. Bushey,M,M and Jorgenson,J,W. Automated instrumentation for comprehensive twodimensional high-performance liquid chromatography of proteins, Anal Chem. 1990, 62(2), 161-167. 30. Anderson, L, and Porath J. Isolation of phosphoproteins by immobilized metal (Fe3+) affinity chromatography, Anal. Biochem. 1986, 154(1), 250-254 31. Li, S and Dass, C. Iron(III)-immobilized metal ion affinity chromatography and mass spectrometry for the purification and characterization of synthetic phosphopeptides, Anal. Biochem. 1999, 270(1), 9-14 32. Ficarro SB, McCleland ML, Stukenberg PT, Burke DJ, Ross MM, Shabanowitz J, Hunt DF, White FM. Phosphoproteome analysis by mass spectrometry and its application to Saccharomyces cerevisiae, Nat. Biotechnol. 2002, 20(3), 301-305 402 CAPÍTULO 20 33. JiJ, A. Chakraborty, M. Geng, X, Zhang, A. Amini, M.Bina and F.Regnier. Strategy for qualitative and quantitative analysis in proteomics based on signature peptides, J. Chromatogr. 2000, 745(1), 197-210. 34. Gygi, S. P., Rist, B., Gerber, S. A., Turecek, F., Gelb, M. H., and Aebersold, R Quantitative analysis of complex protein mixtures using isotope-coded affinity tags., Nat. Biotechnol. 1999, 17(10), 994–999. 35. Gevaert K, Van Damme J, Goethals M, Thomas GR, Hoorelbeke B, Demol H, Martens L, Puype M, Staes A, Vandekerckhove J. Chromatographic Isolation of Methionine-containing Peptides for Gel-free Proteome Analysis: Identification Of More Than 800 Escherichia Coli Proteins. Mol .Cell Proteomics. 2002,1(11), 896-903. 36 .M. Barber, R. S. Bordoli, R. D. Sedgwick and A. N. Tyler. Fast Atom Bombardment: A New Ion Source for Mass Spectrometry, J. Chem. Soc., Chem. Commun. 1981, 325. 37. Fenn JB, Mann M, Meng CK, Wong SF, Whitehouse CM, Electrospray ionization for mass spectrometry of large biomoléculas, Science. 1989, 246(4926), 64-71. 38. Tanaka K, Waki H, Ido Y, Akita S, Yoshida Y and Yoshida T. Protein and polymer analysis of up to m/z 100,000 by laser ionization time-of-flight mass spectrometry, Rapid Commun. Mass Spectrom., 1988, 2, 151–153. 39. Karas M, Hillenkamp F. Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons, Anal Chem. 1988, 60(20):2299-301. 40. Whitehouse CM, Dreyer RN, Yamashita M, Fenn JB., Electrospray interface for liquid chromatographs and mass spectrometers. Anal Chem. 1985, 57(3), 675-9 41. Hayes, R. N.; Gross, M. L. Collision-induced dissociation, Methods Enzymol. 1990,193, 237. 42. Biemann, K. Contributions of mass spectrometry to peptide and protein structure, Biomed Environm. Mass Spectrom. 1988, 16, 99-111. 43. Roepstorff, P.; Fohlman, J. Proposal for a common nomenclature for sequence ions in mass spectra of peptides, Biomed. Mass Spectrom. 1984,11(11), 601. 44. Medzihradszky KF, Campbell JM, Baldwin MA, Falick AM, Juhasz P, Vestal ML, Burlingame AL. The characteristics of peptide collision-induced dissociation using a high-performance MALDI-TOF/TOF tandem mass spectrometer, Anal Chem., 2000, 72(3), 552-8. 45. Yergey AL, Coorssen JR, Backlund PS Jr, Blank PS, Humphrey GA, Zimmerberg J, Campbell JM, Vestal ML. De novo sequencing of peptides using MALDI/TOF-TOF., J Am Soc Mass Spectrom. 2002, 13(7):784-91. 46. Adams, J.; Gross, M. L. Energy requirement for remote charge site ion decompositions and structural information from collisional activation of alkali metal cationized fatty alcohols, J. Am. Chem. Soc. 1986, 108(22), 6915. 47. Clauser KR, Baker P, Burlingame AL. Role of accurate mass measurement (+/- 10 ppm) in protein identification strategies employing MS or MS/MS and database searching. Anal Chem. 1999, 71(14):2871-82. 48. Wool A, Smilansky Z. Precalibration of matrix-assisted laser desorption/ionization-time of flight spectra for peptide mass fingerprinting. Proteomics. 2002, 2(10):1365-73. PROTEÓMICA 403 49. Perkins, D. N., Pappin, D. J., Creasy, D. M., Cottrell, J. S. Probability-based protein identification by searching sequence databases using mass spectrometry data, Electrophoresis, 1999, 20(18), 3551-3567. 50. Zhang, W., Chait, B.T. ProFound: an expert system for protein identification using mass spectrometric peptide mapping information, Anal. Chem., 2000, 72(11), 2482-2489. 51. Mann, M.; Hojrup, P.; Roepstorff, P. Use of mass spectrometric molecular weight information to identify proteins in sequence databases, Biol. Mass Spectrom. 1993, 22(6), 338. 52. Gevaert, K.; Verschelde, J.; Puype, M.; Van Damme, J.; Goethals, M.; De Boeck, S.; Vandekerhove, J. Structural analysis and identification of gel-purified proteins, available in the femtomole range, using a novel computer program for peptide sequence assignment, by matrix-assisted laser desorption ionization-reflectron time-of-flight-mass spectrometry, Electrophoresis. 1996, 17(5), 918. 53. Mann, M and Wilm, M. Error-tolerant identification of peptides in sequence databases by peptide sequence tags. Anal Chem. 1994, 66(24), 4390-4399. 54. Ducret A, Van Oostveen I, Eng JK, Yates JR 3rd, Aebersold R. High throughput protein characterization by automated reverse-phase chromatography/electrospray tandem mass spectrometry. Protein Sci. 1998, 7(3):706-19. 55. Gatlin CL, Eng JK, Cross ST, Detter JC, Yates JR 3rd. Automated identification of amino acid sequence variations in proteins by HPLC/microspray tandem mass spectrometry. Anal Chem. 2000, 72(4):757-63. 56. Mackey AJ, Haystead TA, Pearson WR., Getting more from less: algorithms for rapid protein identification with multiple short peptide sequences. Mol Cell Proteomics. 2002, 1(2):139-47. 57. Schevchenko, A., Sunyaev, S., Loboda, A., Schevchenko, A., Bork, P., Ens W., Standing K. G. Charting the proteomes of organisms with unsequenced genomes by MALDI-quadrupole time-of-flight mass spectrometry and BLAST homology searching, Anal. Chem. 2001, 73(9), 11917-1926. 58. Liska, A. J., Schevchenko, A. Expanding the organismal scope of proteomics: cross-species protein identification by mass spectrometry and its implications. Proteomics. 2003, 3(1), 19-28. 59. Sunyaev, S., Liska, A. J., Golod, A., Schevchenko, A., Schevchenko, A. MultiTag: multiple error-tolerant sequence tag search for the sequence-similarity identification of proteins by mass spectrometry, Anal. Chem. 2003, 75(6), 1307-1315.