Iden'ficación de pép'dos por MS/MS conceptos estadís'cos Marco Trevisan-Herraz, mtrevisan@cnic.es Iakes Ezkurdia, iezkurdia@cnic.es 1 Qué vamos a ver • Funcionamiento y conceptos de motores de búsqueda • Conceptos estadís'cos – Valor p y valor e – FDR y otros conceptos (sensibilidad y especificidad) – Curva ROC 2 Obje'vo 1) asignar los pép'dos de una base de datos a un conjunto de espectros 2) dar una medida de la confiabilidad de esta información para saber hasta qué punto cada asignación es correcta o no 3 Puntuaciones de SEQUEST El XCorr m/z Espectro teórico % intensidad rela'va % intensidad rela'va Espectro observado m/z SEQUEST mide el grado de correlación 4 Puntuaciones de SEQUEST El DeltaCn x −x 1 2 x1 Puntuación ΔCn = 1 2 3 4 5 6 7 8 9 Comportamiento aleatorio 5 ¿Qué te dice la siguiente medida de SEQUEST? 010609_SILAC_alicPru_Sach.3843.3843.2.out TurboSEQUEST v.27 (rev. 12), (c) 1999-2005 Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates Licensed to ThermoFinnigan Corp. 01/06/2010, 06:07 PM, 0.2 sec on PEDROBW (M+H)+ mass = 1031.5554 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO total inten = 4691.5, lowest Sp = 352.5, # matched peptides = 29680 # amino acids = 209702, # proteins = 26885, E:\databases\quixotPlusHY \uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 display top 10/0, ion % = 0.0, CODE = 101040 (M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected # --1. Rank/Sp -------1 / 1 2. 3. 4. 2 3 4 5. 5 6. 7. 6 7 8. 9. 10. 8 9 10 Id# (M+H)+ deltCn XCorr Sp -------- --------- ------ ---------6443 1031.63031 0.0000 3.2703 1251.4 6444 sp|Q05639|EF1A2_HUMAN Elongation facto 6445 sp|Q5VTE0|EF1A3_HUMAN Putative elongat 6446 sp|P02994|EF1A_YEAST Elongation factor / 22 515 1031.59558 0.5268 1.5474 568.9 /232 2063 1031.55368 0.5560 1.4519 358.0 / 91 7421 1032.67317 0.5571 1.4484 437.9 7421 sp|Q9HB96|FANCE_HUMAN Fanconi anemia g /124 7421 1032.67317 0.5574 1.4474 411.4 7421 sp|Q9HB96|FANCE_HUMAN Fanconi anemia g / 72 18533 1031.67792 0.5574 1.4473 465.4 / 13 17300 1032.57141 0.5674 1.4147 619.2 17300 sp|P04049|RAF1_HUMAN RAF proto-oncogen /128 3174 1033.55371 0.5831 1.3635 410.4 / 5 21975 1031.55181 0.5916 1.3355 675.8 / 94 18533 1031.67792 0.5991 1.3110 433.4 Ions ----18/20 Reference Peptide --------------sp|P68104|EF1A1_HUMAN +3 K.IGGIGTVPVGR@.V 12/16 10/14 12/18 sp|Q08828|ADCY1_HUMAN R.RALRTASEK.L sp|P12644|BMP4_HUMAN R.INIYEVM*K#.P sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRR@LK.S 12/18 sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRRLK#.S 11/16 13/14 sp|P05750|RS3_YEAST sp|P04049|RAF1_HUMAN 11/14 16/18 10/16 sp|P29016|CD1B_HUMAN sp|P21580|TNAP3_HUMAN sp|P05750|RS3_YEAST K.LLNGLAIRR@.A +1 K.NIIHRDMK#.S R.RRSYQNIP R.TPGDR@TGTSK#.C K.LLNGLAIR@R.A 6 ¿Qué te dice la siguiente medida de SEQUEST? 010609_SILAC_alicPru_Sach.3843.3843.2.out TurboSEQUEST v.27 (rev. 12), (c) 1999-2005 Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates Licensed to ThermoFinnigan Corp. 01/06/2010, 06:07 PM, 0.2 sec on PEDROBW (M+H)+ mass = 1031.5554 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO total inten = 4691.5, lowest Sp = 352.5, # matched peptides = 29680 # amino acids = 209702, # proteins = 26885, E:\databases\quixotPlusHY \uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 display top 10/0, ion % = 0.0, CODE = 101040 (M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected # --1. Rank/Sp -------1 / 1 2. 3. 4. 2 3 4 5. 5 6. 7. 6 7 8. 9. 10. 8 9 10 Id# (M+H)+ deltCn XCorr Sp -------- --------- ------ ---------6443 1031.63031 0.0000 3.2703 1251.4 6444 sp|Q05639|EF1A2_HUMAN Elongation facto 6445 sp|Q5VTE0|EF1A3_HUMAN Putative elongat 6446 sp|P02994|EF1A_YEAST Elongation factor / 22 515 1031.59558 0.5268 1.5474 568.9 /232 2063 1031.55368 0.5560 1.4519 358.0 / 91 7421 1032.67317 0.5571 1.4484 437.9 7421 sp|Q9HB96|FANCE_HUMAN Fanconi anemia g /124 7421 1032.67317 0.5574 1.4474 411.4 7421 sp|Q9HB96|FANCE_HUMAN Fanconi anemia g / 72 18533 1031.67792 0.5574 1.4473 465.4 / 13 17300 1032.57141 0.5674 1.4147 619.2 17300 sp|P04049|RAF1_HUMAN RAF proto-oncogen /128 3174 1033.55371 0.5831 1.3635 410.4 / 5 21975 1031.55181 0.5916 1.3355 675.8 / 94 18533 1031.67792 0.5991 1.3110 433.4 Ions ----18/20 Reference Peptide --------------sp|P68104|EF1A1_HUMAN +3 K.IGGIGTVPVGR@.V 12/16 10/14 12/18 sp|Q08828|ADCY1_HUMAN R.RALRTASEK.L sp|P12644|BMP4_HUMAN R.INIYEVM*K#.P sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRR@LK.S 12/18 sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRRLK#.S 11/16 13/14 sp|P05750|RS3_YEAST sp|P04049|RAF1_HUMAN 11/14 16/18 10/16 sp|P29016|CD1B_HUMAN sp|P21580|TNAP3_HUMAN sp|P05750|RS3_YEAST K.LLNGLAIRR@.A +1 K.NIIHRDMK#.S R.RRSYQNIP R.TPGDR@TGTSK#.C K.LLNGLAIR@R.A 7 ¿Y la siguiente? 010609_SILAC_alicPru_Sach.3912.3912.2.out TurboSEQUEST v.27 (rev. 12), (c) 1999-2005 Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates Licensed to ThermoFinnigan Corp. 01/06/2010, 06:07 PM, 0.3 sec on PEDROBW (M+H)+ mass = 1199.4766 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO total inten = 5777.8, lowest Sp = 346.4, # matched peptides = 31534 # amino acids = 207992, # proteins = 26885, E:\databases\quixotPlusHY \uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 display top 10/0, ion % = 0.0, CODE = 101040 (M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected # --1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Rank/Sp Id# (M+H)+ deltCn XCorr Sp -------- -------- --------- ------ ---------1 /202 22517 1199.65292 0.0000 1.3928 358.1 22517 sp|Q96AY4|TTC28_HUMAN Tetratricopeptid 2 / 40 6536 1198.64734 0.0294 1.3518 470.3 3 /135 12917 1198.64661 0.0413 1.3354 389.6 4 / 10 25687 1197.72009 0.0737 1.2902 550.8 5 / 79 7789 1199.61842 0.0741 1.2897 414.9 6 / 58 9666 1199.70323 0.0957 1.2596 439.5 7 /181 5876 1199.73584 0.1027 1.2498 367.0 8 /221 23009 1197.71005 0.1042 1.2478 352.5 23009 sp|Q8NB66|UN13C_HUMAN Protein unc-13 h 9 /215 6942 1198.59230 0.1363 1.2030 353.8 10 / 44 6357 1198.74060 0.1436 1.1928 459.4 Ions ----12/18 Reference Peptide --------------sp|Q96AY4|TTC28_HUMAN +1 K.DLGNK#R@EEAR.A 15/24 13/18 15/20 14/20 13/20 13/22 12/18 sp|Q8N6I1|EID2_HUMAN sp|Q96EY8|MMAB_HUMAN sp|Q08748|YO296_YEAST sp|P32785|FMT_YEAST sp|Q04432|HSP31_YEAST sp|Q9UPY3|DICER_HUMAN sp|Q8NB66|UN13C_HUMAN +1 R.MAAARAAPAAAAR.G R.LSDYLFTLAR.Y K.SLVANIVKEPK.E R.LDNGSKPGMFK#.Y K.NLATVEDVAK#K#.Y R.ILGLTASILNGK.C K.SLDR@TVR@NPK.T 11/16 14/20 sp|P57679|EVC_HUMAN sp|P39995|EAF5_YEAST R.IMEDHEER@K#.L K.LGINDILTIVK.N 8 ¿Y la siguiente? 010609_SILAC_alicPru_Sach.3912.3912.2.out TurboSEQUEST v.27 (rev. 12), (c) 1999-2005 Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates Licensed to ThermoFinnigan Corp. 01/06/2010, 06:07 PM, 0.3 sec on PEDROBW (M+H)+ mass = 1199.4766 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO total inten = 5777.8, lowest Sp = 346.4, # matched peptides = 31534 # amino acids = 207992, # proteins = 26885, E:\databases\quixotPlusHY \uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 display top 10/0, ion % = 0.0, CODE = 101040 (M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected # --1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Rank/Sp Id# (M+H)+ deltCn XCorr Sp -------- -------- --------- ------ ---------1 /202 22517 1199.65292 0.0000 1.3928 358.1 22517 sp|Q96AY4|TTC28_HUMAN Tetratricopeptid 2 / 40 6536 1198.64734 0.0294 1.3518 470.3 3 /135 12917 1198.64661 0.0413 1.3354 389.6 4 / 10 25687 1197.72009 0.0737 1.2902 550.8 5 / 79 7789 1199.61842 0.0741 1.2897 414.9 6 / 58 9666 1199.70323 0.0957 1.2596 439.5 7 /181 5876 1199.73584 0.1027 1.2498 367.0 8 /221 23009 1197.71005 0.1042 1.2478 352.5 23009 sp|Q8NB66|UN13C_HUMAN Protein unc-13 h 9 /215 6942 1198.59230 0.1363 1.2030 353.8 10 / 44 6357 1198.74060 0.1436 1.1928 459.4 Ions ----12/18 Reference Peptide --------------sp|Q96AY4|TTC28_HUMAN +1 K.DLGNK#R@EEAR.A 15/24 13/18 15/20 14/20 13/20 13/22 12/18 sp|Q8N6I1|EID2_HUMAN sp|Q96EY8|MMAB_HUMAN sp|Q08748|YO296_YEAST sp|P32785|FMT_YEAST sp|Q04432|HSP31_YEAST sp|Q9UPY3|DICER_HUMAN sp|Q8NB66|UN13C_HUMAN +1 R.MAAARAAPAAAAR.G R.LSDYLFTLAR.Y K.SLVANIVKEPK.E R.LDNGSKPGMFK#.Y K.NLATVEDVAK#K#.Y R.ILGLTASILNGK.C K.SLDR@TVR@NPK.T 11/16 14/20 sp|P57679|EVC_HUMAN sp|P39995|EAF5_YEAST R.IMEDHEER@K#.L K.LGINDILTIVK.N 9 valor p (o p-­‐value) “Probabilidad de que un espectro obtenga una puntuación al menos tan extrema como la obtenida, al asignarle la secuencia de un pép'do al azar” 10 ¿Qué es el valor p (o p-­‐value)? • ¿valor p de sacar cruz tres veces 'rando una moneda tres veces? à (1/2)3 = 0.125 • ¿valor p de sacar cruz tres veces 'rando una moneda cinco veces? à ... = 0.5 11 N= ¿Cómo se calcula el valor p? • Se toman todas las puntuaciones de una búsqueda realizada contra una base de datos inver'da. • Se ordena por puntuación de mejor a peor (en el caso del Xcorr, de mayor a menor) • Se calcula el rango normalizado posición puntuación 1 6.71 2 6.01 3 5.64 4 5.31 5 3.2 6 3.18 7 3.13 … … 10,000 1.35 distribución de frecuencias acumuladas posición/N 0.0001 0.0002 0.0003 0.0004 Distribución de puntuaciones 0.0005 0.0006 0.0007 … 1 12 ¿Qué es el valor e (o e-­‐value)? • En un experimento con 1000 datos uno de ellos 'ene un valor p = 0.001 ¿es significa'vo? 13 ¿Qué es el valor e? • En un experimento con 1000 datos uno de ellos 'ene un valor p = 0.001 En este caso, el valor e sería = 1 NO ES SIGNIFICATIVO (es lo que se esperaría) 14 valor e (e-­‐value o expecta5on value) “número esperado de asignaciones que se espera obtener con un valor p dado o menor, cuando se busca entre N candidatos” e = N·∙p Muy u'lizado (por ejemplo en programas como BLAST o Mascot) 15 Valor e y valor p No olvidar: El valor p es una probabilidad El valor e es un valor esperado ¿qué valores pueden corresponder a un valor p? ¿qué rango de valores 'ene el valor e? En una iden'ficación buena, • ¿cómo será el valor p? • ¿cómo será el valor e? 16 FDR y tabla de con'ngencia situación hipoté'ca deseable umbral asignaciones verdaderas asignaciones falsas VP VN 17 FDR y tabla de con'ngencia situación hipoté'ca REAL umbral asignaciones verdaderas asignaciones falsas VN VP FN FP 18 Densidad de probabilidad FDR y tabla de con'ngencia Asignaciones falsas umbral Asignaciones verdaderas P verdaderos F falsos 19 FDR y tabla de con'ngencia FDR (false discovery rate) umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 20 Otros conceptos importantes Sensibilidad umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 21 Otros conceptos importantes Especificidad umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 22 curva ROC Me quedo con todos los “buenos” sin que se me cuele ningún malo Me quedo con el máximo de “buenos” minimizando los malos que se me cuelan Me quedo con todos los “buenos”, pero también con todos los “malos” No se me cuela ninguno “malo”, pero tampoco consigo ninguno “bueno” (las asignaciones verdaderas que he considerado verdaderas) TPR o sensibilidad 1 0 1 0 1 – especificidad (las asignaciones negativas que he considerado positivas erróneamente) ROC = Receiver operating characteristic 23 Peor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 ? 1 0 1 – especificidad Peor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 área = 1/2 1 0 1 – especificidad Mejor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 ? 1 0 1 – especificidad Mejor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 área = 1 1 0 1 – especificidad Situación realista asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 1 0 1 – especificidad Densidad de probabilidad 0 rendimiento óp'mo Asignaciones falsas umbral Asignaciones verdaderas P verdaderos F falsos