Search Algorithms

Anuncio
Iden'ficación de pép'dos por MS/MS conceptos estadís'cos Marco Trevisan-Herraz, mtrevisan@cnic.es
Iakes Ezkurdia, iezkurdia@cnic.es
1 Qué vamos a ver •  Funcionamiento y conceptos de motores de búsqueda •  Conceptos estadís'cos –  Valor p y valor e –  FDR y otros conceptos (sensibilidad y especificidad) –  Curva ROC 2 Obje'vo 1) asignar los pép'dos de una base de datos a un conjunto de espectros 2) dar una medida de la confiabilidad de esta información para saber hasta qué punto cada asignación es correcta o no 3 Puntuaciones de SEQUEST El XCorr m/z
Espectro teórico % intensidad rela'va % intensidad rela'va Espectro observado m/z
SEQUEST mide el grado de correlación 4 Puntuaciones de SEQUEST El DeltaCn x −x
1
2
x1
Puntuación
ΔCn =
1 2 3 4 5 6 7 8 9
Comportamiento
aleatorio
5 ¿Qué te dice la siguiente medida de SEQUEST? 010609_SILAC_alicPru_Sach.3843.3843.2.out
TurboSEQUEST v.27 (rev. 12), (c) 1999-2005
Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates
Licensed to ThermoFinnigan Corp.
01/06/2010, 06:07 PM, 0.2 sec on PEDROBW
(M+H)+ mass = 1031.5554 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO
total inten = 4691.5, lowest Sp = 352.5, # matched peptides = 29680
# amino acids = 209702, # proteins = 26885, E:\databases\quixotPlusHY
\uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr
ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0
display top 10/0, ion % = 0.0, CODE = 101040
(M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected
#
--1.
Rank/Sp
-------1 / 1
2.
3.
4.
2
3
4
5.
5
6.
7.
6
7
8.
9.
10.
8
9
10
Id#
(M+H)+
deltCn
XCorr
Sp
-------- --------- ------ ---------6443 1031.63031 0.0000 3.2703 1251.4
6444
sp|Q05639|EF1A2_HUMAN Elongation facto
6445
sp|Q5VTE0|EF1A3_HUMAN Putative elongat
6446
sp|P02994|EF1A_YEAST Elongation factor
/ 22
515 1031.59558 0.5268 1.5474
568.9
/232
2063 1031.55368 0.5560 1.4519
358.0
/ 91
7421 1032.67317 0.5571 1.4484
437.9
7421
sp|Q9HB96|FANCE_HUMAN Fanconi anemia g
/124
7421 1032.67317 0.5574 1.4474
411.4
7421
sp|Q9HB96|FANCE_HUMAN Fanconi anemia g
/ 72
18533 1031.67792 0.5574 1.4473
465.4
/ 13
17300 1032.57141 0.5674 1.4147
619.2
17300
sp|P04049|RAF1_HUMAN RAF proto-oncogen
/128
3174 1033.55371 0.5831 1.3635
410.4
/ 5
21975 1031.55181 0.5916 1.3355
675.8
/ 94
18533 1031.67792 0.5991 1.3110
433.4
Ions
----18/20
Reference
Peptide
--------------sp|P68104|EF1A1_HUMAN +3 K.IGGIGTVPVGR@.V
12/16
10/14
12/18
sp|Q08828|ADCY1_HUMAN
R.RALRTASEK.L
sp|P12644|BMP4_HUMAN
R.INIYEVM*K#.P
sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRR@LK.S
12/18
sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRRLK#.S
11/16
13/14
sp|P05750|RS3_YEAST
sp|P04049|RAF1_HUMAN
11/14
16/18
10/16
sp|P29016|CD1B_HUMAN
sp|P21580|TNAP3_HUMAN
sp|P05750|RS3_YEAST
K.LLNGLAIRR@.A
+1 K.NIIHRDMK#.S
R.RRSYQNIP
R.TPGDR@TGTSK#.C
K.LLNGLAIR@R.A
6 ¿Qué te dice la siguiente medida de SEQUEST? 010609_SILAC_alicPru_Sach.3843.3843.2.out
TurboSEQUEST v.27 (rev. 12), (c) 1999-2005
Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates
Licensed to ThermoFinnigan Corp.
01/06/2010, 06:07 PM, 0.2 sec on PEDROBW
(M+H)+ mass = 1031.5554 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO
total inten = 4691.5, lowest Sp = 352.5, # matched peptides = 29680
# amino acids = 209702, # proteins = 26885, E:\databases\quixotPlusHY
\uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr
ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0
display top 10/0, ion % = 0.0, CODE = 101040
(M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected
#
--1.
Rank/Sp
-------1 / 1
2.
3.
4.
2
3
4
5.
5
6.
7.
6
7
8.
9.
10.
8
9
10
Id#
(M+H)+
deltCn
XCorr
Sp
-------- --------- ------ ---------6443 1031.63031 0.0000 3.2703 1251.4
6444
sp|Q05639|EF1A2_HUMAN Elongation facto
6445
sp|Q5VTE0|EF1A3_HUMAN Putative elongat
6446
sp|P02994|EF1A_YEAST Elongation factor
/ 22
515 1031.59558 0.5268 1.5474
568.9
/232
2063 1031.55368 0.5560 1.4519
358.0
/ 91
7421 1032.67317 0.5571 1.4484
437.9
7421
sp|Q9HB96|FANCE_HUMAN Fanconi anemia g
/124
7421 1032.67317 0.5574 1.4474
411.4
7421
sp|Q9HB96|FANCE_HUMAN Fanconi anemia g
/ 72
18533 1031.67792 0.5574 1.4473
465.4
/ 13
17300 1032.57141 0.5674 1.4147
619.2
17300
sp|P04049|RAF1_HUMAN RAF proto-oncogen
/128
3174 1033.55371 0.5831 1.3635
410.4
/ 5
21975 1031.55181 0.5916 1.3355
675.8
/ 94
18533 1031.67792 0.5991 1.3110
433.4
Ions
----18/20
Reference
Peptide
--------------sp|P68104|EF1A1_HUMAN +3 K.IGGIGTVPVGR@.V
12/16
10/14
12/18
sp|Q08828|ADCY1_HUMAN
R.RALRTASEK.L
sp|P12644|BMP4_HUMAN
R.INIYEVM*K#.P
sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRR@LK.S
12/18
sp|Q9HB96|FANCE_HUMAN +1 R.GLGLGGRRLK#.S
11/16
13/14
sp|P05750|RS3_YEAST
sp|P04049|RAF1_HUMAN
11/14
16/18
10/16
sp|P29016|CD1B_HUMAN
sp|P21580|TNAP3_HUMAN
sp|P05750|RS3_YEAST
K.LLNGLAIRR@.A
+1 K.NIIHRDMK#.S
R.RRSYQNIP
R.TPGDR@TGTSK#.C
K.LLNGLAIR@R.A
7 ¿Y la siguiente? 010609_SILAC_alicPru_Sach.3912.3912.2.out
TurboSEQUEST v.27 (rev. 12), (c) 1999-2005
Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates
Licensed to ThermoFinnigan Corp.
01/06/2010, 06:07 PM, 0.3 sec on PEDROBW
(M+H)+ mass = 1199.4766 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO
total inten = 5777.8, lowest Sp = 346.4, # matched peptides = 31534
# amino acids = 207992, # proteins = 26885, E:\databases\quixotPlusHY
\uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr
ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0
display top 10/0, ion % = 0.0, CODE = 101040
(M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected
#
--1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Rank/Sp
Id#
(M+H)+
deltCn
XCorr
Sp
-------- -------- --------- ------ ---------1 /202
22517 1199.65292 0.0000 1.3928
358.1
22517
sp|Q96AY4|TTC28_HUMAN Tetratricopeptid
2 / 40
6536 1198.64734 0.0294 1.3518
470.3
3 /135
12917 1198.64661 0.0413 1.3354
389.6
4 / 10
25687 1197.72009 0.0737 1.2902
550.8
5 / 79
7789 1199.61842 0.0741 1.2897
414.9
6 / 58
9666 1199.70323 0.0957 1.2596
439.5
7 /181
5876 1199.73584 0.1027 1.2498
367.0
8 /221
23009 1197.71005 0.1042 1.2478
352.5
23009
sp|Q8NB66|UN13C_HUMAN Protein unc-13 h
9 /215
6942 1198.59230 0.1363 1.2030
353.8
10 / 44
6357 1198.74060 0.1436 1.1928
459.4
Ions
----12/18
Reference
Peptide
--------------sp|Q96AY4|TTC28_HUMAN +1 K.DLGNK#R@EEAR.A
15/24
13/18
15/20
14/20
13/20
13/22
12/18
sp|Q8N6I1|EID2_HUMAN
sp|Q96EY8|MMAB_HUMAN
sp|Q08748|YO296_YEAST
sp|P32785|FMT_YEAST
sp|Q04432|HSP31_YEAST
sp|Q9UPY3|DICER_HUMAN
sp|Q8NB66|UN13C_HUMAN +1
R.MAAARAAPAAAAR.G
R.LSDYLFTLAR.Y
K.SLVANIVKEPK.E
R.LDNGSKPGMFK#.Y
K.NLATVEDVAK#K#.Y
R.ILGLTASILNGK.C
K.SLDR@TVR@NPK.T
11/16
14/20
sp|P57679|EVC_HUMAN
sp|P39995|EAF5_YEAST
R.IMEDHEER@K#.L
K.LGINDILTIVK.N
8 ¿Y la siguiente? 010609_SILAC_alicPru_Sach.3912.3912.2.out
TurboSEQUEST v.27 (rev. 12), (c) 1999-2005
Molecular Biotechnology, Univ. of Washington, J.Eng/S.Morgan/J.Yates
Licensed to ThermoFinnigan Corp.
01/06/2010, 06:07 PM, 0.3 sec on PEDROBW
(M+H)+ mass = 1199.4766 ~ 2.0000 (+2), fragment tol = 1.2000, MONO/MONO
total inten = 5777.8, lowest Sp = 346.4, # matched peptides = 31534
# amino acids = 207992, # proteins = 26885, E:\databases\quixotPlusHY
\uniprot_sprot_may2009_R57_3_HumYeast_tryp_FC57_VM16K6R6.fasta.hdr
ion series nABY ABCDVWXYZ: 0 1 1 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0
display top 10/0, ion % = 0.0, CODE = 101040
(M* +15.99490) (K# +6.02010) (R@ +6.02010) C=160.03018 Enzyme:None selected
#
--1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Rank/Sp
Id#
(M+H)+
deltCn
XCorr
Sp
-------- -------- --------- ------ ---------1 /202
22517 1199.65292 0.0000 1.3928
358.1
22517
sp|Q96AY4|TTC28_HUMAN Tetratricopeptid
2 / 40
6536 1198.64734 0.0294 1.3518
470.3
3 /135
12917 1198.64661 0.0413 1.3354
389.6
4 / 10
25687 1197.72009 0.0737 1.2902
550.8
5 / 79
7789 1199.61842 0.0741 1.2897
414.9
6 / 58
9666 1199.70323 0.0957 1.2596
439.5
7 /181
5876 1199.73584 0.1027 1.2498
367.0
8 /221
23009 1197.71005 0.1042 1.2478
352.5
23009
sp|Q8NB66|UN13C_HUMAN Protein unc-13 h
9 /215
6942 1198.59230 0.1363 1.2030
353.8
10 / 44
6357 1198.74060 0.1436 1.1928
459.4
Ions
----12/18
Reference
Peptide
--------------sp|Q96AY4|TTC28_HUMAN +1 K.DLGNK#R@EEAR.A
15/24
13/18
15/20
14/20
13/20
13/22
12/18
sp|Q8N6I1|EID2_HUMAN
sp|Q96EY8|MMAB_HUMAN
sp|Q08748|YO296_YEAST
sp|P32785|FMT_YEAST
sp|Q04432|HSP31_YEAST
sp|Q9UPY3|DICER_HUMAN
sp|Q8NB66|UN13C_HUMAN +1
R.MAAARAAPAAAAR.G
R.LSDYLFTLAR.Y
K.SLVANIVKEPK.E
R.LDNGSKPGMFK#.Y
K.NLATVEDVAK#K#.Y
R.ILGLTASILNGK.C
K.SLDR@TVR@NPK.T
11/16
14/20
sp|P57679|EVC_HUMAN
sp|P39995|EAF5_YEAST
R.IMEDHEER@K#.L
K.LGINDILTIVK.N
9 valor p (o p-­‐value) “Probabilidad de que un espectro obtenga una puntuación al menos tan extrema como la obtenida, al asignarle la secuencia de un pép'do al azar” 10 ¿Qué es el valor p (o p-­‐value)? •  ¿valor p de sacar cruz tres veces 'rando una moneda tres veces? à (1/2)3 = 0.125 •  ¿valor p de sacar cruz tres veces 'rando una moneda cinco veces? à ... = 0.5 11 N= ¿Cómo se calcula el valor p? • Se toman todas las puntuaciones de una búsqueda realizada contra una base de datos inver'da. • Se ordena por puntuación de mejor a peor (en el caso del Xcorr, de mayor a menor) • Se calcula el rango normalizado posición
puntuación
1
6.71
2
6.01
3
5.64
4
5.31
5
3.2
6
3.18
7
3.13
…
…
10,000
1.35
distribución de frecuencias acumuladas posición/N
0.0001
0.0002
0.0003
0.0004
Distribución de puntuaciones 0.0005
0.0006
0.0007
…
1
12 ¿Qué es el valor e (o e-­‐value)? •  En un experimento con 1000 datos uno de ellos 'ene un valor p = 0.001 ¿es significa'vo? 13 ¿Qué es el valor e? •  En un experimento con 1000 datos uno de ellos 'ene un valor p = 0.001 En este caso, el valor e sería = 1 NO ES SIGNIFICATIVO (es lo que se esperaría) 14 valor e (e-­‐value o expecta5on value) “número esperado de asignaciones que se espera obtener con un valor p dado o menor, cuando se busca entre N candidatos” e = N·∙p Muy u'lizado (por ejemplo en programas como BLAST o Mascot) 15 Valor e y valor p No olvidar: El valor p es una probabilidad El valor e es un valor esperado ¿qué valores pueden corresponder a un valor p? ¿qué rango de valores 'ene el valor e? En una iden'ficación buena, • ¿cómo será el valor p? • ¿cómo será el valor e? 16 FDR y tabla de con'ngencia situación hipoté'ca deseable umbral asignaciones verdaderas asignaciones falsas VP VN 17 FDR y tabla de con'ngencia situación hipoté'ca REAL umbral asignaciones verdaderas asignaciones falsas VN VP FN FP 18 Densidad de probabilidad
FDR y tabla de con'ngencia Asignaciones falsas
umbral
Asignaciones verdaderas
P
verdaderos
F
falsos
19 FDR y tabla de con'ngencia FDR (false discovery rate) umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 20 Otros conceptos importantes Sensibilidad umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 21 Otros conceptos importantes Especificidad umbral asignaciones verdaderas FN asignaciones falsas VN VP FP 22 curva ROC
Me quedo con todos
los “buenos” sin que se
me cuele ningún malo
Me quedo con el
máximo de “buenos”
minimizando los malos
que se me cuelan
Me quedo con todos los
“buenos”, pero también
con todos los “malos”
No se me cuela ninguno
“malo”, pero tampoco
consigo ninguno “bueno”
(las asignaciones verdaderas que he
considerado verdaderas)
TPR o sensibilidad
1
0
1
0
1 – especificidad
(las asignaciones negativas que he considerado positivas erróneamente)
ROC = Receiver operating characteristic
23 Peor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 ? 1 0 1 – especificidad Peor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 área = 1/2 1 0 1 – especificidad Mejor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 ? 1 0 1 – especificidad Mejor situación asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 0 área = 1 1 0 1 – especificidad Situación realista asignaciones verdaderas asignaciones falsas TPR o sensibilidad 1 1 0 1 – especificidad Densidad de probabilidad
0 rendimiento óp'mo Asignaciones
falsas
umbral
Asignaciones verdaderas
P
verdaderos
F
falsos
Descargar