Chapter 11

Proteomics and Protein Identification by Mass Spectrometry

16 小节

085

Introduction

PDF page 335-336；印刷页码 315-316

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Introduction

Introduction

什么是蛋白质组？

蛋白质组（proteome）是指一个生物实体（细胞、组织、器官或生物体）在其生命周期中某一时间点所表达的全部蛋白质集合。这个词由 protein（蛋白质）和 genome（基因组）组合而成，最早由 Marc Wilkins 于 1995 年提出，用于指代利用质谱（mass spectrometry, MS）对蛋白质进行功能研究（Wilkins et al. 1996）。蛋白质组学（proteomics）是对蛋白质进行大规模研究的学科，采用系统性、shotgun 或靶向的高通量方法，以阐明蛋白质的身份、定位、丰度、结构、功能或表达谱。

蛋白质组学与其他“组学”（omics）研究相互补充，例如基因组学（genomics）和转录组学（transcriptomics）。它能够进一步明确由基因编码的蛋白质身份，并确定这些蛋白质在细胞中的基本作用。一个生物体的基因组相对静态，而蛋白质组则高度动态：不同细胞之间的蛋白质组不同，并且会响应不同环境刺激而发生变化。这些变化体现在所表达蛋白质异构体的丰度、翻译后修饰（post-translational modifications, PTMs）、稳定性以及物理相互作用关系等方面。正是这种动态且不断变化的特征，使蛋白质组显著比基因组更加复杂。

例如，人类基因组包含约 20 000 个蛋白质编码开放阅读框（open reading frames）（Gaudet et al. 2017）。另一方面，突变、选择性转录和选择性剪接异构体以及其他机制，可以使单个基因产生多种不同的信使 RNA（messenger RNA, mRNA）转录本（Figure 11.1）。此外，翻译过程中或翻译后发生的位点特异性化学修饰或酶促修饰，还可以产生多种不同的蛋白质形式（proteoforms，即不同形式的蛋白质）。这些蛋白质形式会随时间、亚细胞定位以及生理或疾病状态而变化。这表明，人类蛋白质组实际上可能由数百万种化学上彼此不同的实体组成。

为什么研究蛋白质组？

过去十年中，DNA 测序技术取得了重大进展，使得 8000 多种生物的完整基因组得以确定，并且大约另有 37 000 个物种具备部分草图基因组（draft genomes）（Mukherjee et al. 2017）。由此产生的一个直接结果是，推定蛋白质序列或“虚拟蛋白质组”（virtual proteomes）的数量呈指数级增长。这进一步带来了一个关键需求：确定这些蛋白质在物理、结构和功能层面所发挥的作用。

鉴于蛋白质组具有复杂而动态的性质，研究表达蛋白质时，不仅需要识别该蛋白质来源于哪个对应基因，还需要确定在特定生物学情境下，相应蛋白质以何种形式存在，并与哪些分子或结构发生关联。这通常称为蛋白质表征（protein characterization）。

20 世纪 90 年代，生物质谱（biological MS）作为一种灵活、灵敏且快速的方法出现，能够在复杂生物混合物中识别并定量蛋白质。这一技术进展推动了蛋白质组学时代的到来。

086

Mass Spectrometry

PDF page 337-341；印刷页码 317-321

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Mass Spectrometry

Mass Spectrometry

质谱（mass spectrometry，MS）是一种用途广泛的分析技术，能够精确测量样品中化合物的分子质量。分子质量（molecular mass，或 molecular weight，分子量）是所有元素、化学物质和分子的基本性质。如果能够非常准确地测定分子质量，就可以确定某一化合物的分子式，甚至推断其结构。MS 的基本原理是：从样本中的有机或无机化合物产生带电的气相离子，随后根据这些离子的质荷比（mass-to-charge ratio，m/z）和强度（intensity，即丰度 abundance）对其进行分离和检测。质谱仪通常由样品离子化装置（sample ionizer）、质量分析器（mass analyzer）和检测器（detector）组成。离子化装置从待测样本中形成气态离子，例如可通过激光轰击样本实现。离子的质量由质量分析器测定；质量分析器根据离子的 m/z 比值对其进行分离，并将不同离子导向检测器，在检测器中以电子方式感应这些离子；相应信号随后被转换为数字输出，即质谱图（mass spectrum）。

Ionization

自 20 世纪 50 年代以来，MS 一直是挥发性有机化合物分析的标准工具；而其在蛋白质组学领域的应用，则随着 20 世纪 80 年代 ESI（Fenn et al. 1989）和 MALDI（Karas and Hillenkamp 1988）等软电离（soft ionization）技术的发展而迅速兴起。在 ESI 中，液体样品通过针状毛细管喷入离子源。在样品流出口与质量分析器入口之间施加高电压（可采用正离子模式或负离子模式）。液体持续吸收电荷，变得不稳定，并以微小的高电荷液滴形式释放出来。喷雾中的溶剂蒸发会产生带电的分析物离子；这一过程可通过让喷雾通过干燥气流（例如氮气）来促进。

相反，MALDI 在真空中使用紫外激光束轰击位于靶板上的化学基质中包埋的样品分子，使其解吸并离子化。基质通常由高度共轭的有机酸构成，例如常用的 2,5-dihdroxybenzoic acid（DHB）。基质以热的形式吸收能量后升华成气态云，从而引发解吸，同时使分析物保持完整。气态云中分子之间的碰撞使能量从基质转移至分析物。随后，受激基质与分析物之间发生质子转移，引起去溶剂化（de-solvation），形成质子化或去质子化离子。上述温和而有效的 ESI 和 MALDI 方法，使蛋白质或肽分子在离子化过程中能够保持相对完整，显著提高了可检测质量范围的动态上限，从 <1000 Da 提高到 >500 000 Da。因此，MS 对多肽的检测效率大幅提升，也使生物样品中蛋白质组分的常规分析成为可能。

Mass Analyzers

由上述任一离子化方法产生的离子，都可以通过质量分析器进行分选和测量。常规蛋白质分析中使用的质量分析器有多种类型。它们在以下方面各不相同：分离或碎裂离子的基本方式；测定离子质量的准确度（mass precision，质量精度）；区分具有相同名义质量或单位质量组分的能力（resolution，分辨率）；以及质量分析器可测量的 m/z 比值范围（dynamic mass range capability，动态质量范围能力）。四极杆（quadrupole）、飞行时间（time of flight，TOF）、傅里叶变换离子回旋共振（Fourier transform ion cyclotron resonance，FT-ICR）、离子阱（ion trap）和 Orbitrap 都代表了质量分析器的主要类别，尽管每一类内部还存在许多变体。

四极杆质量分析器是一种低分辨率分析器，由四根带电杆以网格方式排列组成，并利用交变的四极电场快速分离并选择（传输）目标离子（Figure 11.2）。通过控制施加电压，可以定性选择具有特定 m/z 比值的离子，并将其转移至检测器。

Figure 11.2 Quadrupole mass analyzer. 四极杆质量分析器示意图。四极杆质量分析器由四根平行圆柱杆组成，每一对相对的杆彼此电连接，并在两对杆之间施加带有直流偏置的射频电压。离子沿四极杆之间的通道运动；在给定电压偏置下，只有在振荡电场中具有稳定轨迹的特定 m/z 比值分子（resonant ions，共振离子）能够到达检测器，从而实现对样品离子的过滤。轨迹不稳定的离子（non-resonant ions，非共振离子）会撞击杆体并丢失。

在 TOF 质量分析器中，离子由已知强度的电场加速。由于离子的初始速度取决于其 m/z 比值，它们会在不同时间到达检测器，其中质量较轻和/或带电荷较多的离子先到达。因此，可以根据离子到达分析器的“飞行时间”（TOF）对其进行区分（Figure 11.3）。

离子阱分析器利用磁场和电场的组合，在隔离环境中捕获离子。离子可通过 Penning trap（FT-ICR）、Paul ion trap（quadrupole ion trap）、Kingdon trap 以及 Orbitrap 捕获；其中 Orbitrap 是对 Kingdon trap 的一种显著改进实现。上述不同质量分析器的多种组合目前已被广泛使用。

Figure 11.3 Time of flight (TOF) mass analyzer. 飞行时间（TOF）质量分析器示意图。在 TOF 质量分析器中，质荷比由离子到达检测器所需的时间确定。离子通过施加已知电压的电场而被加速，并通过飞行时间管。每个离子的速度取决于其质荷比，因此 m/z 较低的离子会先于 m/z 较高的离子到达检测器。

三重四极杆质量分析器（triple quadrupole mass analyzer）是四极杆分析器的一种变体，它使用三个四极杆的线性串联结构（本质上相当于两个质谱仪通过中央四极杆连接在一起），以提高灵敏度和分辨率。中央四极杆可用于碎裂离子，从而实现一种非常有用的技术，称为串联质谱（tandem MS），通常称为 MS/MS 或 MS2。在该技术中，通过第一分析器后检测到的选定目标离子，会在第二单元中发生碎裂，然后在第三单元中被检测（Box 11.1）。因此，在某些配置下，质谱仪可以碎裂选定的离子种类，以推断其相应的分子结构（例如多肽序列），或获得更深层次的结构信息（例如蛋白质 PTM 或折叠状态）。

Box 11.1 Tandem Mass Spectrometry（Figure 11.4）

• 串联质谱（tandem mass spectrometry，MS）是一种包含多轮分析的 MS 技术。通常，在离子源中形成的离子会在第一轮质量分析（MS1）中按照其 m/z 比值分离。随后，离子根据其 m/z 比值（precursor ions，前体离子）和相对强度被依次选择，并通过分子活化增加其内能，使其发生碎裂。所得产物离子（product ions）再在第二阶段质量分析（MS2）中被分离和检测。碎裂来源于第一轮分析中形成的分子离子的解离，是串联 MS 的关键组成部分。用于碎裂离子的活化方法可以是碰撞型、基于电子的，或涉及光活化。常见的离子活化/碎裂方法包括 collision-induced dissociation（CID；Jennings 1968）、electron capture dissociation（ECD；Zubarev et al. 1998）、electron transfer dissociation（ETD；Syka et al. 2004）、higher energy collisional activation dissociation（HCD；Olsen et al. 2007）和 infrared multi-photon dissociation（IRMPD；Little et al. 1994）。

• 碰撞碎裂（collisional fragmentation）。CID 又称 collisional-activated dissociation（CAD），是一种常用的气相离子碎裂技术。CID 涉及目标离子与非反应性气体原子（通常为氦、氮或氩）之间的高能碰撞。在碰撞过程中，分子离子的动能被转化为内能；内能积累会导致键断裂，使前体离子解离为较小片段，随后由 MS2 检测。HCD 是 Orbitrap 特有的一种 CID 技术，其碎裂发生在离子阱外部。大多数碰撞方法具有较高效率，因此几乎在所有 MS2 蛋白质组学研究中都是首选方法。

• 光活化碎裂（photo-activated fragmentation）。IRMPD 是一种利用红外激光束增加被捕获离子内能的方法。激光束中的光子被被捕获离子吸收，产生振动激发态，进而通过键解离释放能量，这一过程与 CID 非常相似。通过碰撞碎裂或光活化碎裂通常产生的离子，是由较弱酰胺键解离形成的 b 离子和 y 离子。这些技术在肽、脂质和小分子分析方面相当高效，但可能去除 PTM。

• 基于电子的碎裂（electron-based fragmentation）。在 ECD 中，目标肽离子受到低能电子（约 0.2 eV）照射，捕获一个电子后形成不稳定的电荷降低物种，该物种随后解离，产生可提供肽序列信息的碎片离子。ETD 与 ECD 类似，但其解离由带相反电荷的离子之间的电子转移诱导。无论是 ECD 还是 ETD，碎裂都发生于 N–Cα 键断裂，从而产生互补的 c 离子和 z 离子。ECD 和 ETD 现已广泛用于全长蛋白质研究，即所谓“自上而下”（top-down）测序，以及带有不稳定 PTM（如磷酸化）的肽段研究。

（续）

Box 11.1（Continued）

使用振动激发的 MS/MS 方法（例如用于肽碎裂的 CID）的一个缺点是，它们可能导致肽主链或侧链中某些较弱键的偏向性断裂。这些较弱键包括 PTM，例如磷酸侧基可能成为优先断裂位点，导致 PTM 位点丢失，并产生复杂度降低、难以在序列层面解释的谱图。这又会导致漏鉴定、错误鉴定或错误的位点归属。相比之下，ETD 是一种更温和的碎裂方法，它利用低能电子转移，并通过一种更全面的非遍历（non-ergodic）过程保留 PTM 的修饰位点，因此成为 PTM 碎裂分析的优选方法。

与四极杆或三重四极杆分析器相比，TOF 质量分析器在分析多肽离子及其片段时提供更高的质量分辨率；而 FT-ICR 和 Orbitrap 质量分析器在所有分析器中提供最高的质量分辨率，但动态范围较为有限。

Figure 11.4 (a) Tandem mass spectrometry (MS). 串联质谱（MS）。用于串联 MS 肽测序的三重四极杆质谱仪示意图。(b) 液相色谱-串联质谱分析的第一阶段以 MS1 前体离子扫描（quadrupole 1）进行。在第二阶段，仪器以 MS2 模式运行，其中选定的前体离子（定义为 m/z）被传递至碰撞室（quadrupole 2）进行碎裂（例如通过与惰性气体相互作用）。所得肽离子片段随后在 quadrupole 3 中根据其表观 m/z 比值被分辨。

Ion Detectors

经过质量分析器后，分离出的（肽）离子撞击检测器（或离子收集系统），随后根据其 m/z 比值和相对强度（与丰度相关）进行鉴定。检测器能够放大信号，其中一些检测器灵敏度足够高，甚至可能检测到单个分子。质谱仪可使用多种类型的检测器。最常规使用的是电子倍增器（electron multiplier），其工作原理是检测带电离子撞击涂层检测器表面时产生的二次电子发射。在串联质谱仪中，离子收集系统还能够计算每一特定质量处所得离子片段的相对丰度。质谱仪连接到基于计算机的软件平台，以数字格式记录这些质谱图。随后的数据分析通过将 m/z 比值和相对丰度与已知分子数值数据库进行比较，从而鉴定相应的分子物种。

目前使用的质谱仪由上述离子化方法、质量分析器和离子检测器的任意组合构成，并且都将输出记录为一组连续直方图，表示离子化分子撞击离子检测器的信号，这被称为质谱图（mass spectrum）（Box 11.2）。

Box 11.2 The Mass Spectrum（Figure 11.5）

质谱图表示为二维条形图：Y 轴为信号强度，X 轴为 m/z 比值，其中包含许多信号强度峰，对应于被检测离子的 m/z 比值和强度。这里，m 表示离子的质量，z 表示离子携带的电荷。被移除电子的数量即电荷数（对正离子而言）；+1、+2、+3 分别表示带有一个、两个和三个电荷的离子。对于电荷为 1 的离子，m/z 比值就直接表示离子的质量。峰的位置，或通常所称的特定信号，对应于由肽产生的离子的各种 m/z 比值，并可作为生物样本中肽和蛋白质的富含信息的分子指纹。

Tandem Mass Spectrometry for Peptide Identification

与液相色谱结合时，串联 MS（LC-MS/MS）涉及在质量分析器中进行多轮连续的离子选择和碎裂（Box 11.1）。通过不同离子活化方法引发离子碎裂，可为所研究分子的分子结构（例如肽序列）提供关键信息，是串联 MS 的必要组成部分。这些离子活化方法通常应用于不同质量分析阶段之间，可以单独使用，也可以联合使用；它们会产生丰富的碎片模式，从而提供关于分子组成的精确信息。MS2 数据生成的速度和特异性决定了 LC-MS/MS 分析复杂生物样品的效率，例如多肽混合物的测序深度。

每一条记录到的 MS2 谱图，都是某一特定肽段在其通常具有特异性的主链酰胺键和/或侧链键断裂后所产生的、通常独特的碎裂模式的结果。与 MS 中的一贯原则相同，肽片段只有在携带电荷时才能被离子检测器检测到。如果电荷保留在片段的 N 端，该离子会根据断裂发生的位置被归类为 “a”、“b” 或 “c” 离子。如果电荷保留在片段的 C 端，则归类为 “x”、“y” 或 “z” 离子（Figure 11.6），并以下标表示片段中的位置或残基数。MS2 的特异性和低化学噪声使肽检测具有较高的选择性和灵敏度，从而能够对复杂样品进行定性和定量分析。

087

Tandem Mass Spectrometry for Peptide Identification

PDF page 341-342；印刷页码 321-322

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Tandem Mass Spectrometry for Peptide Identification

肽段鉴定中的串联质谱

离子检测器

通过分析器后，分离出的（肽段）离子会撞击检测器（或离子收集系统），随后根据其 m/z 比值和相对强度进行识别；相对强度与丰度相关。检测器能够进行信号放大，其中一些检测器灵敏度足够高，理论上可以检测到单个分子。质谱仪可配备多种类型的检测器。最常用的检测器是电子倍增器（electron multiplier），其工作原理是检测带电离子撞击涂层检测器表面时产生的二次电子发射。

在串联质谱仪中，离子收集系统还能够计算每一特定质量处所产生离子碎片的相对丰度。质谱仪与基于计算机的软件平台相连，这些平台以数字格式记录质谱图。随后通过数据分析，将检测到的 m/z 比值和相对丰度与已知分子数据库中的数值进行比较，从而鉴定相应的分子种类。

目前使用的质谱仪由上述离子化方法、质量分析器和离子检测器的任意组合构成。它们均将输出记录为一组连续的直方图，用来表示离子化分子撞击离子检测器的信号；这种输出称为质谱图（mass spectrum）（Box 11.2）。

Box 11.2 质谱图（Figure 11.5）

质谱图通常表示为二维柱状图：纵轴为信号强度，横轴为 m/z 比值，其中包含许多信号强度峰，这些峰对应于被检测离子的 m/z 比值和强度。这里，m 表示离子的质量，z 表示离子所携带的电荷。被移除的电子数称为电荷数（对于正离子而言）；+1、+2、+3 分别表示带有一个、两个和三个电荷的离子。对于电荷数为 1 的离子，m/z 比值就直接代表该离子的质量。

一个峰的位置，或者通常所称的明确的信号，对应于由肽段产生的各种离子的 m/z 比值，并作为一种信息丰富的分子指纹，用于表征生物样本中存在的肽段和蛋白质。

肽段鉴定中的串联质谱

与液相色谱结合使用时，串联质谱（tandem MS, LC-MS/MS）是在质量分析器中进行多轮连续的离子选择和碎裂（Box 11.1）。通过各种离子活化方法使离子碎裂，可以为所研究分子的分子结构提供关键信息，例如肽段序列；这一过程是串联质谱的必要组成部分。这些离子活化方法通常应用于不同质量分析阶段之间，可以单独使用，也可以组合使用，并产生丰富的碎片模式，从而为分子的组成提供精确信息。MS2 数据生成的速度和特异性决定了 LC-MS/MS 分析复杂生物样品的效率，例如多肽混合物的测序深度。

每一张记录下来的 MS2 谱图，都是某一特定肽段在其通常具有独特性的主链酰胺键和/或侧链键断裂后产生的碎裂模式的结果。与质谱中的一般情况相同，肽段碎片只有在携带电荷时才能被离子检测器检测到。如果电荷保留在碎片的 N 端，该离子会根据断裂发生的位置被归类为 “a”、“b” 或 “c” 离子。如果电荷保留在碎片的 C 端，则被归类为 “x”、“y” 或 “z” 离子（Figure 11.6），并以下标表示碎片中的位置或残基数。

MS2 的特异性和低化学噪声使其具有很高的肽段检测选择性和灵敏度，因此能够对复杂蛋白质混合物进行定性和定量分析。与高效液相色谱（high-performance liquid chromatography, HPLC）或超高压液相色谱（ultra-high-pressure liquid chromatography, UHPLC）肽段分离技术结合后，现代 MS2 工作流程可以在单次实验中以“shotgun”方式测序数千种不同的多肽。

Figure 11.5 碎裂串联质谱（MS/MS，或 MS2）谱图

质谱图是一个简单的二维图，展示实验测定得到的离子质荷比与强度之间的关系。在本例中，它表示由肽段碎裂产生的产物离子的分布或模式。图中突出显示的基峰（base peak，即最强峰）位于 448.99 m/z，对应于丰度最高的离子；通常将其相对丰度设定为 100%。其他峰则表示具有特定质量的碎片离子。纵轴显示相对丰度或强度，其中所显示的数值代表离子检测系统记录到的离子数量；也就是说，离子丰度越高，峰越高。M+ 是母体分子离子（parent molecular ion），即未碎裂的肽段离子失去一个电子后的形式。

MS2 中连续的质量分析阶段可以通过两种方式实现：空间串联（tandem-in-space）或时间串联（tandem-in-time）。空间串联是指一种 MS2 仪器配置，其中两个独立的质量分析器按顺序耦合在一起：首先在第一个质量分析器中通过离子选择完成 m/z 分离，随后在中间区域（例如碰撞室或离子阱）中发生解离；之后，离子被传输到第二个分析器中进行产物离子的质量分析。

第二种方式是时间串联，即使用单一质量分析器，在同一个装置中按时间顺序依次完成离子选择、活化和产物离子分析的所有步骤。空间串联仪器的例子包括四极杆（quadrupole）与 TOF 质量分析器的组合；而离子阱质量分析器则可以进行时间串联分析。原则上，这两类仪器都可以扩展为多级 MS，以提供更详细的结构信息；这通常称为 MSn，其中 n 表示碎片分析的阶段数。

088

Sample Preparation

PDF page 342-345；印刷页码 322-325

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Sample Preparation

Sample Preparation（样品制备）

细胞、组织或生物流体（如血浆）中蛋白质浓度具有高度复杂性、多样性和极宽的动态范围，这使得蛋白质的全面鉴定和定量具有挑战性，尤其是低丰度蛋白和膜相关组分。为了获得更好的离子化效率和鉴定率，通常使用具有序列特异性的酶（如 trypsin，胰蛋白酶）通过酶切消化将多肽切割为较小的肽段。Trypsin 具有极高的切割特异性，可通过水解 lysine（K）或 arginine（R）残基羧基端一侧的肽键来切割蛋白质，但当其后接 proline（P）时例外；这一过程通常产生长度为 6–20 个或更多氨基酸的肽段，非常适合通过 LC-MS/MS 进行检测和测序。蛋白水解切割可显著提高检测灵敏度，从而改善蛋白质组覆盖度。由于 trypsin 在多种条件下具有较高的蛋白水解活性和稳定性，它已成为基于 MS 的蛋白质组学中首选的蛋白酶；不过，其他酶也可提供互补的序列覆盖。

![Figure 11.6 多肽骨架切割产生不同的产物离子类型。]

Figure 11.6 多肽骨架切割产生不同的产物离子类型。

（a）示意图显示了多肽骨架发生碎裂的典型位点，并采用标准 Roepstorff–Fohlmann–Biemann 命名法进行标注（Roepstorff and Fohlman 1984）。肽段碎裂是键活化和断裂的结果——例如，由于与惰性气体碰撞（CID）而产生 b 离子和 y 离子，或由于电子转移（ETD）而产生 c 离子和 z 离子。离子从氨基端开始标记为 a1、b1 和 c1，其中下标表示该离子所包含的氨基酸侧链数量。

（b）当电荷保留在氨基端片段上时，会产生 a、b 或 c 片段离子；而当电荷保留在羧基端片段上时，会产生 x、y 和 z 片段离子。

在复杂肽段混合物能够通过 MS 分析之前，通常需要先通过生化分离进行处理和简化，例如使用反相 LC，或采用亲和捕获富集目标肽段。PTMs（post-translational modifications，翻译后修饰）尤其受到关注，因为它们是调节蛋白质合成后活性或相互作用的重要且常见的调控机制。这些调控可以通过酶介导添加一个或多个共价功能性化学基团（如 phosphorylation，磷酸化），也可以通过活细胞内的蛋白水解切割实现（Box 11.3）。基于 MS 的 PTM 检测在生物学上具有很高的信息价值，因为 PTM 几乎影响正常细胞生物学和稳态的所有方面，从蛋白质功能到物理结合事件（如 protein–protein interactions，蛋白质–蛋白质相互作用）均包括在内。然而，由于 PTM 通常是瞬时的且低于化学计量水平（sub-stoichiometric，即在任一时刻并非给定蛋白质的所有分子都发生该修饰），因此检测起来可能较为困难。为了提高可检测性，研究者开发了针对特定修饰的生化富集技术，如亲和捕获，用于在消化前或消化后分离经 PTM 修饰的蛋白质，以帮助检测和表征修饰肽段。例如，对 serine 和 threonine 磷酸化进行选择性亲和捕获和分析，通常可通过 immobilized metal ion affinity chromatography（IMAC，固定化金属离子亲和色谱）实现，例如使用 titanium dioxide（TiO2）beads。不同的色谱分离方法可以单独使用，也可以组合使用，其目的都是生成更简化的分子（肽段）混合物，使其能够以更高效率注入并离子化进入质谱仪。除促进 PTM 检测外，样品制备过程中通过预分级和靶向富集实现的样品简化，也在从日益多样化的生物样品中获得较高蛋白质序列覆盖度和总体鉴定率方面发挥重要作用。

Box 11.3 Post-Translational Modification（Figure 11.7）

蛋白质翻译后修饰（protein post-translational modifications, PTMs）是细胞响应环境刺激的主要机制之一。它们在控制细胞过程方面发挥关键作用，包括调控细胞分化、降解、基因表达以及蛋白质–蛋白质相互作用的信号转导通路。PTMs，如 phosphorylation（磷酸化）、glycosylation（糖基化）、ubiquitination（泛素化）、nitrosylation（亚硝基化）、methylation（甲基化）、acetylation（乙酰化）、sumoylation（SUMO 化）和 proteolytic processing（蛋白水解加工），通常会影响正常细胞生物学和稳态的几乎所有方面。由于 PTMs 往往具有动态性、低于化学计量水平（不完全）和瞬时性（可逆），它们使蛋白质组的功能和结构多样性呈指数级增加。鉴定这些修饰并理解其作用，对于研究细胞生物学、疾病发病机制以及开发新治疗方法至关重要。

Phosphorylation 是最常见且研究最深入的 PTM；目前已有超过 58,000 个具有实验证据支持的修饰位点，因此“phosphoproteomics”（磷酸化蛋白质组学）成为功能蛋白质组学的一个重要分支。Phosphorylation 是一种关键的可逆修饰，通过在蛋白质的 serine、threonine 或 tyrosine 残基（在原核生物中也包括 histidine）上添加 phosphate group（磷酸基团）而发生，并在维持细胞内众多细胞过程和信号通路的完整性方面发挥关键作用。例如，与质膜受体相关的 protein kinases（蛋白激酶）是一类酶，能够催化关键胞内信号蛋白 tyrosine 残基的磷酸化，而这些蛋白在信号转导过程中具有重要作用。破坏 tyrosine kinases 功能的基因组异常可导致细胞转化和癌症，tyrosine kinase protein ABL 即为一例。导致形成 BCR–ABL1 fusion protein 的 ABL 突变，会驱动 chronic myelogenous leukemia（CML，慢性粒细胞白血病）的发病机制；CML 是一种可治愈的骨髓癌症，可被抑制性药物有效靶向治疗。

089

Bioinformatics Analysis for MS-based Proteomics

PDF page 345-348；印刷页码 325-328

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Bioinformatics Analysis for MS-based Proteomics

Bioinformatics Analysis for MS-based Proteomics

Figure 11.7 翻译

Figure 11.7 翻译后图中文字

Target protein：靶蛋白
mRNA：mRNA
Ribosome：核糖体
Protein：蛋白质
NH3：NH3

Nitrosylation：亚硝基化

将 NO 共价连接到蛋白质的半胱氨酸残基上。

Phosphorylation：磷酸化

在蛋白质的丝氨酸、苏氨酸或酪氨酸残基上添加一个磷酸基团。

Acetylation：乙酰化

在蛋白质的 N 端或赖氨酸残基处添加一个乙酰基。

Methylation：甲基化

添加一个甲基，通常发生在赖氨酸或精氨酸残基处。

ADP-ribosylation：ADP-核糖基化

向蛋白质添加一个或多个 ADP-核糖基团。

Glycosylation：糖基化

将糖连接到氨基酸侧链中的 N 或 O 上。

Prenylation：异戊二烯化

向 C 端半胱氨酸残基添加一个疏水分子。

Proteolysis：蛋白水解

蛋白质在蛋白酶作用下于其肽键处发生切割。

Neddylation：NEDD8 化

通过 C 端甘氨酸与赖氨酸残基之间的异肽键，将 NEDD8 添加到蛋白质上。

Ubiquitylation：泛素化

在蛋白质的赖氨酸、半胱氨酸、丝氨酸、苏氨酸残基处，或在 N 端氨基处添加 ubiquitin。

Sumoylation：SUMO 化

将小蛋白 SUMO（small ubiquitin-like modifier，小泛素样修饰物）添加到靶蛋白上。

Figure 11.7 翻译后修饰（post-translational modifications, PTMs）发生在蛋白质中不同的氨基酸残基上。虽然目前 UniProt 数据库中列出了超过 50 种 PTM，本图列出的是其中一些研究较为充分的 PTM。

基于 MS 的蛋白质组学的生物信息学分析

MS 实验产生的数据量非常大，几乎每一张谱图都包含数以万计的数据点。由于测量误差、缺失值以及实验不同阶段引入的伪影，这些数据本身具有较高噪声。在利用谱图识别真实信号（例如肽段碎片）之前，需要通过多变量统计方法对数据进行清理或预处理；这一过程可以降低谱图噪声和复杂度（维度），在肽段或蛋白质鉴定之前生成规模小得多、并且在统计上可处理的一组明确峰。多数商业 MS 仪器都配备软件，可基于各种预设参数和算法执行数据预处理，以便进行多种信号处理操作，包括基线校正、平滑、归一化和峰提取，从而产生更容易解释的 MS 谱图（Figure 11.8a）。数据平滑使用 Savitzky-Golay filtering、mean 或 median filtering、Gaussian filtering 等信号处理技术，去除谱图中由仪器噪声导致的低信号波动。基线校正涉及 Top Hat filter、Loess derivative filters 或 linear splines 等方法（Bauer et al. 2011），可去除估计的化学噪声；这类噪声可能来自整个仪器工作流程中存在的痕量污染物。平滑和基线校正是分别应用于每一张谱图的，而归一化则通过将所有谱图转换到相同的强度范围来校正系统性仪器变异，使同一实验中记录的谱图更具可比性。最后一个关键步骤是定义峰，即峰提取（peak picking）。该步骤利用若干成熟方法之一，根据 signal-to-noise ratio（SNR，信噪比）、centroid、Gaussian fit，或 center-of-width at half-maximum height 等指标，确定每个峰的精确质量、峰顶和强度。所得峰列表随后用于下游统计分析和生物学解释。

Figure 11.8 翻译

Figure 11.8 图中术语

Data smoothing：数据平滑
Baseline reduction：基线降低
Peak picking：峰提取
baseline：基线
m/z：m/z
Relative intensity (%)：相对强度（%）
Monoisotopic m/z：单同位素 m/z
Average m/z：平均 m/z
Monoisotopic m/z = 14838.008：单同位素 m/z = 14838.008
Average m/z = 17847.4411：平均 m/z = 17847.4411

Figure 11.8 质谱图的数据预处理工作流程。质谱图预处理工作流程中的不同步骤。（a）预处理步骤包括数据平滑、基线校正和峰提取。在将质谱图转换为适合进一步统计分析的峰列表时，每一步都有多种算法可用；这些峰列表随后用于肽段和蛋白质鉴定过程。（b）一个单同位素质量为 584.3124 的肽段碎片在不同电荷状态（+1、+2、+3）下可能产生的质谱图示意。（c）Gallus gallus 蛋白 lysozyme 的同位素包络图，显示其单同位素质量和平均质量。

Figure 11.8（续）

已有若干高级处理技术被开发出来，用于定义相关肽峰簇。这些峰簇可能来自多种电荷状态的存在、稳定同位素的天然丰度，以及 PTM 引起的质量偏移。由于质谱仪测量的是 m/z 比，而不是严格意义上的质量，因此具有相同质量但带有不同电荷状态的离子（例如 +1、+2、+3，分别来自一个、两个或三个质子离子的存在）会以不同的 m/z 比被检测到。例如，与带单电荷（+1）的肽离子相比，带 +2 电荷的肽离子（双质子化）所检测到的 m/z 比大约减半；而带 +3 电荷的第三种离子（三质子化）则只表现为三分之一的 m/z 值，依此类推（Figure 11.8b）。MALDI 电离通常产生低电荷状态（+1）的离子，而 ESI 过程则常常产生具有多种电荷状态的前体离子。为了实现准确检测，理想情况下应将每一张 m/z 谱图转换为一种与电荷状态无关的质量表示：即把 MS 检测到的某一肽段的所有多电荷形式重新计算为相应的单电荷形式，并将其归为一组，以计算总强度和峰宽。将多电荷状态简化为单一质量测量值的过程称为电荷状态归约（charge state reduction）或去卷积（deconvolution）。这些过程需要使用软件工具，并利用现代质谱仪的高分辨率；现代质谱仪能够分辨单个肽段的不同稳定同位素峰。例如，含有一个 13C（重同位素）元素的肽段，其测量质量会比相应的 12C（大量存在的天然碳）对应物重 1 Da。由于多数生物分子天然具有这类同位素变异（这里约 1% 的碳为 13C），通常每个分子都会观察到多个同位素峰，从而形成一个离子包络，并在 m/z 比上表现出特征性的质量偏移（Figure 11.8c）。

质谱仪系统产生的数据有以下两种形式。

Average mass（平均质量）。这是该分子所有已观察到同位素形式的加权平均质量，通常由无法分辨同位素的低分辨率仪器报告。

Monoisotopic mass（单同位素质量）。这是根据高分辨率谱图计算得到的，等于每种元素最丰度同位素的精确质量之和；其计算过程称为 “de-isotoping”，即去除最终峰列表中不需要的同位素。

单同位素质量被认为更准确，因为平均质量会受到天然同位素丰度变化的影响，因而无法同样精确地确定。同位素峰和单同位素质量的检测也有助于电荷去卷积过程。例如，一个带 +2 电荷的分子，其稳定同位素峰在谱图上的间隔约为 0.5（1/2）Da；带 +3 电荷时，间隔约为 0.33 Da，依此类推。

质量偏移还可能由化学加合物（例如钠）引起，这些加合物可在体外与肽段结合；也可能由化学修饰（例如生物学 PTM）或体外实验诱导的改变造成。例如，在样品制备过程中，甲硫氨酸残基常常会发生氧化，每添加一个氧原子，质量增加 16 Da。因此，加合物和 PTM 的检测依赖于确定胰蛋白酶肽段质量的改变，以及特定氨基酸残基侧链修饰后产生的产物碎片。为了准确鉴定修饰位点，必须同时在前体肽离子以及携带该修饰残基的一部分 N 端和 C 端碎片离子中检测到特征性的质量偏移。如果高分辨率仪器获得的 MS2 数据质量良好，则可以可靠地鉴定并定位单个肽段中的一个或多个候选修饰残基。

090

Proteomics Strategies

PDF page 348-354；印刷页码 328-334

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics Strategies

Proteomics Strategies

蛋白质组学策略

用于蛋白质分析的两种主要蛋白质组学策略是“bottom-up”（自下而上）和“top-down”（自上而下）方法。对蛋白质经蛋白水解消化后获得的肽段进行分析，通常称为 bottom-up proteomics 或 shotgun proteomics（鸟枪法蛋白质组学），并构成了迄今为止大多数蛋白质组学研究的基础。与 bottom-up 方法相对，top-down proteomics（TDP，自上而下蛋白质组学）是一种将 MS 用于探索完整蛋白质“proteoforms”（蛋白质形式）的概念。Bottom-up 策略可采用 targeted（靶向）或 global（全局）方法。在 targeted proteomics（靶向蛋白质组学）中，只用 MS 专门分析一小组预先选定的蛋白质；而在 global proteomics（全局蛋白质组学）中，则试图以最小偏倚分析给定样品中存在的所有蛋白质。

大多数标准的基于 bottom-up MS 的蛋白质组学研究包含三个不同阶段（Figure 11.9）。

使用多种生物化学方法从一个或多个生物来源中提取和纯化蛋白质，随后将分离出的蛋白质经蛋白水解消化为肽段，并对所得混合物进一步进行液相色谱分级。

对所得肽段进行定性和/或定量质谱分析。

基于序列数据库搜索，对记录到的谱图数据集进行计算分析，以确定肽段氨基酸序列；其目标是鉴定并定量蛋白质，随后进行统计分析，以确保赋值结果具有可信度。

蛋白质组学研究的科学目标可能不同，可以是定性研究，也可以是定量研究。定性研究侧重于系统鉴定样品中的蛋白质，并表征其 PTMs（post-translational modifications，翻译后修饰）；而 quantitative proteomics（定量蛋白质组学）旨在测量绝对或相对蛋白质水平，例如样品之间蛋白质丰度的差异（如病例与对照；Box 11.4）。定量蛋白质组学是一种强有力的策略，可用于 shotgun 分析和 targeted 分析，通过定量相应的分子离子，理解不同条件下（如病理生理背景中）细胞、组织或生物体内全局蛋白质表达动态以及 PTM 模式的变化。该方法已在 systems biology（系统生物学）、biomarker discovery（生物标志物发现）和 biomedical research（生物医学研究）中形成了富有成效的应用领域。

Box 11.4 Quantitative Proteomics（Figure 11.10）

• Label-free quantification（无标记定量）。 这是一种相对定量技术，用于比较两次或多次 liquid chromatography tandem mass spectrometry（LC-MS/MS，液相色谱-串联质谱）运行之间的蛋白质或肽段水平。在这里，其假设是：在理想条件下，在不同实验条件下测得的相同肽段，可以直接使用记录到的 MS1 强度或谱图计数进行比较。无标记技术的优点是，它不需要进行标记所需的额外实验步骤，并且任意数量的实验都可以较容易地进行比较。其缺点来自 MS/MS 固有的欠采样问题：复杂混合物中存在的并非所有肽段都能在样品之间被一致检测到，即使是重复运行也如此，这会导致丰度估计产生方差，从而削弱差异水平统计度量的效力。

• Labeling strategies（标记策略）。 蛋白质组学样品可以通过体内 metabolic labeling（代谢标记）进行同位素标记，也可以通过对提取出的蛋白质或肽段进行体外化学标记来实现。由于同一（多）肽的轻同位素形式和重同位素形式在化学性质上相同，它们通常会在 LC 分级过程中共同洗脱，因此可以同时被检测到；但在 MS 分析中，由于其质量不同，又可以被区分。随后，可比较两个或多个实验组中测得的重标记肽段与轻标记肽段峰强度比值，以确定一个样品相对于另一个或多个样品的丰度变化。如果测量以精确方式产生，则可可靠地推断具有统计学意义的变化。可在样品制备过程中，采用体内和体外方法，在蛋白质或肽段水平引入多种同位素标记或标签。下面讨论不同的标记策略。

Figure 11.9 Shotgun proteomics workflow.

Figure 11.9 Shotgun proteomics workflow. 示意图显示了典型“bottom-up” liquid chromatography tandem mass spectrometry（LC-MS/MS）流程中涉及的不同步骤。蛋白质样品通常使用 trypsin（胰蛋白酶）进行酶促消化，生成肽段；随后对这些肽段进行色谱分离，以在注入（electrospray，电喷雾）串联质谱仪进行碎裂之前简化样品。电离后，气相 precursor ions（前体离子）在第一轮扫描中产生 MS1 谱图。这些 parent（precursor）ions（母离子/前体离子）随后 either individually（data-dependent acquisition，数据依赖采集）或 concomitantly（data-independent acquisition，数据非依赖采集）发生碎裂，产生 MS2 谱图。获得的 MS2 谱图随后通过多种搜索算法进行肽段鉴定（数据库或谱图库搜索）和蛋白质推断（综合评分）。

Figure 11.10

Figure 11.10 A schematic diagram comparing the label-free approach with the different labeling strategies. 比较 label-free 方法与不同 labeling strategies 的示意图。由红色矩形表示的同位素标记在定量蛋白质组学工作流程的不同阶段被引入样品中，随后样品被混合并接受质谱仪分析。

– Metabolic labeling（代谢标记）。 体内稳定同位素标记是通过在含有特定氨基酸或营养物的条件下培养所研究的细胞或生物体来完成的，这些氨基酸或营养物含有一个或多个重同位素。较常用的代谢标记技术之一是 stable isotopic labeling by amino acids in a cell culture（SILAC；Ong et al. 2002），即细胞培养中的氨基酸稳定同位素标记。在 SILAC 中，培养基中存在的重同位素在生长过程中被引入哺乳动物细胞，从而在 MS 分析中使消化后的肽段质量发生可预测的偏移，该偏移与标记掺入效率成比例。经 MS 分析的差异标记样品中的肽段通常被检测为成对峰，其中观察到的质量差异反映了所用标记氨基酸的数量和性质，从而允许快速比较肽段和蛋白质比值。在 SILAC 实验中，重标记 lysine（赖氨酸）和 arginine（精氨酸）用于对待比较的两个（或三个）样品进行双重（或三重）标记。其他同位素标记技术主要使用体外方法；如下所述，这些方法通常通过化学或酶促处理，对纯化的或经蛋白水解消化的测试样品和参照蛋白质样品进行共价修饰来实现。

– Chemical labeling（化学标记）。 Isotope-coded affinity tagging（ICAT；Gygi et al. 1999，同位素编码亲和标签）是一种开创性的化学标记技术，其中蛋白质样品在 cysteine（半胱氨酸）残基处与同位素重试剂或轻试剂偶联。ICAT 试剂由三个组成部分构成：一个针对 cysteine 的反应基团，用于标记氨基酸侧链；一个八重氘代（d8；使肽段分子质量增加 8 Da）或轻型（d0）连接区域；以及一个用于亲和分离标记多肽的 biotin（生物素）标签。随后将标记样品混合，用适当的 protease（蛋白酶）如 trypsin 进行消化，在 streptavidin（链霉亲和素）亲和柱上进行标签捕获，然后在进行 MS 分析之前洗脱。

另一种替代性的、成本较低的化学标记技术是 dimethyl labeling（二甲基标记）。该技术在蛋白质经过蛋白水解消化后应用，基于肽段一级胺的反应（肽段 N 端和 lysine 残基的 epsilon 氨基；Hsu et al. 2003）。二甲基标记试剂由 formaldehyde（甲醛）和 cyanoborohydride（氰基硼氢化物）组成，其标记形式含有氘代氢和 13C 原子的组合，并可用于 triplex（三重标记）。这使得可以在一次 MS 运行中，通过比较二甲基标签的质量差异来确定不同样品中的蛋白质丰度，从而对三个样品进行定量分析。

– Enzymatic labeling（酶促标记）。 酶促标记技术，例如使用 trypsin 等蛋白酶进行的蛋白水解标记，可在切割（水解）反应过程中引入 18O（或常规 16O）标记水，从而生成同位素标记肽段。例如，在一个两步反应中，多肽水解切割时，一个 18O 或 16O 原子被掺入所得肽段的羧基末端；随后发生羧基氧交换反应，将第二个 18O（或 16O）原子掺入每条肽段的羧基末端（Miyagi and Rao 2007）。

所有同位素标记技术都允许基于测量差异标记肽段之间的质量差异进行相对定量，但受限于一个实验组中可共同研究（multiplexed，多重化）的样品数量。质量差异这一概念通常限于二元（2-plex）或三元（3-plex）试剂组，因为更高阶多重化会导致 MS1 谱图复杂性增加、区分能力下降。通过使用为更高多重化而设计的 isobaric tags（等重标签；见 Isobaric Tagging），可以在一定程度上克服这一限制。

– Isobaric tagging（等重标记）。 Isobaric tag for relative and absolute quantification（iTRAQ；Ross et al. 2004）和 tandem mass tag（TMT）reagents（Thompson et al. 2003）代表了两种可用于定量 MS 的等重标记技术。iTRAQ 试剂有 4-plex 和 8-plex 形式，而 TMT 试剂有 2、4、6、8、10，以及最近的 11-plex 形式。这些等重稳定同位素标签由以下部分组成：一个 mass reporter（质量报告基团），具有独特数量的 13C 和/或 15N 重同位素取代；随后是一个 mass normalizer（质量平衡基团），用于平衡标签质量，使所有标签具有相同质量，因此在 MS1 前体离子扫描中形成共同的 m/z 峰；最后是一个反应区域，将标签交联到目标多肽上的 amine（胺基）或 cysteine 残基。样品用各自的质量标签标记后合并，用于 LC-MS/MS 分析。由于所有标签具有相同质量，所有样品中存在的相同肽段表现出相同的质量偏移，并在 MS1 中作为单一前体离子峰共同洗脱。MS2 碎裂后（例如通过基于 higher energy collisional activation dissociation 的碰撞活化），报告标签在特定连接区域同时被切下，形成质量接近但彼此不同的分子片段报告离子；这允许对相对肽段强度进行并行定量，同时获得相应的肽段碎片离子系列，用于蛋白质序列鉴定。

用于比较性定量蛋白质组学分析的主要方法有两类：同位素标记技术和无标记技术。定量蛋白质组学中使用的 MS2 方法在很大程度上与蛋白质鉴定所用方法相同，但增加了用于丰度测量的一个维度。在 label-free 方法中，每个样品分别通过 LC-MS/MS 进行分析，然后基于每个样本或样品组中每个蛋白质或 PTM 位点获得的 MS2 谱图计数，对测得的离子水平进行比较。在基于标记的方法中，一个实验组内的样品被同位素标记（例如通过体外化学标签或体内代谢标记），随后合并并在同一次 MS 运行中一起分析；同位素标签的不同质量既区分了多重化样品的来源，也区分了每个样本中相应蛋白质的相对水平。通常认为同位素标记策略更准确，因为样品可以直接比较；并且由于样品处理和 MS 欠采样造成的变异被最小化，因此可产生更可重复的结果。然而，这些策略实施成本更高、耗时更长，在可合并样品数量方面更受限制，并且需要专门的软件工具进行数据分析（见 PSM Software）。另一方面，尽管 label-free 方法在所分析样品总数方面具有良好的扩展性，并且更容易实施，但它们在检测蛋白质丰度小差异方面可能效果较差，并且可能存在较低的可重复性。

相对定量比较两个实验组样品之间的蛋白质或肽段水平，例如测量健康状态与疾病状态、突变细胞与野生型细胞，或祖细胞与分化细胞之间分子谱的差异（Filiou Michaela et al. 2012）。而绝对定量使用 reference standards（参考标准品）来确定一个或多个样品中一个或多个目标蛋白质或肽段的精确数量，因此适用于确定蛋白质浓度、蛋白质复合物亚基化学计量关系以及 PTMs 的程度（Gerber et al. 2003）。

此外，蛋白质组学中通常使用两种不同策略，均涵盖 targeted MS：基于 discovery（发现）的 global profiling（全局谱分析）方法，以及 hypothesis-driven（假设驱动）的 directed（定向）方法（Schubert et al. 2017）。基于发现的蛋白质组学研究是开放式的，可在使用 bottom-up shotgun sequencing 时通过 data-dependent acquisition（DDA，数据依赖采集）程序完成。在 DDA 中，所有高于预定强度的肽离子都被选择用于 MS2 碎裂，并随后以迭代（串行）方式从所得碎裂谱图中进行鉴定。也可以进行 data-independent acquisition（DIA，数据非依赖采集），其中样品中肽段的共同碎裂和鉴定以更系统化、多重化的方式进行，最典型的是同时分析某一质量范围内的所有肽段。相比之下，假设驱动的蛋白质组学使用先验信息，预先选择仅一个或少数特别感兴趣的蛋白质和肽段用于 MS2 分析。这包括 targeted MS detection（靶向 MS 检测），例如 selected reaction monitoring（SRM，选择反应监测）。在 SRM 中，MS 会选择性筛选少数预先定义的 fragment reporter ions（碎片报告离子）的信号强度模式，这些离子特异于感兴趣的目标蛋白质或肽段，用以确认分子身份。在谱图中选择性检测到这些模式，即可鉴定相应分子。靶向蛋白质组学的优势在于，这种选择性筛选允许更灵敏、更特异的蛋白质检测。检测携带特定 PTMs 的肽段、代表明确分子响应的肽段，或血液中以痕量存在的候选循环生物标志物，是靶向蛋白质组学最常见的应用场景。

Shotgun 方法虽然流行且相对较易实施，但必须同时处理蛋白质推断（肽段到蛋白质的赋值）方面的歧义，以及序列/修饰覆盖不完整和不一致的问题。在 bottom-up 工作流程中，亲本完整蛋白质与相应消化肽段之间的连接关系会丢失，从而在综合分析过程中带来复杂性（即赋值问题）。由于 TDP 方法同时测量完整蛋白质以及由 MS2 产生的碎片离子质量，因此可以获得缺口更少、更高的序列覆盖度，有助于表征 proteoforms 等蛋白质变体。然而，尽管 TDP 技术减少了推断问题，它高度依赖 feature discrimination（特征区分）和 deconvolution（去卷积）（例如解析由 ESI 产生的高度复杂、多重带电完整蛋白质离子包络；Kelleher et al. 1999）。

现在，读者已经了解了蛋白质 MS、样品制备以及 biological MS（生物质谱）基础数据分析背后的一般概念，我们可以考察当前使用较多的基于 MS 的蛋白质组学技术。

091

Peptide Mass Fingerprinting

PDF page 354-356；印刷页码 334-336

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Peptide Mass Fingerprinting

Peptide Mass Fingerprinting

肽质量指纹图谱（peptide mass fingerprinting, PMF）是一种概念上较为简单的蛋白质鉴定技术。在该方法中，单一多肽（例如凝胶条带）首先由具有序列特异性的蛋白酶（通常为 trypsin）切割成较小的肽段，随后通过准确的 MS 测定所得肽段的质量。MALDI 或 ESI 分析为鉴定凝胶条带或斑点中的蛋白质提供了一种快速、准确且高效的方法。PMF 的基本前提是：任何独特蛋白质都可以较容易地用一组独特的肽质量来描述，这些肽质量对应于经酶切产生的特定子序列中的氨基酸组成。虽然某些蛋白质可能高度相似（由基因重复或旁系同源基因编码），但一个蛋白质序列中通常至少有一部分是独特的，因此应当能够产生特异、可识别的肽质量组合。因此，如果某一特定多肽以特定方式被切割，则由 MS 获得的所得肽质量会形成一种独特的“指纹”，可特异性地映射回相应的蛋白质序列；该序列需要预先已知，即来自参考序列数据库。

PMF 蛋白质鉴定过程的关键在于，将实验测定的肽质量与理论预测的质量进行比较和匹配。肽质量可以通过 in silico 方法推断：取给定生物体的注释蛋白质序列，并按照处理真实样品所使用的同一种酶（例如 trypsin）切割规则进行计算机模拟切割。对数据库中每个蛋白质的每个肽段质量进行计算，并将所得模式与 PMF 分析中观察到的质量进行比较（Figure 11.11）。统计方法用于确定某一给定蛋白质的哪种理论肽段组合与观察到的肽段最为匹配；这通常包括进行显著性评估，以计算该匹配由偶然因素产生的概率（即假阳性概率）。在预先定义的质量误差范围（mass tolerance，质量容差）内具有最佳对应关系的候选蛋白质，被认为是最可能的候选者。显然，当样品为蛋白质混合物时，PMF 更容易出错；如果所研究的生物体尚未完成测序，则 PMF 也无法使用。此外，在样品处理过程中必须谨慎，避免出现来自污染物的无关肽段，例如来自头发和皮肤的肽段，或 trypsin 自溶产生的肽段，因为这些都可能导致伪结果。蛋白质消化是一个随机过程，蛋白酶可能并不会在每一个切割位点处都完全切割多肽，从而产生漏切（missed cleavages）。不完全蛋白水解消化可能产生较长的肽段，这些肽段更难检测或裂解。如果在理论消化的序列数据库中包含所有可能的部分切割肽段，也会导致复杂度呈指数级增加。如果未考虑未知 PTMs（post-translational modifications，翻译后修饰）或样品制备过程中发生的化学修饰（例如氧化）的存在，也可能产生伪结果，因为这些修饰可增加或降低分子量。修饰的程度可以是不完全的（variable modifications，可变修饰），也可以是在某一特定氨基酸的所有出现位置上普遍存在的（fixed modification，固定修饰）；例如半胱氨酸的 carbamidomethylation（羧酰胺甲基化）就是样品制备中常用的一种反应，用于防止样品消化后形成半胱氨酸交联桥，该反应会增加半胱氨酸的分子量。由于匹配的只是肽质量，而不是精确序列，PTMs 的存在可能导致结果产生歧义。数据库中的理论肽质量数量会随着每一种可变修饰而呈指数级增长，从而降低匹配特异性，并显著增加搜索时间。因此，为了降低计算复杂度，需要限制允许的可变修饰数量；同时，参考数据库又必须能够考虑所有可能的漏切和可变修饰组合。

PMF 数据库搜索概念最早由 Henzel 及其同事实现，他们于 1993 年开发了 Fragfit 计算算法（Henzel et al. 1993）。该程序在搜索包含 91 000 条候选蛋白质序列的数据库时，仅使用每个蛋白质 3 个肽质量，就能准确鉴定从 Escherichia coli 细胞裂解液中分离出的蛋白质，展示了计算软件与 MS 联合用于蛋白质鉴定的价值。虽然 PMF 方法的核心优势在于只需（准确）测量（独特）肽段的质量，但当混合物中含有一个以上蛋白质时，PMF 算法会受到干扰。理想情况下，如果能够测定肽段的序列，而不仅仅是它们的质量，那么蛋白质混合物的问题以及蛋白质鉴定的置信度都可以得到改善。如下文所述，利用 tandem mass spectrometric techniques（串联质谱技术）实际上可以实现肽段测序。

---

Figure 11.11 Peptide mass fingerprinting (PMF) workflow.

Figure 11.11 肽质量指纹图谱（PMF）工作流程。 示意图显示了 PMF 流程中的不同步骤。纯化蛋白质样品经酶切消化后，提取出的肽质量通过 mass spectrometry（MS，质谱）进行测量；由于速度快且操作简便，通常采用 matrix-assisted laser desorption ionization（MALDI，基质辅助激光解吸电离）time of flight（TOF，飞行时间）MS。随后，将观察到的肽质量模式与理论计算质量进行比较；理论质量通过在参考数据库中的蛋白质序列上以 in silico 方式应用酶切割规则获得，并使用搜索算法进行分析，得到按排名排列的候选蛋白质列表。

图中主要流程标签：

Proteolysis：蛋白水解
Peptide mixture：肽混合物
Purified protein sample：纯化蛋白质样品
Intensity (%)：强度（%）
Mass spectra：质谱图
Peak list：峰列表
Match：匹配
In silico digestion：计算机模拟消化
Sequence database entry：序列数据库条目
Theoretical proteolytic peptides：理论蛋白水解肽段
Calculation of peptide mass：肽质量计算
Theoretical peak list：理论峰列表
Result：结果
Ranked list of protein candidates：候选蛋白质排名列表
Monoisotopic mass of Peptide (+)：肽段（+）单同位素质量
Seq No.：序列编号
Score：得分

092

PMF on the Web

PDF page 356；印刷页码 336

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PMF on the Web

PMF 的 Web 应用

Mascot

Mascot 是一种广泛使用的商业化 MS 搜索引擎，也是最早将基于概率的评分方法用于 peptide 和 protein 鉴定的搜索引擎之一。它源自 MOWSE 概率算法；MOWSE 只能进行 PMF 搜索，并且在计算 peptide mass values 之前，需要预先建立按特定 enzyme 划分索引的数据库。这使得搜索潜在的 PTMs 变得困难，因为每一种修饰组合都需要一个新的数据库。Mascot 的开发正是为了解决这些限制：它可以直接从 sequence databases 中“on the fly（即时）”计算质量值，从而不再需要数据库索引，并增加了对 PTMs 和更灵活搜索策略的支持（Perkins et al. 1999）。

数据以 peptide masses 或 peak lists 的形式在线提交。其他与搜索相关的参数（见 Table 11.2）包括样本（物种）taxonomy、protein reference database、潜在 modifications、proteolytic enzyme、允许的 missed cleavages 数量、所使用的 MS scan mode，以及在计算 peptide mass 时使用 monoisotopic mass values 还是 average mass values；这些参数连同 protein mass window 和 match error tolerance 一起作为输入提供。搜索结束后，系统会生成一份详细的 summary report，其中概括给出推定的 peptide 和 protein identifications（Figure 11.12）。

Mascot 在 peptide identification 中的基本思路，是计算观察到的实验数据与 reference database 中某个候选条目之间的匹配仅由偶然因素产生的概率。概率最低的 peptide 被视为最佳匹配，并以 −10*log10(P) 的形式报告，其中 P 为实际概率。Mascot 还通过 target–decoy 方法计算 false discovery rate（FDR；见 Box 5.4）来估计显著性：即使用相同参数，将搜索重复应用于一个序列被反向或随机化的数据库。由于在这个“decoy”数据库中预期不会出现真实匹配，因此其中的匹配数量可以很好地估计结果中的 false positives 数量。任何基于概率评分的 spectral matching 算法，其目标都是为 peptide-spectrum match 指定一个置信水平，以剔除 false positives；因此，在当时的其他 MS 搜索工具相比之下，这一方法具有巨大优势。

093

Proteomics and Tandem MS

PDF page 356-364；印刷页码 336-344

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics and Tandem MS

Proteomics and Tandem MS

虽然 PMF 是一种简单而快速的蛋白质鉴定方法，但它也存在一些重要缺陷。多个不同蛋白质同时存在、未被考虑的剪接变体，以及 PTMs 引起的意外质量偏移，都会削弱其有效性。只有当蛋白质的肽段处于所记录的质量范围内，并且对应于数据库中已有明确定义的序列时，才可能被鉴定出来。串联质谱（tandem MS，MS/MS 或 MS2）的引入，有助于克服其中许多限制。通过二级肽段碎裂获得的额外信息，以及更好的搜索算法，使复杂蛋白质混合物的分析成为可能。

![Figure 11.12 Mascot peptide mass fingerprinting (PMF)]()

Figure 11.12 Mascot 肽质量指纹图谱（peptide mass fingerprinting，PMF）。PMF 提交界面和搜索结果，展示代表性的蛋白质汇总报告，其中匹配肽段以红色标出。（a）PMF 提交表单，可选择搜索特异性参数，例如酶、漏切次数、物种分类、修饰以及肽段质量。（b）蛋白质搜索结果页面显示按排序排列的蛋白质列表，每个蛋白质均给出一个 −log10(P) 蛋白质得分。显著性得分最高的蛋白质被认为是最可能的匹配。（c）蛋白质视图页面在匹配的蛋白质序列中显示已鉴定肽段（红色）、序列覆盖百分比，以及已搜索和已鉴定的质量值数量。（d）蛋白质视图页面的续页列出已鉴定肽段序列的位置，同时给出实验质量（在提交表单中输入）以及搜索所用蛋白质序列数据库中计算得到的和理论的肽段质量。

Figure 11.12（续）

Peptide Spectral Matching

从生物混合物中鉴定蛋白质最常用的方法，通常涉及从 shotgun LC-MS/MS 数据集中推断肽段序列。这一过程通常通过数据库搜索方法完成，或通过肽段谱图匹配（peptide spectral matching，PSM）完成。在 PSM 中，以若干 MS 数据格式之一保存的已采集 MS2 谱图（见 Reporting Standards）会与一组编译好的注释蛋白质序列进行搜索比对；这些序列通常来自经人工审查的公共数据库，例如 UniProt 或 NCBI nr（见第 1 章；Table 11.1）。

在所有数据库搜索算法中，数据库中的每一条记录首先都会进行 in silico 酶切，即采用与实验样品实际酶切所用酶相同的特异性规则。随后，每个实验 MS2 谱图会与每个肽段的理论碎裂模式进行相关性比较。理论碎裂模式依据常见碎裂规则构建，这些规则会考虑具有相同质量（即 isobaric，等质量）的氨基酸离子、氨和水离子的丢失，以及离子的谱峰强度，以寻找合适的匹配。搜索通常限制在满足用户设定标准的一部分肽段范围内，例如质量容差、蛋白水解酶约束、是否允许漏切，以及是否存在可能的 PTM。

Table 11.1 常见蛋白质序列来源列表（以 FASTA 格式使用）。

Database	Type	URL
UniProt	Reference proteomes	www.uniprot.org/proteomes
NCBI – Protein	Reference proteomes	www.ncbi.nlm.nih.gov/protein
Ensembl	Reference proteomes	www.ensembl.org/info/data/ftp/index.html
PATRIC	Reference proteomes	www.patricbrc.org
WormBase	Nematode genomes	www.wormbase.org
FlyBase	Drosophila genomes	flybase.org

搜索输出是一组候选匹配列表，包括肽段序列及其对应蛋白质。这些候选项会被赋予得分并排序，以确定最可能的候选结果。不同的数据库搜索工具采用不同的评分方案，为每个匹配计算似然得分，从而区分潜在正确的指派与可能错误的指派。目前已有多种有效的 MS2 数据库搜索工具可用，包括成熟且广泛使用的商业发布软件，如 SEQUEST 和 Mascot；也包括免费可用的软件，如 X! Tandem、Andromeda/MaxQuant 和 MS-GF+（见 Internet Resources）。

为了尽可能提高肽段鉴定的可靠性，大多数算法还会将查询 MS2 谱图与同一参考序列的随机化或反向 decoy 版本进行搜索比对，以定义并最小化 FDR。也就是说，在给定得分下，计算随机匹配数量相对于非随机匹配数量的函数关系。随后，通过设置严格的评分阈值，从结果中过滤掉不可靠的鉴定结果，以在保留合理候选鉴定的同时尽量减少假阳性。最终确定的已鉴定肽段列表随后会在数据库搜索之后，通过数据归一化和统计评估组装为对应蛋白质，这一过程称为蛋白质推断（protein inference）。

使用 MS2 鉴定 PTMs 在计算上更为密集，也更容易出错，因为它需要在蛋白质数据库的大多数肽段序列中搜索所有潜在质量偏移组合。这会导致潜在候选匹配数量发生组合爆炸。因此，数据库搜索工具通常建议在一次运行中最多只搜索两种或三种不同修饰。Mascot、SEQUEST 和 MaxQuant 等大多数常规数据库搜索工具，只能检测固定数量的预先指定 PTMs。然而，也已经开发出更灵活的算法，用于鉴定未指定 PTMs。这些方法包括采用“blind”或 PTM-agnostic 搜索策略的算法，例如 Sequential Interval Motif Search（SIMS）；也包括混合搜索方法，例如 GutenTag、InsPecT 和 PEAKS PTM 中实现的方法。由于搜索空间在很大程度上没有边界，作为一种实用限制，混合搜索会先生成一个容错性的 de novo 初始搜索，用于缩小潜在候选序列范围；或者先进行一轮常规数据库搜索，以过滤得到较小的蛋白质候选池。

De Novo Peptide Sequencing

标准序列数据库搜索方法无法鉴定参考库中不存在的新肽段；当所研究生物的相应基因组序列不可用或不完整时，该方法也无法使用。在这种情况下，de novo sequencing 是一种替代方法，即在没有现存氨基酸序列先验知识的情况下，对肽段谱图进行测序。

De novo sequencing 利用两个相邻碎片离子之间的连续质量差，累积计算肽段骨架中相应氨基酸残基的质量。识别离散峰离子类型是 de novo 搜索算法的关键特征（Figure 11.13）。例如，利用碰撞诱导解离（collision-induced dissociation，CID）碎裂产生的 “b” 离子系列或 “y” 离子系列，可以生成一组氨基酸序列；这些序列也与完整肽段的实测质量一致（Box 11.1）。根据多种标准，例如谱图反卷积，以及对 homeometric peptides 的过滤，即不同肽段具有相似的理论相同 b 峰和 y 峰集合，候选序列（通常多达数万条）会被缩小到最符合实验 MS2 谱图的结果。

![Figure 11.13 Peptide sequencing via tandem mass spectrometry (MS/MS) spectra interpretation]()

Figure 11.13 通过串联质谱（MS/MS）谱图解释进行肽段测序。注释后的 MS2 谱图显示代表 b 离子和 y 离子的肽段碎片峰。De novo sequencing 算法在迭代过程中利用相邻碎片离子对之间的质量差，计算相应氨基酸残基的质量，从而沿肽段骨架确定序列。例如，y5 与 y6 离子之间的质量差等于 87.04 Da，对应丝氨酸（serine，S）的精确质量。类似地，y5 与 y4 之间的下一个残基可根据相应质量差确定为亮氨酸（leucine），或等质量残基异亮氨酸（isoleucine）。截图展示 PEAKS de novo 搜索引擎，突出显示注释谱图及候选肽段推导序列。

De novo 方法的优点是不会受到搜索数据库中序列错误的影响，并且可以使用部分序列来搜索 PTMs。然而，与 blind PTM 搜索一样，它也是一个计算密集且容易出错的过程，因此特别依赖高质量 MS2 谱图；这些谱图需要完整、准确度高，并且没有虚假噪声。一些常用 de novo 软件工具包括 Lutefisk、PEAKS 和 PepNovo+（见 Internet resources）。

Spectral Library Searching

谱图库搜索（spectral library searching）已经成为传统蛋白质序列数据库搜索的一种替代方法，尤其适用于基于 DDA 的数据生成流程。理论上，对于给定序列而言，库中 MS2 谱图比数据库搜索为同一肽段序列计算预测得到的 in silico MS2 谱图，更忠实地表示了观测到的碎片离子强度和离子类型。一旦一个 MS2 肽段谱图通过传统 shotgun 测序蛋白质组学流程被可信匹配，它就会被存储在一个注释谱图库（annotated spectral library，ASL）中，之后可被重复用于快速鉴定另一实验中由同一肽段产生的其他 MS2 谱图。

由于这种方法不依赖对常规蛋白质序列的访问，也不需要面对数量巨大的未经验证候选项，因此与传统数据库搜索方法相比速度极快。一次成对谱图比较只需数毫秒即可完成，而标准数据库匹配方法需要数分钟，因此谱图库搜索为鉴定 MS2 谱图提供了一种更高效、也可能更可靠的方式。

谱图库搜索本质上是一种模式匹配策略，自 20 世纪 50 年代以来已被用于分析光谱学。然而，它作为蛋白质组学搜索工具的应用，只是在过去二十年中才成为可能。这得益于代表性样本的蛋白质组范围 MS2 谱图逐渐可用，使代表性 ASLs 的构建成为可能。谱图库搜索正迅速成为若干应用中的理想工具，例如仪器质量控制、分子扫描仪和生物标志物验证；在这些应用中，快速且可信地匹配预定义靶标至关重要。

National Institute of Standards and Technology（NIST；Stein 1990）和 Global Proteome Machine（GPM；Fenyö et al. 2010）数据库是两个公开可用的参考肽段谱图库，合计包含来自 1600 万种不同肽段的 60 多亿条注释谱图。随着越来越多高质量 MS2 数据的产生，它们也在持续更新。由于目标是快速鉴定，谱图库搜索引擎只需要一个注释 MS2 谱图库，以及指定蛋白质消化所用蛋白酶的明确定义规则。

得到的候选 peptide-spectrum matches 列表首先通过对齐前体质量进行过滤，然后根据与实验 MS2 谱图计算得到的 Pearson 相关性进行评分。匹配得分用于表征实验 MS2 谱图与库中 MS2 谱图之间的相似性。候选项按得分排序，库中得分最高的肽段被指派给该谱图。由于谱图库来源于实验观测到的 MS2 谱图，这一方案赋予库搜索比传统数据库搜索更高的鉴定灵敏度。然而，应始终注意谱图库中肽段过度代表或代表不足所引发的问题。

谱图库搜索甚至可以鉴定带有意外 PTMs 的肽段；这些 PTMs 在查询传统数据库时可能无法检测到，因为传统数据库搜索要求事先知道样品中存在的所有 PTMs。这种效率和灵敏度的提升，也推动了专门用于 PTMs 鉴定的谱图库发展。目前使用的一些谱图库搜索算法包括 NIST 的 MS PepSearch、PeptideAtlas 的 SpectraST，以及 GPM 的 X! Hunter。

Hybrid Search

混合搜索（hybrid search）是一种结合 de novo sequencing 和数据库序列搜索要素的方法。在混合搜索中，从 MS2 谱图获得的短肽段序列标签（peptide sequence tags，PSTs；长度为 3–5 个氨基酸残基）会被用于容错性数据库搜索。所谓容错性搜索，是指允许产生 MS2 谱图的肽段序列与数据库序列之间存在一个或多个错配。

PST 是一个短氨基酸序列，并带有前缀和后缀质量值，用于指定其在完整肽段中的起始和终止位置（Figure 11.14）。在肽段序列标签技术中，氨基酸连续片段会根据碎裂峰之间的间距外推得到；这些“peptide-words”随后用于在序列数据库中鉴定蛋白质。这种标签技术将搜索空间限制到数据库中含有该序列标签的肽段，从而显著缩短搜索时间。代表性的 PST 搜索算法包括 GutenTag 和 InsPecT。

![Figure 11.14 Peptide sequence tag searching]()

Figure 11.14 肽段序列标签搜索。示意图说明如何使用序列标签（PST）或“word”从 MS2 谱图中鉴定未知肽段。对于蛋白质鉴定，PST（示例中为 LRL）会与互补信息结合使用；这些互补信息包括序列标签之前（N-terminal）的肽段片段质量（mass1）和序列标签之后（C-terminal）的肽段片段质量（mass2）。

Top-Down (Intact Protein) MS

早期 top-down 研究受到样品异质性和蛋白质大小方面的限制。然而，当前分析分离技术的进展，例如纳流反相液相色谱（nanoflow reverse phase liquid chromatography，RPLC）、凝胶洗脱液体组分包埋（gel-eluted liquid fraction entrapment，GELFrEE）、疏水液体相互作用色谱（hydrophobic liquid interaction chromatography，HLIC）、毛细管电泳（capillary electrophoresis，CE）以及等电聚焦（isoelectric focusing，IEF），再加上 MS 仪器分辨率不断提高，以及基于光子和电子捕获方法的离子碎裂技术不断改进，例如表面诱导解离（surface-induced dissociation，SID）和紫外光解离（ultraviolet photodissociation，UVPD），已经使从日益复杂的混合物中表征完整蛋白质成为可能。

近期研究显示，top-down 方法可用于解析含有多种 proteoform 的大分子复合物成分。研究甚至已经确立 TDP 可用于监测临床样品中的 proteoforms，例如在脑脊液中监测儿童脑肿瘤预后相关生物标志物，以及在 Down syndrome 患者唾液中监测早发 Alzheimer disease 的生物标志物。目前使用的一些开源 top-down 分析工具包括 ProSight PTM、TopPIC、MS-Align+，以及最近发布的 Informed-Proteomics。

Database Search Models

现代蛋白质组学平台会生成海量 MS2 谱图，通常每项研究产生数百万张谱图；这些数据只能通过自动化搜索引擎或软件平台进行分析。已有大量评分算法被提出，但目前使用的算法可分为两大类：一类算法在序列搜索和评分之前，需要根据谱图中的离子峰解释并选择特定离子质量特征；另一类算法则不需要解释，并尝试对所有可用质量峰进行评分。De novo sequencing 算法则从零开始推断多肽序列。

094

PSM Software

PDF page 365-368；印刷页码 345-348

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PSM Software

PSM Software

345

一类算法属于第一种类型，而标准数据库搜索算法（执行序列匹配）则遵循未解释（uninterpreted）方法。两类算法各有优缺点，但二者都可以从高质量的 MS2 谱图中有效鉴定多肽序列。

根据 PSM 所采用的评分方法，未解释搜索算法还可以进一步分为四个亚类：描述性（descriptive）、解释性（interpretative）、随机性（stochastic）和基于概率的匹配（probability-based matching）。描述性算法通过相关分析将实验谱图与理论谱图进行匹配；解释性模型则尝试在进行数据库搜索之前，先从 MS2 谱图中解释出部分序列。基于概率的匹配模型通过建立实验谱图与数据库之间的统计关系，推导肽段鉴定的概率；随机评分模型则利用已知谱图的训练集来推导最佳匹配的概率。

PSM Software

所有搜索引擎的目标，都是解析由肽段碎裂产生的 MS2 谱图：它们通过不同的评分方案定义“匹配”，从候选序列中选择最佳匹配列表，并将多个已鉴定肽段组装到其对应的蛋白质上。采用概率评分方法的搜索引擎试图区分真实鉴定与错误鉴定；而非统计评分的搜索引擎则依赖后续应用统计工具，例如 PeptideProphet、StatQuest（Kislinger et al. 2003）或 Percolator，将初始匹配得分转换为似然值或概率。

有些搜索引擎可以作为独立应用程序使用，用于对采用特定 MS 技术获得的数据进行鉴定，甚至进行定量；另一些则集成在大型软件包或平台中，使 MS 数据分析更加完整且用户友好。有些工具（如 MaxQuant 和 MS-GF+）是开放访问且免费提供的，而另一些则是需要授权使用的专有商业软件包。某些工具提供在线版本，允许进行受限分析；目前的最新趋势是使用云计算服务，例如 Amazon Web Services（Halligan et al. 2009）和 ProteoCloud（Muth et al. 2013）。不过，大多数应用程序仍需要在具备足够计算能力的本地计算机或计算集群上运行。对当前众多可用搜索工具的所有关键属性进行深入讨论，超出了本章范围；下面将简要介绍一些使用较广泛工具的若干方面。

SEQUEST

SEQUEST 搜索算法是一种稳健的描述性评分方法，由 University of Washington 的 Eng、Yates 及其同事提出（Eng et al. 1994）。它是第一个、并且现在仍是使用最广泛的自动化数据库搜索工具之一，用于从 MS2 数据中进行肽段鉴定。

SEQUEST 算法通过一种迭代式肽段-谱图匹配策略对 MS 数据进行预处理。该策略首先基于前体离子质量（precursor mass）和用户指定的容差筛选候选肽段，随后进行峰分箱（peak binning）和归一化。预处理后的数据随后采用两步评分方法进行打分：首先根据 MS2 谱图中与实验数据匹配的离子数量，计算初步得分（Sp）。随后，为排名前 500 的候选肽段生成理论构建谱图，并将其与实验谱图进行系统比较，以生成归一化互相关得分（XCorr）。XCorr 是带有校正因子的标量点积（Figure 11.15）。具有最高 XCorr 值的肽段被视为最佳匹配；匹配质量和唯一性则进一步通过计算 Delta correlation（ΔCn）得分，根据最佳匹配与次优匹配之间的差异进行判断。这种互相关分析是 SEQUEST 中实现的主要功能，使该工具具有较高灵敏度，但同时也带来较大的计算量，即运行速度较慢。

346

Proteomics and Protein Identification by Mass Spectrometry

Figure 11.15 Peptide spectrum match（PSM）。 注释后的 MS2 谱图，显示了一个代表性 BSA（bovine serum albumin，牛血清白蛋白）肽段中匹配的离子系列；该肽段使用 SEQUEST 搜索算法鉴定得到。

在后续更新中，SEQUEST 增加了鉴定动态（可变）修饰的能力；之后，SEQUEST 被整合进商业软件套件 Proteome Discoverer。随后，为开发更快速版本的 SEQUEST，人们引入了预计算索引功能，以加快 XCorr 的计算。TurboSEQUEST 作为 Crux 软件套件的一部分被开发出来，之后又出现了一个速度更快的实现，称为 Tide。通过算法增强以及更有效地利用有限计算资源，Tide 面向高磁盘使用场景优化，并且可以通过运行多个程序实例，在 CPU 集群上进行并行执行。作为 Crux 软件工具包的一部分，Tide 可供学术和非营利用途免费使用。

X! Tandem

X! Tandem 是 X! 数据库匹配算法套件中的一个开源搜索引擎，并作为 GPM 的一部分发布。它最初由 Robertson Craig 和 Ronald Beavis 合作实现，是一个名为 TANDEM 的免费开源搜索工具（Craig and Beavis 2004）。这与当时大多数流行搜索工具形成对比：后者多为专有软件，进一步改进的空间有限。

TANDEM 的实现目标是优化速度并提高鉴定效果，并设计为可从命令行运行。它会对实验获得的谱图进行预处理，以去除伪峰（噪声），并根据蛋白质序列生成酶特异性的理论谱图；在匹配观测谱图与预测谱图时，还会考虑潜在的翻译后修饰和化学修饰。随后，系统会基于超几何分布计算 hyperscore；该得分为匹配峰强度之和与匹配到的 b 离子和 y 离子数量阶乘的点积。

347

另外还引入了两个评分指标——K-score 和 S-score——用于衡量肽段 MS2 谱图与候选序列之间的相似性。与原生 hyperscore 类似，K-score 包含一个预处理步骤，该步骤利用来自噪声峰和未匹配峰的信息，以给出更灵敏的匹配；而 S-score 则将匹配峰的对数强度之和除以序列长度的平方根，并通过期望值（expectation value，e value）评估统计显著性。一旦建立肽段层面的证据，蛋白质层面的推断就会使用 Bayesian model 进行估计；该模型基于某一给定蛋白质所鉴定到的肽段数量及其相应得分。

TANDEM 是最早使用 Biopolymer Markup Language（BIOML；Fenyö 1999）的程序之一。BIOML 是一种 Extensible Markup Language（XML）格式，用于注释蛋白质序列信息，并根据分析仪器的标准报告格式生成输入和输出文件，从而便于整合进 MS 搜索流程。TANDEM 已被整合进 Trans-Proteomic Pipeline（TPP）软件套件；TPP 是较为流行的公共 MS2 分析平台之一。不过，TANDEM 仍由 GPM 作为 X! 工具套件的一部分维护；截至本文写作时，其最新版本为 Alanine（2017.02.01）。

MaxQuant（Andromeda）

Andromeda 是为功能强大的 MaxQuant 软件套件开发的数据库搜索引擎（Cox et al. 2011），其在 PSM 评分中实现了概率评分算法。它能够处理由高碎片质量精度产生的 MS2 谱图，并且可以对复杂的 PTM 模式进行指定、评分和定量，例如多重磷酸化肽段；同时，它仍能在大型序列数据库中保持高效搜索能力。

与多数搜索引擎类似，用户需要指定允许的肽段和蛋白质修饰、用于蛋白质切割的酶，以及待搜索的参考蛋白质序列数据库。随后，系统会利用这些参数生成数据库中所有肽段的列表，并基于肽段质量构建双层索引结构，以实现快速检索。对于给定肽段，系统根据其肽段序列以及固定修饰和可变修饰的配置，在对多种电荷态进行平均和去卷积之后，计算理论碎片离子。

Andromeda 的评分函数基于二项分布概率公式。MS2 谱图被划分为 100 Th（mass-to-charge ratio units，质荷比单位）的质量范围；在考虑肽段长度、漏切位点数量以及潜在修饰存在与否的同时，系统计算实验峰与理论碎片质量在整个谱图范围内匹配数量的概率，并将该概率的对数乘以 10 作为得分。随后，肽段鉴定结果会使用基于 target–decoy 推导的 FDR 所确定的统计阈值进行过滤，并映射到相应的同源蛋白质上。

Andromeda 具有稳健的架构和不受限制的可扩展性。它可以独立运行，也可以作为集成在 MaxQuant 计算平台中的搜索引擎使用；该平台配有图形用户界面，专门面向高分辨率（Orbitrap）MS 数据开发。其功能包括原始数据中的峰检测、定量、肽段评分、蛋白质组报告，以及对定量 label-free 技术（例如 spectral counts）、同位素标记技术（例如 stable isotope labeling of amino acids in cell culture，SILAC）和等重标记技术（例如 tandem mass tag，TMT）的支持。两个工具均可免费获得（见 Internet Resources），并可在 Windows 桌面计算机上运行，从而避免 client–server 设置和网络通信问题。对于单条谱图搜索，Andromeda 也可以通过 web server 访问，并可从命令行运行。为辅助生物学解释，MaxQuant/Andromeda 结果的进一步下游生物学分析可以使用一个独立模块 Perseus 完成。

095

PSM on the Web

PDF page 368；印刷页码 348

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PSM on the Web

PSM on the Web

用于 MS2 的 Mascot 提供了一个受限的、可通过 Web 访问的版本，可用于单一样品检索。它与 PMF 检索非常相似，但作了一些修改。在这里，数据以峰列表（peak list）的形式在线提交；这些峰列表由原始数据经过一种称为峰提取（peak picking）的过程转换而来（Figure 11.8a）。每个峰列表由观测到的肽离子质量值组成；在可获得的情况下，也可以选择性地包含相应的强度值。数据也可以 Mascot generic format 或 .mgf 文件的形式提交。当前版本的 Mascot 还支持供应商特异性格式，例如 .dta（SEQUEST）、.asc（Finnigan）、.pkl（Micromass），以及蛋白质组学领域采用的标准格式，例如 .mzML 和 .mzData（见下文）。

096

Reporting Standards

PDF page 368-372；印刷页码 348-352

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Reporting Standards

Reporting Standards

除常规的检索特异性参数外（见“PMF on the Web”），还可以设置其他附加参数，包括 MS2 或 fragment ion 的误差容限，以及用于标记样品或 label-free 样品的定量方法。用户还可以从所提供的列表中选择所使用的 MS 仪器类型和离子活化方法、肽段碎片的电荷状态，以及是否运行 decoy search 以计算 FDR。检索结束后，系统会生成一份详细的汇总报告，概括推定的肽段和蛋白质鉴定结果（Figure 11.16）。在当前版本中，Mascot 支持 PMF、PST 和 MS2 谱图的标准数据库检索，同时支持 PTM 鉴定，以及使用标记和 label-free 技术进行相对定量。三种检索类型均有免费但受限的在线版本可用（见 Internet Resources）；高通量运行则可通过商业方式获得。

Reporting Standards

任何研究领域的发展和进步，一个关键要素都是协作以及数据的便捷交换。为实现这一点，MS 数据必须遵循共同标准，使不同软件工具和计算平台之间能够互操作；同时也便于将蛋白质组学数据提交到公共数据库中，从而促进数据共享、再利用，并最终产生新的生物医学见解，推动临床转化。为建立 MS 数据标准，Human Proteome Organization（HUPO）于 2002 年成立了 Proteomics Standard Initiative（PSI）（Orchard et al. 2003）。这一工作的目标是基于最低信息指南和受控词汇表，制定群体标准化报告格式；同时通过针对 MS-based proteomics 不同方面的工作组章程，推动用于数据分发的公共资源和工具的发展。

这些标准包括 PSI-MI（Proteomics Standard Initiative – Molecular Interactions），用于分子相互作用报告和交换的数据格式（Chapter 13）；MIAPE-MS（Minimum Information About a Proteomics Experiment – Mass Spectrometry），用于实验数据；MIAPE-MSI（Minimum Information About a Proteomics Experiment – Mass Spectrometry Informatics），用于 MS 数据分析；MIASSPE（Minimum Information About Sample Preparation for a Phosphoproteomics Experiment），用于 phosphoproteomics 等 PTM 相关实验；以及 MIAPE-Quant（Minimum Information About a Proteomics Experiment – Mass Spectrometry Quantification），用于蛋白质组学定量实验。

这些指南定义了 MS 数据发布所需的基本数据元素和元数据，而相应的数据格式则提供了报告待共享信息的模型。后一类格式包括 ad hoc formats，即代表特定群体或开发者需求的专用格式。除 ad hoc formats 外，还有一些事实标准，例如作为 TPP 套件一部分开发的 pepXML 和 protXML。它们并未经过正式标准化流程，但已经被广泛接受。真正意义上的标准，例如 mzML，则通过正式标准化流程定义；该流程在广泛测试和审查之后，规定 XML 格式的结构。

Proteomics XML Formats

目前存在多种蛋白质组学数据格式。遗憾的是，供应商特异性的专有 MS 数据格式不便于数据操作或共享。为克服这些问题，过去十年中出现了若干开放数据格式。当前推荐的最新开放标准蛋白质组学格式是 mzML。mzML 由 HUPO PSI 开发并支持，并建立在早期开放标准 mzData 和 mzXML 的基础之上；这些标准最初被广泛用于存储原始 MS 数据，例如谱图和色谱图。虽然 mzML 是目前可用的最佳标准，但较早的格式，例如 Institute for Systems Biology（ISB, Seattle, Washington）开发的 mzXML，仍被广泛使用。这些标准均以 XML 编写，包含蛋白质组学数据结构的文本表示，强调简洁性和可用性，因此既适合人类阅读，也适合机器读取。

自 PSI 成立以来，还定义了其他数据格式，例如 TraML，用于设计 transition lists，作为 target-directed SRM 实验的输入；mzIdentML，用于肽段和蛋白质鉴定；mzQuantML，用于定量 MS 数据；mzTab，用于蛋白质组学和代谢组学结果；gelML，用于蛋白质分离方法；以及 spML，用于样品处理。这些 PSI 数据格式的定义和可用性，有助于简化 MS 算法和软件平台的开发，进而提高互操作性和数据交换能力。目前许多工具都能够以符合标准的方式实现 PSI 格式，例如 ProteoWizard、PRIDE 和 OpenMS。

Figure 11.16 Mascot search engine

Mascot MS2 数据库检索提交窗口和代表性 peptide spectrum match（PSM）检索结果。

(a) Tandem mass spectrometry（MS/MS）离子检索提交表单，可在其中设置或选择检索特异性参数，例如 enzyme、missed cleavages 数量、organism taxonomy、modifications、quantitation、precursor m/z、MS instrument，以及 ion activation（fragmentation）机制。

(b) 检索结果页面显示按排名排列的蛋白质列表，每个蛋白质均带有 −log10(P) protein score。显著性评分最高的蛋白质被认为是最可能的匹配结果。点击蛋白质名称后，会显示该蛋白质对应的 peptide view。

(c) Peptide view 页面显示一个可滚动面板，用于查看该蛋白质中每个已鉴定肽段的质谱图；同时显示 fragmentation table，列出质谱图中各峰的质量。页面还会显示该蛋白质所鉴定肽段的评分列表。

Figure 11.16 (Continued)

097

Proteomics Data Repositories

PDF page 372-374；印刷页码 352-354

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics Data Repositories

Proteomics Data Repositories

大多数 proteomics（蛋白质组学）项目的终点，是研究论文发表。在 proteomics 发展的早期阶段（直到 2000 年代中期），标准做法是在论文发表时，将最终处理后的数据作为 supplemental information（补充信息）发布。因此，除非向作者索取，否则学术共同体无法访问未经处理的数据或原始实验结果。即便如此，如果数据没有得到妥善归档、无法追溯，也可能带来问题。

到 2000 年代中期，许多期刊开始要求在论文发表的同时，将 proteomics 数据提交到公共数据仓库，这与 DNA sequencing（DNA 测序）领域已经形成的做法类似。随着 MS（mass spectrometry，质谱）数据生成能力持续提升，研究者对原始 proteomics 数据访问的需求成倍增加，由此推动了大量实验数据被强制提交到公共数据仓库。数据开放访问使其他研究人员能够对数据进行再利用和再分析，从而定义 MS-observable proteomes（质谱可观测蛋白质组）或构建 annotated spectral libraries（带注释的谱图库）。

主要的 proteomics 数据仓库包括 PeptideAtlas、PRIDE、GPMdb、Mass Spectrometry Interactive Virtual Environment（MassIVE）、jPOST、iProX、Chorus，以及 PeptideAtlas SRM Experiment Library（PASSEL）。ProteomeXchange（PX）是一个数据仓库联盟，其建立目的是管理公共数据仓库的整合，并促进数据向科学共同体共享。

ProteomeXchange

PX Consortium（Deutsch et al. 2017）的建立，是为了监督 proteomics MS 数据提交指南的标准化。PX 提供了用户友好的数据提交流程和框架，用于协调已有数据库仓库的资源，包括 PRIDE、MassIVE、jPOST、iProX、PASSEL 和 PeptideAtlas。

提交所必需的数据和 metadata（元数据）包括：MS 输出结果（以二进制格式保存的 raw data，或标准 mzML 格式数据）、处理后的鉴定结果，以及描述实验条件的 metadata。其他信息，如 peak lists（峰列表）和 quantification results（定量结果），也可以一并提供。提交完成后，作者可以在论文正式发表前引用分配得到的 PX accession（PX 登录号）。

前五个数据库存储用户提交的数据，因此被视为 primary resource（一级资源）。相比之下，PeptideAtlas 中的数据会通过 TPP pipeline 重新处理，这与 GPMdb 的做法类似，因此构成 secondary resource（二级资源）。除 PeptideAtlas 外，PASSEL 被建立为面向 target-driven SRM data（靶向 SRM 数据）的数据仓库。迄今为止，已有超过 4500 个数据集被提交，覆盖 900 多种生物；Proteome Central 则作为访问门户，提供浏览和高级可视化功能。

PRIDE

Proteomics Identifications database（PRIDE；Vizcaíno et al. 2016）是一个 MS 数据仓库，其中包括实际 spectra（谱图），以及暂定的 peptide 和 protein identifications（肽段和蛋白质鉴定结果）和 PTM site assignments（翻译后修饰位点分配）。支持科学论文的数据可以在同行评审之前或评审过程中提交到 PRIDE，并被分配一个 PX accession number。论文发表后，这些数据会公开发布，并可使用所提供的 accession number 下载。

该数据库可以通过 PX accession、protein accession、PubMed accession 或 metadata 中包含的任意 keywords 进行查询。数据可以使用多种工具以多种格式存储：PRIDE Converter 工具可将上传的 MS spectra 和 identifications 转换为 PRIDE XML 格式；PRIDE Inspector 是一个 XML validator，用于在提交前验证数据格式；PRIDE Archive 网页可用于查询数据库；PRIDE Cluster 可根据相似性对仓库中的 spectra 进行分组，并可使用 peptide sequence 或 consensus spectrum 查询这些 clusters。此外，还可以下载物种特异性的 spectral libraries。

提交过程可以采用 complete submission（完整提交）的形式，即先将处理后的鉴定数据转换为 PRIDE 的 XML 格式。PRIDE 也支持 partial submissions（部分提交），此时需要提供 PSI de facto mzXML 格式，以及标准 mzML 或 mzIdentML；同时还必须包含所用搜索引擎对应的 peak list file。完整提交可确保处理后的数据被整合进 PRIDE，支持将处理结果直接与 mass spectra 连接起来，从而能够使用数据库的可视化工具进行质量评估。

PeptideAtlas

PeptideAtlas（Farrah et al. 2013）最初主要作为真核生物 peptide sequences 注释数据库而开发，但后来扩展为 proteomics 数据存储、交换和整合的框架。PeptideAtlas 会先使用 TPP 对 high-throughput data（高通量数据）进行重新处理，并采用严格的 FDR（false discovery rate，错误发现率）评估，然后再将得到的 peptide annotations 映射到 genomes。不同于 PRIDE 以研究者提交时的形式存储和呈现 peptide 与 protein identifications，PeptideAtlas 会进行统一的重新处理。

数据通过 PeptideAtlas 的提交界面上传后，重新处理后的数据会被组织为属于某个 proteome（或 sub-proteome）的 “builds”。PeptideAtlas 还提供统计验证工具，如 PeptideProphet 和 ProteinProphet，用于控制 false-positive identifications（假阳性鉴定）。现在，PeptideAtlas 已成为一个高度 curated（人工整理）的 protein expression database。近来，PeptideAtlas 也开始作为构建 spectral libraries 和 SRM 相关工具的资源，并且已经成为 PX consortium 的组成部分。

Global Proteome Machine + GPMdb

GPM 的开发目标，是整合快速增长的 proteomics 数据来源并从中提取信息，使其能够在 biomedical research（生物医学研究）中得到更广泛使用（Craig et al. 2004）。为实现这一目标，GPMdb 数据库被建立起来，以便学术共同体能够访问 MS2 data，并使用其流行的开源 X! search tools 套件进行 proteome-wide analysis（蛋白质组范围分析）。该套件包括 X! Tandem 和 X! Hunter。

自建立以来，GPM 已成为著名的 protein expression database，并持续通过获取 proteomics 数据仓库和接收用户提交来提供广泛内容。数据在存储前会被重新处理，以便对 peptide MS2 spectra、暂定 protein identifications 和 PTM mappings 进行严格验证；随后数据会被保存为 ASL XML 文件，并建立索引，存储在 MySQL 数据库中。

GPM 的 X! search engines 套件允许用户对自己的数据运行数据库搜索，同时保留将结果提交到 GPMdb annotated spectrum library 的选项。GPM 还允许用户使用 X! Hunter spectral library search engine 进行 spectral library searches，并通过 proteotypic peptide profiler X! P3 分析数据。

GPMdb 以可搜索界面的形式对数据库中的信息进行分类，包括：pYST，提供 PTMs 列表；SNAP，提供 protein amino acid polymorphisms（蛋白质氨基酸多态性）列表；MRM（Multiple Reaction Monitoring），列出在 MS2 实验中观察到的 peptides；以及 PEPTIDE，提供可下载的物种特异性 peptide sequences。所有 peptides 都会映射到 Ensembl genome database identifiers。

通过 GPM web interface 还可以使用其他方式进行搜索，包括 accession number、peptide sequence、chromosome location、keywords、Kyoto Encyclopedia of Genes and Genomes（KEGG）pathways、Gene Ontology（GO）terms、PTMs、protein amino acid polymorphisms、BRaunschweig ENzyme DAtabase（BRENDA）以及 tissue ontology。GPMdb 每日更新；截至 build 5600（June 2019），其数据覆盖约 8.29 亿个 proteins 和 86 亿个 peptides。例如，在 GPMdb 中某一特定 protein 被鉴定到的频率，可以作为一种间接置信度指标，用于衡量该 protein 在 MS2 实验中被鉴定到的可能性。

098

Protein/Proteomics Databases

PDF page 374-375；印刷页码 354-355

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Protein/Proteomics Databases

Protein/Proteomics Databases

蛋白质/蛋白质组学数据库

在大多数基于 MS 谱图搜索的蛋白质组学工作流中，另一类主要会访问的公共资源是蛋白质序列数据库。蛋白质组学数据与转录组学数据（第 10 章）或代谢组学数据（第 14 章）非常相似：研究最终会得到很长的蛋白质列表（蛋白质组学）、基因列表（转录组学）或代谢物列表（代谢组学），这些列表都需要进行比较、分析、注释和生物学解释。对于蛋白质组学而言，注释和解释过程需要访问全面的蛋白质序列与注释数据库。这些资源在数据驱动的生物学发现和假设生成中发挥着关键作用。

高通量蛋白质组学研究会产生海量 MS 谱图，这使得研究人员迫切需要经过严格人工审查和整理的数据库，以帮助他们将实验结果与已有知识建立联系。根据实验设计的不同，蛋白质组学策略通常会生成关于蛋白质定位、丰度和 PTMs（post-translational modifications，翻译后修饰）的信息，因此，这些数据库中的功能注释对于确立所鉴定蛋白质的生物学相关性至关重要。例如，通过对功能注释数据库进行 data mining，可以基于某个差异调控蛋白的相互作用伙伴的功能，推断该蛋白的功能，例如它在某条生物学通路中的作用；这些相互作用伙伴可能与该蛋白发生相互作用，或与其共定位。除 National Center for Biotechnology Information（NCBI）的 RefSeq（第 1 章）、Ensembl（第 4 章）和 Protein Data Bank（PDB；第 12 章）等知名数据库外，下面还将讨论若干与蛋白质组注释和推断相关的其他数据库。

UniProt

UniProt Consortium 是一个权威且全面的数据存储库，用于保存蛋白质序列的功能信息（第 1 章）。UniProt 是进行 MS 谱图搜索时所需蛋白质序列的首选数据库，因为它收录了研究充分的模式生物以及其他已完成全基因组测序的参考物种的蛋白质组层级蛋白质序列。UniProt 还包含 UniRef（参考序列聚类数据库）和 UniParc（序列归档库）。总体而言，UniProt 是一个信息丰富的资源，包含经过严谨推导的注释、分类学信息，以及定性的功能信息，例如蛋白质亚细胞定位、PTMs、通路和疾病关联，并链接到可用的相关交叉引用和大量文献引用。

UniProt 可用于查找目标蛋白的人工审定信息。例如，可以查询一个蛋白质的结构域组成、生物学功能、亚细胞定位、已知 PTMs、在某条生物学通路中的作用，或其根据同行评议论文所显示出的疾病相关性。UniProt 还可用于比较蛋白质序列，以确定相似的（同源的）蛋白质，并查看与这些蛋白相关的功能信息。

099

Selected Applications of Proteomics

PDF page 375-376；印刷页码 355-356

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Selected Applications of Proteomics

PTM 数据库

鉴于 PTM 在调控细胞过程中发挥着重要作用，并且研究界需要对 PTM 进行全面描述，dbPTM 数据库于 2006 年发布（Huang et al. 2019）。dbPTM 收录了从公共数据库中汇集的所有经实验验证的 PTM，以及 UniProt 数据库中的推定 PTM；它还提供了一个基于 Web 的门户，用于对这些信息进行整合访问，并提供 PTM 分析工具。经实验验证的子集已被证明是评估各种 PTM 预测工具预测能力的优秀基准。截至本文撰写时，该子集还已映射到所有相应的 PDB 条目，以定义 347 984 个推定修饰位点。dbPTM 还整合了与 PTM 网络相关的代谢通路信息和 protein–protein interactions（蛋白质—蛋白质相互作用）信息。当前版本的 dbPTM 包含 908 917 个非冗余、经实验验证的 PTM 实例，代表 34 种以上修饰类型，其中包括 571 032 个 phosphorylation sites（磷酸化位点）。

另一个高度人工整理的实验性哺乳动物 PTM 数据库是 PhosphositePlus（PSP）。PSP 于 2003 年推出，目前收录了 400 000 多个非冗余修饰位点，这些位点关联到 20 268 个蛋白质组和 240 万条肽段，覆盖从 21 000 多篇文献中获得的 14 种不同修饰类型。尽管 PSP 纳入了来自低通量研究的数据，但超过 95% 的 PTM 来自高通量数据，因此所获得的数据会使用统一的分析标准重新分析，只保留具有高概率的位点指派结果（p ≤0.05）。PSP 还包含关于推定修饰位点的结构拓扑和功能信息，并提供工具，用于从疾病、组织表达和结构域等蛋白质功能方面对 PTM 进行功能分析。

由于 PTM 在细胞信号传导和细胞过程调控中具有关键作用，蛋白质组学研究所鉴定出的 PTM 需要得到恰当解释，才能深入理解它们在疾病致因中可能发挥作用的重要性。因此，dbPTM 和 PSP 这类数据库为研究人员提供了宝贵资源，研究者可以利用它们对自己的发现进行基准比较。

Selected Applications of Proteomics

蛋白质组学的总体目标是研究 proteome（蛋白质组）的性质，并确定其在细胞周期、信号传导、细胞分裂或疾病等不同生理状态响应中反映出的变化。这些研究可大体归类为 differential proteomics（差异蛋白质组学）、functional proteomics（功能蛋白质组学）和 structural proteomics（结构蛋白质组学）策略（Figure 11.17）。

Differential Proteomics

Differential proteomics（差异蛋白质组学），或称 proteome-scale expression profiling（蛋白质组尺度表达谱分析），研究两种生理状态之间蛋白质表达模式的差异，例如正常状态与癌症状态之间的差异。在生物医学研究中，通常采用比较方法来鉴定在特定情境或特定疾病中显著上调或下调的蛋白质，用于研究细胞响应，作为 diagnostic biomarkers（诊断性生物标志物）或潜在 drug targets（药物靶点），并在分子水平上理解生物过程的机制基础。

差异蛋白质组学技术的实例包括：鉴定在影响糖尿病的代谢通路中控制葡萄糖响应性的一些重要调控系统的研究（Schuit et al. 2002）；发现 Alzheimer disease（阿尔茨海默病）中产生异常调控蛋白的基因（Butterfield et al. 2003）；以及鉴定参与进行性扩张型心肌病和心力衰竭的蛋白质（Gramolini et al. 2008）。

Functional Proteomics

Functional proteomics（功能蛋白质组学）是一个涵盖范围很广的术语，涉及许多不同研究领域，包括在变化条件下进行 protein identification（蛋白质鉴定）、abundance（丰度）和 turnover（周转）测量，以及 PTM mapping（PTM 作图）、protein localization（蛋白质定位）、interaction mapping（相互作用作图）和 functional inference（功能推断）等。

Figure 11.17 Proteomics. 蛋白质组学的广义分类，以及目前常见且正在开展的蛋白质组学研究的生物学应用。3D，three-dimensional（三维）。

例如，multi-protein complexes（多蛋白复合物）已知在细胞分子机器中发挥主要功能作用，因此，系统表征 protein–protein interactions 及其动态组装形成 macromolecular assemblies（大分子组装体）的过程，对于理解它们在驱动细胞信号网络和代谢通路中的作用至关重要。值得注意的是，如果一个未表征的多蛋白复合物亚基与具有已知功能注释的组分发生物理关联，则可以利用 “guilt-by-association”（关联归罪）或 “guilt-by-correlation”（相关归罪）原则推断其功能（Gavin et al. 2002; Krogan et al. 2006）。

PTM 在功能蛋白质组学中发挥着尤其重要的作用，因为它们会影响物理相互作用，从而决定蛋白质活性，例如依赖 PTM 的蛋白质和核酸结合；同时，PTM 还通过细胞内信号级联传递细胞外信号，或通过 protein phosphorylation/de-phosphorylation（蛋白质磷酸化/去磷酸化）事件驱动关键细胞过程，这些事件可触发细胞分裂、分化、凋亡，或代谢/合成代谢状态。

Structural Proteomics

以确定蛋白质在细胞中的位置和关联关系，以及它们在大分子复合物中的三维形状或结构为目标的蛋白质组学研究，称为 structural proteomics（结构蛋白质组学）。结构分析可以通过提供关于目标蛋白生化作用的线索来支持功能表征，这些线索来自关于生物活性和病理生理学意义的互补信息。传统蛋白质生物化学方法通常局限于单个蛋白质或蛋白质类别，但它们可以与无偏的 mass spectrometric techniques（质谱技术）结合，用于在不断扩大的尺度上研究蛋白质组装体的各种结构方面（Sinz 2014）。

Drug target identification（药物靶点鉴定）是结构蛋白质组学的另一项应用。在这一应用中，MS 用于鉴定胆活性小分子配体与其细胞蛋白质靶标之间的相互作用，并定义潜在的 drug binding site(s)（药物结合位点）以及 protein–ligand complex（蛋白质—配体复合物）的三维模型；这是更好地界定化合物 action mode（作用模式）和 structure–activity relationships（构效关系）的关键步骤，也有助于 “rational drug design”（理性药物设计）和药物发现过程（Djuric et al. 2016）。

100

Summary + Acknowledgments + Internet Resources + Further Reading + References

PDF page 376-382；印刷页码 356-362

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Summary + Acknowledgments + Internet Resources + Further Reading + References

Summary

与生物信息学的其他领域类似，蛋白质组学分析也使用复杂的数据分析流程和算法。为了获得最佳结果，必须仔细考虑所提交数据的质量以及所选择的参数。不存在一种在所有情形下都能完美工作的“one-size-fits-all”解决方案，多数软件工具都是针对特定任务而设计的。MS 数据的来源和质量同样至关重要，这也凸显出在开始任何分析之前，必须充分理解所研究的生物学问题。根据所使用的 MS 仪器类型、所生成数据的质量和类型，以及正在进行的实验表征类型，在实现最佳性能之前，需要仔细设定关键的数据库搜索工具参数（见 Table 11.2）。

Table 11.2 使用序列数据库搜索引擎时的标准搜索参数。

参数	SEQUEST	!X Tandem	MaxQuant
Enzyme	Trypsin	Trypsin	Trypsin
Number of missed cleavages	2	2	2
Peptide mass tolerance	0.5 Da	0.4 Da	4.5 ppm
Maximum number of modifications per peptide	3	10	5
Fixed modifications	Carbamidomethylation	Carbamidomethylation	Carbamidomethylation
Variable modifications	Oxidation, acetylation	Oxidation, acetylation	Oxidation, acetylation
Parent mass type	Monoisotopic mass	Monoisotopic mass	Monoisotopic mass
Fragment mass type	Monoisotopic mass	Monoisotopic mass	Monoisotopic mass
Minimum peptide length	6	6	7
Maximum peptide length	40	50	25
False discovery rate	0.01	0.01	0.01
Precursor mass tolerance	10 ppm	−2.0 to 4.0 Da	6 ppm
Fragment ion method	CID	CID	CID

CID，collision-induced dissociation，碰撞诱导解离。

在所有蛋白质组学实验与分析中，需要考虑的重要因素包括：

MS 仪器的正确校准（例如使用已知标准品）；
理解仪器预期的质量分辨率和质量准确度；
根据蛋白质酶解所使用的 protease，指定适当的蛋白水解切割规则；
记录 MS 数据采集（仪器）设置，例如：
所使用的电离和碎裂方法，以及每个 spectrum 中识别到的离子系列；
precursor 和 fragment ion 的质量、扫描范围以及匹配容差；
稳定同位素或多重电荷态的存在；
定义可变或预定义的翻译后修饰（post-translational modifications，例如 phosphorylation）或化学修饰（例如 acetylation）；
污染物种的存在，例如 trypsin 自溶产物、keratin 以及其他实验伪影；
为搜索选择参考蛋白序列数据库；
处理并测量每个 spectrum 的 signal-to-noise ratio。

充分理解这些参数如何影响搜索范围，并最终影响结果质量，是至关重要的。

一般而言，有两种方法可以确保结果质量。第一种方法是选择最佳参数设置，这可以通过系统性地改变搜索参数，直至获得令人满意的结果来实现。例如，将初始 MS 扫描范围从 375–1500 m/z 增加到 400–1800 m/z，可以改善 peptide coverage 和 signal to noise；通过纳入来自亲缘关系接近但注释更完善物种的 orthologs 来扩大搜索空间，也可以提供信息量更高的结果。另一种确保高质量搜索结果的策略，是整合多个程序的结果，以在最大化覆盖度的同时尽量减少 false positives。由于不同搜索引擎采用不同的评分方案，并会考虑输入数据的不同特征，一个算法可能检测到另一个算法遗漏的特征（Kwon et al. 2011）。

总体而言，决定 LC-MS/MS 研究中生物信息学分析成功与否的两个主要因素是：了解数据本身的性质，并牢记 protein identification 只是任何蛋白质组学分析工作流程中的第一步。我们相信，本章在这些方面提供了一些有益的指导。

Acknowledgments

作者感谢 Emili Lab（University of Toronto, Toronto, Canada；Boston University, Boston, MA, USA）成员提出的建设性意见，以及他们在汇编支持信息方面提供的帮助。我们还感谢 Carl White 和 Ruth Isserlin（University of Toronto），以及 Indranil Paul 和 Benjamin Blum（Boston University）分享他们的专业知识、睿智建议和关键见解，这些都极大地改进了本章内容。

Internet Resources

资源	URL
Crux	crux.ms
dbPTM	dbptm.mbc.nctu.edu.tw
Global Proteome Machine (GPM)	www.thegpm.org
GPM DB	ftp://ftp.thegpm.org/repos/peptides
GutenTAG	fields.scripps.edu/downloadfile2.php?name=GutenTag&filename=GutenTag.zip&id=3
Human Proteome Organization (HUPO)	www.hupo.org
Informed-Proteomics	github.com/PNNL-Comp-Mass-Spec/Informed-Proteomics
InsPecT	proteomics.ucsd.edu/Software/Inspect
iProX	iprox.org
jPOST	jpostdb.org
Lutefisk	www.hairyfatguy.com/lutefisk
MassIVE	massive.ucsd.edu/ProteoSAFe/static/massive.jsp
Mascot	www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF
MaxQuant	www.coxdocs.org/doku.php?id=maxquant:common:download_and_installation#download_and_installation_guide
MS-Align+	bix.ucsd.edu/projects/msalign
MSblender	github.com/marcottelab/MSblender
MS-GF+	omics.pnl.gov/software/ms-gf
MS PepSearch	chemdata.nist.gov/dokuwiki/doku.php?id=peptidew:mspepsearch
OpenMS	www.openms.de
PEAKS	www.bioinfor.com/download-peaks-studio
PepNovo+	proteomics.ucsd.edu/Software/PepNovo
PeptideAtlas	www.peptideatlas.org
PeptideProphet	peptideprophet.sourceforge.net
Percolator	percolator.ms
PRIDE	www.ebi.ac.uk/pride/archive
ProSight PTM	prosightptm.northwestern.edu
ProteinProphet	proteinprophet.sourceforge.net
ProteomeXchange	www.proteomexchange.org
ProteoWizard	proteowizard.sourceforge.net
Proteomics Standards Initiative (PSI)	www.psidev.info
SEQUEST	www.proteomicswiki.com/wiki/index.php/SEQUEST_installation_instructions
SIMS	emililab.med.utoronto.ca
Tide	noble.gs.washington.edu/proj/tide
TopPIC	proteomics.informatics.iupui.edu/software/toppic
TPP	tools.proteomecenter.org/software.php
UniProt	www.uniprot.org
X! Hunter	ftp://ftp.thegpm.org/repos/xhunter
X! Hunter ASL	ftp://ftp.thegpm.org/proteotypic_peptide_profiles
X! Tandem	ftp://ftp.thegpm.org/projects/tandem

References

Aebersold, R. and Mann, M. (2003). Mass spectrometry-based proteomics. Nature 422 (6928): 198–207.

Bauer, C., Cramer, R., and Schuchhardt, J. (2011). Evaluation of peak-picking algorithms for protein mass spectrometry. Methods Mol. Biol. 696: 341–352.

Butterfield, D.A., Boyd-Kimball, D., and Castegna, A. (2003). Proteomics in Alzheimer’s disease: insights into potential mechanisms of neurodegeneration. J. Neurochem. 86 (6): 1313–1327.

Cox, J., Neuhauser, N., Michalski, A. et al. (2011). Andromeda: a peptide search engine integrated into the MaxQuant environment. J. Proteome Res. 10 (4): 1794–1805.

Craig, R. and Beavis, R.C. (2004). TANDEM: matching proteins with tandem mass spectra. Bioinformatics 20 (9): 1466–1467.

Craig, R., Cortens, J.P., and Beavis, R.C. (2004). Open source system for analyzing, validating, and storing protein identification data. J. Proteome Res. 3 (6): 1234–1242.

Deutsch, E.W., Csordas, A., Sun, Z. et al. (2017). The ProteomeXchange consortium in 2017: supporting the cultural change in proteomics public data deposition. Nucleic Acids Res. 45 (D1): D1100–D1106.

Djuric, S.W., Hutchins, C.W., and Talaty, N.N. (2016). Current status and future prospects for enabling chemistry technology in the drug discovery process. F1000Research 5: 2426.

Eng, J., McCormack, A., and Yates, J. (1994). An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. J. Am. Soc. Mass Spectrom. 5: 976–989.

Farrah, T., Deutsch, E.W., Hoopmann, M.R. et al. (2013). The state of the human proteome in 2012 as viewed through PeptideAtlas. J. Proteome Res. 12 (1): 162–171.

Fenn, J.B., Mann, M., Meng, C.K. et al. (1989). Electrospray ionization for mass spectrometry of large biomolecules. Science 246 (4926): 64–71.

Fenyö, D. (1999). The biopolymer markup language. Bioinformatics 15 (4): 339–340.

Fenyö, D., Eriksson, J., and Beavis, R. (2010). Mass spectrometric protein identification using the global proteome machine. In: Computational Biology (ed. D. Fenyö), 189–202. Totowa, NJ: Humana Press.

Filiou Michaela, D., Martins-de-Souza, D., Guest Paul, C. et al. (2012). To label or not to label: applications of quantitative proteomics in neuroscience research. Proteomics 12 (4–5): 736–747.

Gaudet, P., Michel, P.A., Zahn-Zabal, M. et al. (2017). The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Res. 45 (D1): D177–D182.

Gavin, A.C., Bosche, M., Krause, R. et al. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature 415 (6868): 141–147.

Gerber, S.A., Rush, J., Stemman, O. et al. (2003). Absolute quantification of proteins and phosphoproteins from cell lysates by tandem MS. Proc. Natl. Acad. Sci. U.S.A. 100 (12): 6940–6945.

Gramolini, A.O., Kislinger, T., Alikhani-Koopaei, R. et al. (2008). Comparative proteomics profiling of a phospholamban mutant mouse model of dilated cardiomyopathy reveals progressive intracellular stress responses. Mol. Cell. Proteomics 7 (3): 519–533.

Gygi, S.P., Rist, B., Gerber, S.A. et al. (1999). Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat. Biotechnol. 17 (10): 994–999.

Halligan, B.D., Geiger, J.F., Vallejos, A.K. et al. (2009). Low cost, scalable proteomics data analysis using Amazon’s cloud computing services and open source search algorithms. J. Proteome Res. 8 (6): 3148–3153.

Henzel, W.J., Billeci, T.M., Stults, J.T. et al. (1993). Identifying proteins from two-dimensional gels by molecular mass searching of peptide fragments in protein sequence databases. Proc. Natl. Acad. Sci. U.S.A. 90 (11): 5011–5015.

Hsu, J.-L., Huang, S.-Y., Chow, N.-H., and Chen, S.-H. (2003). Stable-isotope dimethyl labeling for quantitative proteomics. Anal. Chem. 75 (24): 6843–6852.

Huang, K.-Y., Lee, T.-Y., Kao, H.-J. et al. (2019). dbPTM in 2019: exploring disease association and cross-talk of post-translational modifications. Nucleic Acids Res. 47 (D1): D298–D308.

Jennings, K.R. (1968). Collision-induced decompositions of aromatic molecular ions. Int. J. Mass Spectrom. Ion Phys. 1 (3): 227–235.

Karas, M. and Hillenkamp, F. (1988). Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons. Anal. Chem. 60 (20): 2299–2301.

Kelleher, N.L., Lin, H.Y., Valaskovic, G.A. et al. (1999). Top down versus bottom up protein characterization by tandem high-resolution mass spectrometry. J. Am. Chem. Soc. 121 (4): 806–812.

Kislinger, T., Rahman, K., Radulovic, D. et al. (2003). PRISM, a generic large scale proteomic investigation strategy for mammals. Mol. Cell. Proteomics 2 (2): 96–106.

Krogan, N.J., Cagney, G., Yu, H. et al. (2006). Global landscape of protein complexes in the yeast Saccharomyces cerevisiae. Nature 440 (7084): 637–643.

Kwon, T., Choi, H., Vogel, C. et al. (2011). MSblender: a probabilistic approach for integrating peptide identifications from multiple database search engines. J. Proteome Res. 10 (7): 2949–2958.

Little, D.P., Speir, J.P., Senko, M.W. et al. (1994). Infrared multiphoton dissociation of large multiply charged ions for biomolecule sequencing. Anal. Chem. 66 (18