Chapter 12

Protein Structure Prediction and Analysis

9 小节

101

Introduction to Protein Structures

PDF page 383；印刷页码 363

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Introduction to Protein Structures

Introduction to Protein Structures

蛋白质结构导论

在前几章中，我们已经看到，蛋白质可以很方便地表示和分析为字符字符串（序列）。事实上，今天我们所说的 bioinformatics（生物信息学）中，很大一部分都是基于使用计算机来操作、存储和比较序列或字符字符串。然而，需要记住的是，生物信息学领域并不只包括序列分析；今天生物信息学中许多最有趣、最令人兴奋的应用，实际上关注的是结构分析——有时也称为 structural bioinformatics（结构生物信息学）。事实上，生物信息学的起源实际上可以追溯到 structural biology（结构生物学）领域，因为许多最早的生物信息学程序以及最早的生物信息学数据库，都是为了存储、比较和分析蛋白质结构而开发的（Bernstein et al. 1977; Hagen 2000）。有趣的是，序列分析中使用的许多概念，例如归档（archiving）、比对（aligning）和可视化（visualizing），在结构分析中也有密切对应的概念。不过，由于蛋白质结构本身具有内在复杂性，对其进行分析还面临额外层面的挑战。

蛋白质也许是自然界中最复杂的化学实体。无论是大分子还是小分子，没有任何其他类型的分子能够表现出蛋白质所具有的形状、大小、表面特征和运动性的多样性。蛋白质本身如此复杂，以至于科学家们投入了大量努力，发展高效方法来测定其结构、可视化其形状、测量其运动、简化其描述、比较其折叠方式，并寻找潜在的结构共性。事实上，表征蛋白质结构这一挑战被认为非常重要；自 1960 年以来，已有十余项 Nobel Prize（诺贝尔奖）授予那些测定蛋白质结构或发展蛋白质结构表征方法的科学家。

本章旨在概述用于分析、归档、可视化、预测和评估蛋白质结构的生物信息学工具与数据库。本章分为八个部分：首先简要介绍蛋白质结构；随后简要回顾蛋白质结构是如何被测定的；接着总结蛋白质结构如何被描述；然后介绍主要的蛋白质结构数据库；再概述若干结构可视化工具；随后介绍用于结构预测的生物信息学工具；接着总结蛋白质可以如何被评估；最后说明蛋白质如何被分类和比较。

102

How Protein Structures are Determined

PDF page 383-387；印刷页码 363-367

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / How Protein Structures are Determined

How Protein Structures are Determined

蛋白质结构是如何测定的

Figure 12.1 提供了一个流程图，说明蛋白质结构如何被测定或“解析”（solved）。从该图可以看出，目前有三种实验技术可用于获得蛋白质原子分辨率（atomic resolution）水平的详细结构信息：X-ray crystallography、nuclear magnetic resonance（NMR）spectroscopy 和 electron microscopy。

Bioinformatics, Fourth Edition. Edited by Andreas D. Baxevanis, Gary D. Bader, and David S. Wishart.

Companion Website: www.wiley.com/go/baxevanis/Bioinformatics_4e

Figure 12.1

用于实验制备并解析（即测定）蛋白质三维（3D）结构的步骤流程图，所采用的实验技术包括 X-ray、nuclear magnetic resonance（NMR）和 cryogenic electron microscopy（cryo-EM）。

流程包括：

克隆并纯化蛋白质
测试结晶条件
制备衍生物
X-ray
NMR
Cryo-EM
测试 NMR 溶液条件
将样品冻结于玻璃态冰中
解析相位
拟合电子密度
生成结构
测量 H–H 距离
生成结构集合
可视化结构
分析结构
进行单颗粒分析
3D 重构
收集 X-ray 衍射数据
收集 2D 和 3D NMR 数据
收集多个颗粒的 EM 数据

所有蛋白质结构都必须从高度纯化的蛋白质出发进行测定；这些蛋白质随后可能被结晶（用于 X-ray crystallography）、置于特殊溶剂中（用于 NMR spectroscopy），或被冻结（用于 electron microscopy）。X-ray crystallography 是最早出现的方法，也是最精确的方法；NMR 出现时间稍晚，也是精确度最低的方法；electron microscopy 则是最新的方法。

在 X-ray crystallography 中，小型蛋白质晶体（尺寸小于 1 mm）会暴露在强 X-ray 束下。X-ray 的波长约等于一个原子的大小（1–2 Å，即 ångstrom，1 Å = 1 × 10−10 m），会被晶体中的蛋白质原子散射或衍射。由此产生的衍射图样通常表现为数以万计的微小斑点，这些斑点排列成复杂的圆形图案。衍射图样会记录在数字 X-ray 相机上。

衍射斑点的位置及其强度（以及一些相位信息）实际上已经足以让计算机计算出该衍射蛋白中所有重原子——碳、氮、氧、硫——的电子密度图。根据这张电子密度图，晶体学家利用已知的蛋白质序列确定所有原子的 x、y、z 坐标。需要注意的是，在 X-ray crystallography 中，尽管衍射图样来自晶体中数以万亿计的蛋白质分子，最终得到的却只是一个“平均”蛋白质分子的结构。

蛋白质晶体学在实验上具有挑战性，在计算上也很复杂，因此这里的简要概述远不能充分体现其全部内涵。关于蛋白质晶体学的优秀综述可见若干高质量教材（McCree 1999; Drenth 2006）。第一个蛋白质的 X-ray 结构（myoglobin）是在 20 世纪 50 年代末测定的（Kendrew et al. 1958）；自那时以来，已有超过 120 000 个蛋白质结构通过 X-ray 技术测定。

X-ray crystallography 可用于测定非常大的大分子结构（数百 kilodaltons，甚至包括 ribosomes 和 viruses），既包括细胞质蛋白，也包括膜结合蛋白。近年来，计算方法、机器人技术和仪器设备的进步（包括强大 synchrotrons 的使用）进一步增强了 X-ray crystallography 的能力，并大大加快了结构测定过程。在 20 世纪 70 年代，纯化、结晶并解析一个蛋白质结构通常需要 6–7 年；而现在，在少数情况下，这一过程最快可缩短至 6–7 天。因此，所有蛋白质结构中超过 90% 是通过 X-ray crystallography 测定的。

然而，X-ray crystallography 并非绝对可靠。正如其名称所示，crystallography 要求在一种“人工”的固态（晶体）环境中研究蛋白质，而这种环境并不类似于细胞或机体中正常的生理性（水相）环境。因此，由 X-ray crystallography 生成的结构常常会受到晶体堆积（crystal packing）和溶剂排除效应（solvent exclusion effects）的影响。同样，并非蛋白质的所有部分都能在 X-ray 结构中被观察到，尤其是高度可动的区域。因此，这些“模糊”区域可能存在解释空间，也可能被误解释。

还需要记住的是，蛋白质的 X-ray 结构通常是欠定的，特别是与小分子的 X-ray 结构相比更是如此。对于“好”的蛋白质结构，R factor（用于衡量计算结构与实验数据之间一致性的指标）通常为 0.25；而对于小分子，其 R factor 通常为 0.05。考虑到理论上最高的 R factor 为 0.59（对应完全错误的结构），可以得出这样的结论：即使是好的蛋白质结构也并非没有缺陷。实际上，许多蛋白质结构在原子位置上存在一些错误、模糊性或不准确性（±0.5 Å）并不罕见。同样，一个蛋白质结构缺失少数原子或残基也并不罕见。

与 X-ray crystallography 相比，NMR spectroscopy 是一种新得多的技术（第一个蛋白质结构于 1983 年被“解析”），并且在某种程度上也更加复杂。因此，对该技术的详细解释超出了本章范围。Cavanagh et al.（2006）撰写的教材中有关于蛋白质 NMR 的优秀概述。NMR 的独特之处在于，它允许研究液态或接近生理环境中的分子结构与动力学。

在 NMR spectroscopy 中，蛋白质结构的测定并不是通过测量 X-ray 如何被原子衍射，而是通过测量无线电波如何被原子核吸收，例如氢（1H）、同位素标记的碳（13C）或氮（15N）。这种吸收测量使研究者能够确定核磁性从一个原子（或原子核）转移到另一个原子（或原子核）的程度。在 NMR 中，这种磁化转移通过 chemical shifts、J-couplings 和 nuclear Overhauser effects（NOEs）进行测量。这些参数在单个氢原子上最容易观察到，并且必须通过复杂的多维 NMR 实验为尽可能多的蛋白质原子测定出来；这些实验通常带有一些颇具趣味性的缩写名称，例如 COSY、TOCSY、NOESY 和 HMQC。

一旦测得这些参数，它们便定义了一组近似的结构约束，可输入基于计算机的约束最小化计算中，例如 distance geometry 或 simulated annealing。其结果是一系列（15–50 个）相似的蛋白质结构，这些结构均满足实验约束。因此，与 X-ray 方法只产生一个结构不同，NMR 方法会生成多个结构；这些结构相互叠加或重合，形成所谓的“blurrograms”（Figure 12.2）。

Figure 12.2

Escherichia coli thioredoxin 结构集合的 nuclear magnetic resonance（NMR）“blurrogram”示例（Protein Data Bank database identifier: 4TRX）。该图表示 E. coli thioredoxin 的 33 个近乎相同的结构的叠合，这些结构满足全部（或几乎全部）已测得的 NMR 约束。

NMR 结构测定工作的质量通常由这些叠合结构彼此匹配的紧密程度来表示，其中 root mean square deviation（RMSD）值 <1 Å 通常提示结构质量较好，而 RMSD 值 >2 Å 则通常见于测定质量较差的结构（Box 12.1）。有趣的是，这些 blurrogram 结构可能更能反映蛋白质在溶液中的真实行为，因为大多数蛋白质似乎都以一组略有差异的构象集合形式存在。

Box 12.1 The Meaning of RMSD

Box 12.1 RMSD 的含义

蛋白质序列比对通常用 expect（E）value、bit score 或 percent identity 进行评价。对于结构比较或结构比对，常使用一种称为 root mean square deviation（RMSD）的指标进行评分；有趣的是，RMSD 实际上是 standard deviation 的一个古老术语。换句话说，RMSD 的计算方式与标准差相同。

当两个结构叠合之后，首先计算 Cα 原子之间距离差值（单位为 ångstroms，即 Å）的平方和，再除以所比较的原子数。该数值的平方根称为 RMSD，通常以 ångstroms 为单位报告。当叠合的结构超过两个时，例如 NMR 结构集合，通常先计算该集合的一个假想平均结构，然后再计算相对于这一平均结构的距离差值之和。

NMR spectroscopists、structure modelers 和 X-ray crystallographers 在比较结构集合、考察相关结构或表征结构家族时，经常使用 RMSD 值。Table 12.1 给出了一个粗略指南，用于说明某一 RMSD 值对于 NMR 结构质量意味着什么。表格第二列则给出了类似的定性指南，用于说明 RMSD 值在结构相似性方面的含义。

Table 12.1

backbone root mean square deviation（RMSD，单位为 ångstroms）与 nuclear magnetic resonance（NMR）结构集合的结构质量（第 1 列）以及蛋白质结构比较（第 2 列）之间的关系。

RMSD (Å)	NMR comment	Structure comparison comment
>12	Random coil	Completely unrelated
7.0	Major problems	Dubious relationship
5.0	Not quite converging	May be structurally related
4.0	Poor fit	Good structural relationship
2.0	Converging	Closely related
1.5	Barely acceptable	Very closely related
0.8	Typical NMR structure	Differences are not obvious
0.4	Best case NMR structure	Essentially indistinguishable

由于不需要晶体这一实验条件，NMR 样品制备本质上比 X-ray 样品制备更容易。此外，由于 NMR 是基于液体的系统，NMR 结构更可能类似于细胞或机体正常生理性（液态）环境中的结构。然而，NMR 常受到被研究分子大小的限制（实际可行的上限约为 40 kDa）、分子溶解性的限制（膜蛋白无法研究），以及对特殊同位素标记分子的需求限制（成本较高）。此外，NMR 结构在本质上不如 X-ray 结构精确。

持续的计算和仪器改进已经使 NMR 比以往更容易、更快速。事实上，现在可以在数周内测定一个蛋白质的 NMR 结构。已知蛋白质结构中约 10% 是通过 NMR 测定的。

结构生物学家工具箱中最新加入的方法是 cryogenic electron microscopy（cryo-EM，或 three-dimensional [3D] cryo-EM）。与 NMR spectroscopy 或 X-ray 相比，cryo-EM 是近年来才加入结构测定领域的重要技术。

103

How Protein Structures are Described

PDF page 387-393；印刷页码 367-373

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / How Protein Structures are Described

How Protein Structures are Described

低温电镜（cryo-EM）与 X 射线晶体学、核磁共振（NMR）波谱学不同。后两者都属于“间接”方法，需要借助复杂的数学方法，将复杂的 X 射线衍射数据或 NMR 吸收数据转换为结构信息；而 cryo-EM 是一种直接技术。换句话说，所见即所得。对原子结构进行直接可视化一直是结构生物学家的梦想，而 cryo-EM 现在提供了实现这一目标的可能性。在 cryo-EM 中，蛋白质样品会在水中被快速冷冻（形成玻璃态冰，vitreous ice），随后置于强电子束下，电子波长为 1–2 Å。通过使用新开发的电子光学元件——相位板（phase plates）、更好且更灵敏的检测系统、非常快速的“定格”式数据采集方法，以及复杂的图像平均处理，现在已经能够相当常规地以原子级分辨率测定蛋白质结构（Bai et al. 2015）。cryo-EM 的样品制备比 X 射线晶体学的样品制备容易得多，而且 cryo-EM 结构很可能更接近细胞正常液体环境中的结构。与 NMR 波谱学类似，cryo-EM 也受到所研究分子大小的限制——只是限制方向相反。较大的蛋白质（>100 kDa）更受青睐，因为小分子通常太小而难以观察到（尽管这一情况正在改变）。除大小限制之外，cryo-EM 的限制相对较少。事实上，有些 cryo-EM 结构现在甚至比 X 射线结构测定得更加精确。虽然目前已知蛋白质结构中只有 1% 是通过 cryo-EM 解析的，但计算方法和仪器设备的快速改进，正在使利用 cryo-EM 测定蛋白质结构成为许多结构生物学家的首选途径。事实上，2017 年诺贝尔化学奖授予 Jacques Dubochet、Joachim Frank 和 Richard Henderson，以表彰他们“发展了用于溶液中生物分子高分辨率结构测定的低温电子显微镜”。

How Protein Structures are Described

如今，描述蛋白质结构最常用的方法称为层级法（hierarchical method）。在这一模式中，蛋白质被看作具有不同“层次”的结构，而且这些层次的复杂程度逐级增加（Figure 12.3）。最简单的层次称为一级结构（primary structure）。根据定义，蛋白质的一级结构就是其氨基酸序列。当然，蛋白质并不只是印在纸上的字母。实际上，蛋白质由不同组合的氨基酸通过肽键共价连接而成。所形成的聚合物在很大程度上表现出与其他多数聚合物类似的链状柔性和行为。然而，每个肽键具有部分双键性质，不同氨基酸侧链具有不同的化学性质，再加上这些侧链带来的空间位阻限制，意味着蛋白质不会（或不能）以一条完全伸展的氨基酸长链形式存在。换言之，蛋白质天然倾向于折叠并形成更复杂的结构。

MVLSPADKTNVKAAWGKVGA
HAGEYGAEALERMFLSFPTT
KTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNA
LSALSDLHAHKLRVDPVNFK

Figure 12.3 蛋白质结构的不同层次示意图，展示了血红蛋白的：（a）一级结构；（b）二级结构；（c）三级结构；以及（d）四级结构。

结构层级中的下一层称为二级结构（secondary structure）（Figure 12.3b）。二级结构定义为蛋白质中由序列上相邻的组成部分形成的、具有重复氢键模式的形状或亚结构。最常见的蛋白质二级结构包括螺旋（约占全部残基的 ∼35%）和 β-折叠片（beta-pleated sheets，约占全部残基的 ∼25%）。这两类二级结构最初均由 Linus Pauling 在 20 世纪 50 年代预测提出（Corey and Pauling 1953）。这些结构的特征是具有规则的氢键模式，并且这种模式会连续保持三个或更多残基。除这两种非常常见的二级结构形式外，还有若干种丰度较低但仍然重要的二级结构，包括 β-转角（beta turns，即链的急剧反转）、Ω 环（omega loops，其特征是环的形状类似希腊字母 omega [Ω]）以及 3/10 螺旋。总体而言，这五类二级结构通常可以通过人工或自动方式分配给蛋白质中约 55–65% 的氨基酸（Willard et al. 2003）。其余未分类或无法分类的亚结构通常称为无规卷曲（random coil），或者更准确地说，称为无结构区域（unstructured regions）。

通过将不同片段的二级结构组装在一起，可以形成完整的蛋白质结构。这种由不同二级结构成分组装而成的结构称为三级结构（tertiary structure）（Figure 12.3c）。三级结构只是蛋白质三维结构的另一种说法。与二级结构不同，三级结构主要由多肽链远距离部分之间的疏水相互作用决定或介导。与二级结构一样，三级结构也可以划分为若干不同类别或分组。这些类别是由训练有素的结构生物学家和生物信息学家仔细考察数千个 X 射线结构和 NMR 结构后识别出来的。最简单的三级结构分类方案依据不同二级结构元件的相对含量（Levitt and Chothia 1976）。这种分类包括全 α 类（all-alpha，>50% 螺旋；<10% β-折叠片）、全 β 类（all-beta，>30% β-折叠片；<5% 螺旋）以及混合类或 α/β 类（其他所有情况）。还有更精细的三级结构分类方案，它们会考虑大量非同源蛋白质中常见的拓扑结构、基序或折叠。常见的三级折叠包括 α/β 桶（α/β barrel，如 superoxide dismutase）、四螺旋束（four-helix bundle，如 cytochrome C550）、希腊钥匙折叠（Greek key，如 immunoglobulins）、E-F 手（E-F hand，如 calcium binding proteins）、锌指（zinc finger）等。Figure 12.4 展示了这些蛋白质折叠的一些例子。在迄今已解析的 120 000 个蛋白质结构中，已经识别出约 1200–1300 种不同的“折叠”。特别有趣（也令人兴奋！）的是，这一数量非常接近预测的所有生物学可行蛋白质折叠数量，即大约 1500 种（Levitt 2007; Schaeffer and Daggett 2011）。这表明，我们距离建立某种蛋白质结构或亚结构的“元素周期表”可能已经不太遥远。

Figure 12.4 不同类型蛋白质折叠的例子，包括：（a）四螺旋束；（b）α–β 桶；（c）免疫球蛋白折叠。

三级结构层次之上还有所谓四级结构（quaternary structure）（Figure 12.3d）。四级结构是指两个或多个独立的三级结构组装成更大的超结构，例如胰岛素的两条链、血红蛋白的四条链，或细菌核糖体中的 50 多条肽链。许多蛋白质必须形成四级复合物才能发挥功能，因此，理解或识别四级结构是理解蛋白质–蛋白质相互作用的关键（见 Chapter 13）。

蛋白质结构几乎总是使用一种称为 Protein Data Bank（PDB）格式的标准格式，以组成原子的笛卡尔坐标（即 x,y,z 坐标）来描述（Box 12.2）。X 射线结构文件和 cryo-EM 结构文件通常只包含重原子（C、N、O 和 S）的坐标，而 NMR 结构文件通常既包含重原子，也包含与其相连的氢原子。大多数蛋白质数据文件会包含数千个原子，因此也包含数千行记录，以及与每个原子相关的数千个坐标位置。由于所有蛋白质都由氨基酸组成，每种氨基酸中每个原子的几何构型相对标准——也就是说，每个原子相对于其他每个原子都有明确的键长或键角（Figure 12.5）。如图所示，每个氨基酸由一个氮（N）原子与一个中心碳原子（Cα）相连构成，其中 N–Cα 键长为 1.47 Å。同样，Cα 原子与羰基碳原子（C）之间的距离为 1.53 Å，而羰基碳（C）与其氧原子（O）之间的距离为 1.24 Å。中心 Cα 原子还连接一个中心氢原子（Hα），距离为 1.00 Å，并连接一个侧链碳（R 或 Cβ），距离为 1.56 Å。肽键中的 N–C 键长度始终为 1.32 Å。由于这种几何一致性，实际上可以用内坐标或内部角度来描述蛋白质结构，而不必使用笛卡尔坐标。内坐标是不需要原点、也不由原点定义的坐标。通过使用一类称为“二面角”（dihedral angles）的平面角（Figure 12.5）——也称为扭转角（torsion angles）——可以紧凑地描述蛋白质结构的主链或总体拓扑。两个最重要的主链二面角分别是由某个氨基酸残基的 H、N、Cα 和 Hα 原子定义的角（称为 phi 或 φ），以及由该氨基酸残基的 Hα、Cα、C 和 O 原子定义的角（称为 psi 或 ψ）。换言之，φ 角沿 N–Cα 键定义，而 ψ 角沿 Cα–C 键定义。蛋白质中的每个残基都可以由一个 φ 角和一个 ψ 角定义。因此，整个蛋白质主链可以由该蛋白质中所有残基的全部 φ/ψ 角集合来定义。

Figure 12.5 标准氨基酸残基和肽键几何构型示意图。图中显示了典型键长以及标准主链二面角。

Box 12.2 PDB Format

蛋白质结构文件的标准格式称为 Protein Data Bank（PDB）格式（Figure 12.6）。这是一种机器和人类均可读取的格式，允许将蛋白质、提交者、序列、二级结构以及 x,y,z 坐标等信息存储起来，并由计算机读取。PDB 格式相当古老，反映了 20 世纪 70 年代末 PDB 建立时的计算技术状态。因此，PDB 文件中的每一行都必须有一个七个字母或更短的标签，后面跟随精确数量的空格，然后再跟随与该标签相关的信息（全部使用大写字母）。每个 PDB 文件的结构几乎完全相同，最开始的若干行带有 HEADER、CMPND、SOURCE、AUTHOR 或 JRNL 标签，其中 HEADER 分别提供蛋白质功能、PDB ID 和提交日期；CMPND 提供蛋白质名称；SOURCE 提供来源生物；AUTHOR 列出作者；JRNL 列出发表该结构的期刊。下一组行带有 REMARK 标签，主要以自由格式提供关于分辨率、R 因子（一种质量指标）、解析结构所使用的方法、不对称单元中的分子数等附加细节。序列信息以 SEQRES 标签给出，并使用现在已经较为古旧的三字母氨基酸代码；随后是 HET 和 FORMUL 标签，用于表示异原子（结构中发现的非氨基酸部分）的名称和化学式。由提交者识别的二级结构则由 HELIX、SHEET、TURN 和 SSBOND 标签表示。

这些最前面的约 100 行构成了 PDB 文件的“header”，为蛋白质及其结构质量提供了有用的概览。PDB 文件中的下一组行提供原子坐标。这些行始终以 ATOM 标签标识。每个 ATOM 标签后最多跟随 10 列文本和数字，包括原子编号、原子标签（CA = alpha carbon，C = carbonyl carbon 等）、残基名称（三字母代码）、链编号或链字母、残基编号、X 坐标（单位为 ångstroms）、Y 坐标（单位为 ångstroms）、Z 坐标（单位为 ångstroms）、占有率（通常为 1.00）以及热 B 因子（thermal B factor，一种流动性指标）。

虽然 PDB 格式通常便于人类阅读，但对计算机而言可能相当令人困惑。例如，许多 PDB 文件在标记、编号和格式上经常存在例外和变体，尤其是 1995 年以前提交的文件。此外，读取 PDB 格式文件的程序必须内置一定的化学知识——也就是说，必须知道（或推断）原子之间的连接和键合关系，因为 PDB 文件并不提供这类连接信息。另外，也不存在一个正式的数据字典来描述书写或读取 PDB 文件的全部规则。这使得编写用于处理、分析和查看 PDB 文件的程序成为一项相当具有挑战性的工作。

鉴于 PDB 格式存在不一致、非正式和古旧等特点，过去曾有多种努力试图校正 PDB 文件，或将其迁移到更一致、更现代的文件格式。在过去若干年中，PDB 一直在内部使用一种称为 mmCIF 的格式存储文件。mmCIF 是 macromolecular Crystallographic Information File 的缩写，它基于小分子晶体学家使用的 CIF 格式（Hall et al. 1991）。mmCIF 格式是一种简单而一致的数据表示形式，用于交换和归档结构数据，并得到多个国际机构认可。自 2011 年起，PDB 现在以 PDBML/XML 格式维护其全部数据。PDBML 代表 PDB Markup Language（Westbrook et al. 2005）。这种较新的格式按照 PDBx/mmCIF Exchange Data Dictionary，以 XML 格式表示 PDB 数据。然而，由于已经有大量软件包被编写出来用于处理 PDB 格式文件，而用于处理 PDBML 的软件包相对较少，因此传统 PDB 格式很可能还会在很长很长一段时间内继续存在。

HEADER    ELECTRON TRANSPORT                         19-MAR-90   2TRX
COMPND    THIOREDOXIN
SOURCE    (ESCHERICHIA $COLI)
AUTHOR    S.K.KATTI,D.M.LE*MASTER,H.EKLUND
JRNL      AUTH   S.K.KATTI,D.M.LE*MASTER,H.EKLUND
JRNL      TITL   CRYSTAL STRUCTURE OF THIOREDOXIN FROM ESCHERICHIA
JRNL      TITL 2 $COLI AT 1.68 ANGSTROMS RESOLUTION
JRNL      REF    J.MOL.BIOL.                  V. 212   167 1990
JRNL      REFN   ASTM JMOBAK  UK ISSN 0022-2836
REMARK    2
REMARK    2 RESOLUTION. 1.68 ANGSTROMS.
REMARK    3
REMARK    3 REFINEMENT. BY THE RESTRAINED LEAST-SQUARES PROCEDURE OF J.
REMARK    3   KONNERT AND W. HENDRICKSON AS MODIFIED BY B. FINZEL
REMARK    3   (PROGRAM *PROFFT*). THE R VALUE IS 0.165 FOR 25969
REMARK    3   REFLECTIONS IN THE RESOLUTION RANGE 8.0 TO 1.68 ANGSTROMS
REMARK    3   WITH FOBS .GT. 3.0*SIGMA(FOBS)
SEQRES    1 A  108  SER ASP LYS ILE ILE HIS LEU THR ASP ASP SER PHE ASP
SEQRES    2 A  108  THR ASP VAL LEU LYS ALA ASP GLY ALA ILE LEU VAL ASP
SEQRES    3 A  108  PHE TRP ALA GLU TRP CYS GLY PRO CYS LYS MET ILE ALA
SEQRES    4 A  108  PRO ILE LEU ASP GLU ILE ALA ASP GLU TYR GLN GLY LYS
SEQRES    5 A  108  LEU THR VAL ALA LYS LEU ASN ILE ASP GLN ASN PRO GLY
SEQRES    6 A  108  THR ALA PRO LYS TYR GLY ILE ARG GLY ILE PRO THR LEU
SEQRES    7 A  108  LEU LEU PHE LYS ASN GLY GLU VAL ALA ALA THR LYS VAL
SEQRES    8 A  108  GLY ALA LEU SER LYS GLY GLN LEU LYS GLU PHE LEU ASP
SEQRES    9 A  108  ALA ASN LEU ALA
HET       MPD   606       8  2-METHYL-2,4-PENTANEDIOL
HET       MPD   607       8  2-METHYL-2,4-PENTANEDIOL
HET       MPD   608       8  2-METHYL-2,4-PENTANEDIOL
FORMUL    3     CU    2(CU1 ++)
FORMUL    4     MPD   8(C6 H14 O2)
FORMUL    5     HOH   *140(H2 O1)
HELIX     1 A1A SER A   11  LEU A   17  1 DISORDERED IN MOLECULE B
HELIX     2 A2A CYS A   32  TYR A   49  1 BENT BY 30 DEGREES AT RES 39
HELIX     3 A3A ASN A   59  ASN A   63  1
HELIX     4 31A THR A   66  TYR A   70  5 DISTORTED H-BONDING C-TERMINS
HELIX     5 A4A SER A   95  LEU A  107  1
HELIX     6 A1B SER B   11  LEU B   17  1 DISORDERED IN MOLECULE B
SSBOND    1 CYS A   32  CYS A   35
ATOM      1  N   SER A   1      21.389  25.406  -4.628  1.00 23.22
ATOM      2  CA  SER A   1      21.628  26.691  -3.983  1.00 24.42
ATOM      3  C   SER A   1      20.937  26.944  -2.679  1.00 24.21
ATOM      4  O   SER A   1      21.072  28.079  -2.093  1.00 24.97
ATOM      5  CB  SER A   1      21.117  27.770  -5.002  1.00 28.27
ATOM      6  OG  SER A   1      22.276  27.925  -5.861  1.00 32.61
ATOM      7  N   ASP A   2      20.173  26.028  -2.163  1.00 21.39
ATOM      8  CA  ASP A   2      19.395  26.125  -0.949  1.00 21.57
ATOM      9  C   ASP A   2      20.264  26.214   0.297  1.00 20.89
ATOM     10  O   ASP A   2      19.760  26.575   1.371  1.00 21.49
ATOM     11  CB  ASP A   2      18.439  24.914  -0.856  1.00 22.14
ATOM     22  CE  LYS A   3      21.620  21.104   2.844  1.00 25.84
ATOM     23  NZ  LYS A   3      20.830  20.757   1.615  1.00 25.55

Figure 12.6 一个 Protein Data Bank 格式文件示例，显示了 Escherichia coli 硫氧还蛋白条目（Protein Data Bank database identifier: 2TRX）的前约 50 行。

有趣的是，如果将这些 φ/ψ 扭转角绘制出来（针对已知蛋白质结构），其中 φ 位于水平轴（X 轴），ψ 位于垂直轴（Y 轴），就可以观察到清晰的分布模式（Figure 12.7）。这种图称为 Ramachandran plot（Ramachandran et al. 1963），由印度晶体学家 Gopalasamudram Narayana Ramachandran 开发。Ramachandran plot 中的空白区域（约占图面积的 ∼75%）表示由于氨基酸侧链的空间冲突，这些扭转角无法被采用。当氨基酸残基的扭转角位于 Ramachandran plot 的左上象限（中心约为 φ = −120°、ψ = 120°）时，它们处于 β 链中。当氨基酸位于左下象限（中心约为 φ = −60°、ψ = −40°）时，它们处于 α 螺旋中。Ramachandran plot 在评估蛋白质结构质量方面具有相当大的用途。通过研究大量高质量结构并考察其 Ramachandran plot，人们发现非常好的结构会表现出非常紧密的聚类模式，而且只有相对很少的残基会落在这些紧密聚类或“允许”的二面角区域之外（Laskowski et al. 1993）。如果一个蛋白质结构中有较高比例（>15%）的非甘氨酸残基位于不允许区域，那么该结构几乎必然会被认为是低质量结构。由于 Ramachandran plot 既有用又简单，许多蛋白质结构软件包现在都将其作为结构可视化和评价工具的一部分（Laskowski et al. 1993; Willard et al. 2003）。

Figure 12.7 硫氧还蛋白（Protein Data Bank database identifier: 2TRX）的 Ramachandran plot，由程序 VADAR 生成（Willard et al. 2003）。图中的每个黑点对应蛋白质中的一个残基。方形对应位于“allowed”或“core”区域的残基，三角形对应甘氨酸残基，“X”对应位于“disallowed”区域的残基（见图例）。“core boundaries”或图中的红色区域界定了 Ramachandran plot 中在高质量结构里约 ∼85% 残基应当出现的区域。“allowed boundaries”（绿色区域）界定了图中约 ∼10% 残基应当出现的部分。落在“generously allowed boundaries”（黄色区域）或该区域之外的残基，提示这些残基可能存在严重空间位阻问题。甘氨酸残基（以“X”标记）是例外，因为它们可以出现在图中的任意位置。

虽然蛋白质结构可以用扭转角来描述，但大多数表示方式仍然使用笛卡尔坐标。然而，需要记住的是，蛋白质并不只是由具有点状 x,y,z 坐标的点状原子组成。事实上，原子和氨基酸会占据空间或体积。因此，蛋白质具有体积和形状。这些形状也具有表面（包括外部表面和内部表面），而表面由表面积定义。这些表面相当粗糙且盘曲复杂，正是这种表面“粗糙性”赋予了蛋白质独特性质，包括其配体结合位点或蛋白质相互作用位点。并非所有蛋白质表面都能被其他分子或其他原子接触到，因此蛋白质表面通常用所谓可及表面积（accessible surface area, ASA）来定义（Richards 1977）。由于氮原子和氧原子也携带部分电荷，蛋白质的原子表面也可以具有正电性。

104

Protein Structure Databases

PDF page 393-397；印刷页码 373-377

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Protein Structure Databases

Protein Structure Databases

蛋白质结构数据库

373

……或带负电荷，这些电荷会吸引相反电荷，或排斥相同电荷。不带电的原子（如 C）通常具有疏水性，而疏水原子之间往往会相互吸引。在思考蛋白质如何发挥功能以及如何折叠时，这种“体积式”（volumetric）、空间填充（space-filling）的蛋白质视图非常重要。关于蛋白质如何进行渲染和观察的更多细节，将在……中介绍。

105

Visualizing Proteins

PDF page 397-401；印刷页码 377-381

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Visualizing Proteins

Visualizing Proteins

其他结构数据库

PDB 并不是唯一的结构数据存储库。事实上，还有若干二级结构数据库或经过人工整理的结构数据库，它们从 PDB 获取原始数据，并对这些数据进行整理、加工，或与其他数据结合，从而构建出一些非常有用的资源。其中规模最大、最有用的两个数据库包括 Molecular Modeling Database（MMDB）和 Proteopedia。

MMDB

MMDB 是 National Center for Biotechnology Information（NCBI）的三维结构数据库（Madej et al. 2014）。MMDB 已完全整合到 NCBI 数据库系统中，支持跨所有 NCBI 数据库的检索，并可直接链接到 NCBI Protein Database、Conserved Domain Database（CDD）以及 PubChem。

MMDB 提供了多种有用功能，包括一种专门的序列到结构检索功能，称为 Cn3D Basic Local Alignment Search Tool（CBLAST）；Inferred Biomolecular Interactions Server（IBIS）；预先计算的 Vector Alignment Search Tool（VAST+）；结构邻近项（structural neighbors）；以及 Cn3D 可视化工具（既有可下载程序版本，也有 JavaScript 版本；见第 2 章）。

关于某一给定蛋白质的结构信息，可以通过 MMDB 的 Structure Summary 页面访问。该页面会显示蛋白质结构的静态图像、蛋白质与核苷酸及化学分子相互作用的示意图（通过 IBIS 提供）、其 CDD 链接、通往 iCn3D 交互式查看器的直接链接，以及指向由 VAST+ 判定的相似结构的超链接。

MMDB 中存储的数据每天从 PDB 上传，并检查坐标数据与序列数据之间是否完全一致；必要时会进行校正，随后再映射到 NCBI 的 ASN.1（Abstract Syntax Notation）格式。MMDB 是一个很好的例子，说明来自 PDB 的开放结构数据如何经过修改或定制，以丰富其内容，并让所有用户受益。

Proteopedia

Proteopedia（Hodis et al. 2008）本质上是一个面向蛋白质的 Wikipedia。Proteopedia 最初被构想为一种 wiki 网络资源，用于以用户友好的方式向尽可能广泛的受众展示蛋白质结构/功能信息。

每个 Proteopedia 页面都包含嵌入式、可动画显示的三维结构（可通过 JSmol 查看），周围配有说明文字；这些文字中包含超链接，点击后可以改变嵌入式三维结构图像的显示方式，包括视角、缩放动画、表示方式、颜色和标签等。

到目前为止，Proteopedia 已经撰写了超过 100 000 个页面，其中一些注释较完善的条目包含数千字内容（很像高质量的 Wikipedia 页面），涵盖蛋白质的功能、相关性或历史、已知疾病关联、结构或结构亮点、研究应用、相关 PDB 结构链接，以及大量参考文献。

在许多较高质量条目中，点击嵌入于文本中的超链接，会启动一段简短的动画“演示”，用于说明正文中解释的概念。Proteopedia 的百科全书式设计使蛋白质结构更加易于接近，并且相比 PDB 或 MMDB 这类数据库，甚至相比科学文献，通常能够为特定蛋白质提供显著更多的背景信息或入门性说明。通过采用 wiki 风格的方法，Proteopedia 也能够动员科学共同体撰写并分享其关于特定蛋白质或重要蛋白质的丰富知识，使所有人受益。

蛋白质可视化

如 Box 12.2 所述，蛋白质坐标文件本身看起来相当乏味。它们只是 x、y、z 坐标的列表，并不会提供任何视觉线索来说明这个分子或这些分子实际看起来是什么样子。在计算机可视化软件出现之前，结构生物学家……

106

Protein Structure Prediction

PDF page 401-406；印刷页码 381-386

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Protein Structure Prediction

Protein Structure Prediction

DeepView 功能十分丰富，但它并不是最易上手的软件包，尤其对初学者而言更是如此。尽管如此，University of Southern Maine 的 Dr. Gale Rhodes 编写了一份非常优秀的教程，为初学者学习使用这一出色的可视化与建模软件包提供了很好的起点。此外，也有若干 YouTube 教程可供参考。DeepView 一个特别吸引人的特性，是它能够导出与免费 ray-tracing（光线追踪）软件包 POV-Ray（Persistence Of Vision – Ray Tracing）兼容的文件。POV-Ray 使更具艺术创作倾向的建模者能够生成令人惊艳的蛋白质及蛋白质复合物图像，这些图像不仅适合艺术画廊展示，甚至可用于期刊封面（Figure 12.11）。

虽然本章只介绍了少数几种可视化程序，但需要指出的是，目前已有数十种可免费获得的生物大分子可视化程序可以在网上找到。选择最合适的软件在很大程度上取决于个人需求，这有点类似于选择一台计算机或购买一部手机。易用性、稳定性、平台兼容性以及功能都是重要的考虑因素。无论选择哪一种程序，都应始终牢记：可视化软件的核心作用，是生成能够以视觉上令人愉悦的方式传达重要科学信息的图像。花时间制作高质量图像，并针对具体任务选择合适的软件，会极大影响所要传递的信息效果。请记住：“一图胜千言。”

Protein Structure Prediction

自从第一个蛋白质结构被测定以来，计算生物学家和计算化学家就一直试图开发能够仅以蛋白质序列为输入来预测其三维结构的软件。事实上，最早的一些生物信息学程序就是为了解决“蛋白质折叠问题”（protein folding problem）而编写的（Gibson and Scheraga 1967; Chou and Fasman 1974）。尽管这一领域已有 50 多年的历史，蛋白质结构预测仍然是生物信息学研究中的活跃方向，每年都有大量相关论文发表。令人鼓舞的是，该领域已经取得了一定进展，现在至少可以使用三种不同方法来预测或建模蛋白质的三维结构：同源建模（homology modeling，或 comparative modeling，比较建模）、threading（或 fold recognition，折叠识别）以及 ab initio methods（从头预测方法）。这三类方法本质上都属于预测性方法，也就是说，它们生成的是模型，而不是基于 X-ray diffraction（X 射线衍射）、cryo-EM（冷冻电镜）或 NMR（核磁共振）实验得到的原始实验数据。相反，这些预测方法都试图基于已有的蛋白质结构知识，并将这些原理外推，用于生成新的结构。

Homology Modeling

在目前可用的三种预测方法中，最强大且最准确的方法是同源建模（Marti-Renom et al. 2000）。同源建模（或比较建模）是一种稳健的技术，可根据 PDB 中已知同源蛋白的坐标来“预测”或生成蛋白质的详细三维结构。在同源建模中，模型质量强烈依赖于查询序列与匹配数据库序列之间的相似程度；序列相似性最高的蛋白质通常能够得到最好的建模效果。一般而言，建模结构与真实结构之间的平均坐标一致性，会随着序列同一性每降低 10% 而下降约 0.3 Å。此外，对于与 PDB 中已有目标蛋白序列同一性低于约 30% 的蛋白质，同源建模通常不能用于结构预测。不过，在某些少见情况下，同源建模也可以为序列同一性远低于 20% 的蛋白质生成可靠的三维结构模型。

同源建模是一个多步骤过程，它利用序列比对、结构修饰、数据库搜索、能量最小化以及结构评估来生成结构。更具体地说，同源建模可以分解为五个不同步骤：

将查询蛋白或未知蛋白序列与已知结构的序列进行比对；
利用该比对结果选择并替换由于序列插入或缺失而需要改变的主链片段，通常是来自特殊 loop library（环区库）的 loops（环区）；
替换由于比对或 loop 插入/缺失过程而发生改变的侧链；
使用能量最小化对模型进行精修，以缓解碰撞或 steric strains（空间位阻张力）；
通过目视检查和软件验证工具对模型进行验证。

同源建模中最关键的步骤是第一步——alignment（比对）。错误的比对会产生类似多米诺骨牌的效应，逐步扰乱后续步骤，最终导致严重有缺陷的模型。为了减少单一 pairwise alignment（双序列比对）错误所带来的问题，许多同源建模软件包会从多个数据库同源序列中生成比对结果（如果这些同源序列存在），以提高这一至关重要的比对步骤的可靠性。

最初，同源建模是一个高度交互、严重依赖人工操作的过程，其结果在很大程度上取决于用户的专业经验，以及专用三维可视化软件和硬件的可用性。幸运的是，许多复杂而耗时的步骤现在已经实现自动化，因此几乎任何人都可以在几乎任何计算机上完成同源建模。除了若干高质量的商业软件包之外，也有一些优秀的免费同源建模软件包，包括 MODELLER（Sali 1998）、DeepView 和 HHpred（Söding et al. 2005），这些软件可以下载并安装在 MacOS、Unix 和 Windows 平台上。

MODELLER 是历史最久的软件包之一，开发于 1989 年，也可能是最著名的同源建模软件包。它使用一种称为“satisfaction of spatial restraints”（空间约束满足）的方法，即利用一组几何约束，为蛋白质中每个原子的位置建立概率密度函数。MODELLER 需要目标氨基酸序列与具有已知结构的模板蛋白之间的序列比对。MODELLER 有若干变体，包括 EasyModeller（Kuntal et al. 2010），它为 MODELLER 提供了用户友好的 GUI；以及 PyMod，这是一个免费的 PyMOL plug-in。此外，由 MODELLER 生成的数百万个蛋白质结构被收录在 MODELLER 的同源建模数据库 ModBase 中（Pieper et al. 2014）。

近年来，同源建模也已可通过 Web 使用。这些可通过 Web 访问的服务包括 SWISS-MODEL server（Schwede et al. 2003）、CPHModels server（Nielsen et al. 2010）、ModWeb server（Pieper et al. 2014）、HHpred server（Söding et al. 2005）、3D-JIGSAW（Bates et al. 2001）和 PROTEUS2（Montgomerie et al. 2008）。通常，用户只需输入或粘贴感兴趣蛋白质的序列，然后点击 submit 按钮即可。几分钟到几小时之内，用户就会通过电子邮件收到一个三维结构。HHpred 和 PROTEUS2 以速度较快而著称，响应时间通常只有几分钟。Figure 12.12 展示了一个以人硫氧还蛋白为模板、为 Escherichia coli 硫氧还蛋白生成的同源模型，该模板与目标序列只有 26% 的序列同一性。

大多数已发表的同源建模程序和服务器都经过了严格测试，因此来自任何给定软件包或 Web 服务器的结果实际上都相当可信。许多软件包都通过 Critical Assessment of Protein Structure Prediction（CASP，蛋白质结构预测关键评估）过程进行了评估。CASP 是一项由学术共同体推动的倡议，自 1994 年以来每 2 年举行一次。CASP 的目的是对蛋白质结构预测中的不同程序或方法进行独立、无偏或“blind”（盲测）评估，其中包括同源建模、threading 和 ab initio prediction。CASP 的组织者与 X-ray crystallographers（X 射线晶体学家）和 NMR spectroscopists（核磁共振波谱学家）合作，后者提供数十个新近测定或即将测定的蛋白质结构坐标。随后，这些结构的序列会被发送给注册的 CASP predictors（预测者），他们通常有数月时间生成结构，并将预测结果提交给 CASP 组织者。比赛结束后，所有提交的结构都会使用多种严格的结构比较技术进行评估，这些技术将在 Protein Structure Comparison 中介绍。根据 CASP 以及其他独立评估，MODELLER、SWISS-MODEL 和 3D-JIGSAW 似乎在同源建模服务器中表现最佳。总体而言，同源建模是蛋白质结构预测中最可靠、最准确、也是使用最广泛的方法。鉴于 PDB 的规模极其庞大（目前超过 120 000 个结构），并且已经全面覆盖了大多数已知折叠，几乎任何给定蛋白质序列都有很大机会能够通过同源建模成功生成结构。

Figure 12.12

Figure 12.12 以 human thioredoxin（3TRX，26% sequence identity）为模板，为 Escherichia coli thioredoxin 生成的同源模型（b）示意图。E. coli thioredoxin 的实际 X-ray 结构显示于（a）。请注意，通过目视检查可以看到二者在整体上具有很好的相似性。

Threading

Threading（或 fold recognition，折叠识别）是一种结构预测方法，用于预测那些与 PDB 中任何蛋白质基本没有序列同源性的蛋白质结构，或识别其共同折叠（Bowie et al. 1991; Bryant and Lawrence 1993）。换句话说，threading 是一种在同源建模无法继续发挥作用时接续使用的结构预测技术。与追求精确模型的同源建模不同，threading 通常只能生成较为近似的模型或近似折叠。

Threading 之所以得名，是因为它在表面上类似于将一根细管沿着或穿过管道系统的过程。在将这根管或探针（称为“snake”）穿过管道的过程中，导线会呈现出周围管道的形状（Figure 12.13）。如果我们把蛋白质的主链结构看作一个高度扭曲的中空管道（类似复杂的管道系统），就可以进一步设想：如果我们把一条完全不同的蛋白质序列穿过这个主链管道，会发生什么？直观上，如果探针序列类似于原始管道对应的序列，那么匹配应当相当好，氨基酸侧链也会彼此紧密堆积。相反，如果探针序列与管道序列差异很大，那么当探针序列最终被送入管道时，它可能会匹配得很差，侧链可能相互碰撞，或指向错误方向。

Figure 12.13

Figure 12.13 threading 如何执行的示意图。（a）一条序列为 THREADINGSEQ… 的查询蛋白被逐个残基地穿过 fold database（折叠数据库）中每个蛋白质的三维结构，数据库中的结构显示于（b）。每一次都会评估其能量或匹配质量，得分最高的匹配最可能代表其折叠。

如果将这个 threading 过程再推进一步并使其自动化，那么就可以将数百乃至数千条不同的探针序列逐一穿过这个蛋白质主链管道。每条序列被送入之后，都要评估其匹配程度，以确定哪一条序列最适合给定的模板管道或主链折叠。这种评估可以使用某种经验性能量项，或某种 packing efficiency（堆积效率）指标快速完成。通过这种方式，就可以评估哪些蛋白质序列与给定的主链折叠相容。显然，人们会预期那些与原始模板序列高度同源的序列应当匹配最好。然而，研究也发现，这种看似简单的方法有时能够揭示一些完全不相关的序列也可以适配到这一折叠中。当发现这类序列时，实际上就是在预测一个未知蛋白质的三级折叠，也就是在进行三维结构预测。

通过 threading 技术预测得到的三维结构或折叠通常质量并不高，正确结构与建模结构之间的典型 RMSD 通常大于 2 Å。然而，threading 方法确实能够揭示那些似乎没有已知结构同源物的蛋白质的大致形状和整体折叠。Threading 在 20 世纪 90 年代早期开始受到重视，当时它被用于建立 leptin（瘦素）的近似结构模型。Leptin 是一种在肥胖中发挥重要作用的蛋白质。当时尚无已知的序列同源物或结构同源物，所有同源建模尝试都失败了（Madej et al. 1995）。Madej et al. 生成的 threading 模型提出了该蛋白活性的一般机制，后来发现这一机制相当准确。此后，threading 便成为蛋白质结构预测领域中备受青睐的方法。

由于 threading 很受欢迎，现在已有大量基于 Web 的 threading 服务可供使用，包括 Phyre2（Kelley et al. 2015）、HHpred（Söding et al. 2005）、RaptorX（Källberg et al. 2014）、LOOPP（Vallat et al. 2009）和 MUSTER（Wu and Zhang 2008）。近年来，使用多个 threading 服务器的所谓 meta-servers（元服务器）将多个 threading 预测结果组合起来，似乎能够为结构预测提供最佳结果。meta-threading servers 的例子包括 eThread（Brylinski and Lingam 2012）和 LOMETS（Local Meta-Threading Server；Wu and Zhang 2007）。LOMETS 已被整合到结构-功能预测工具 I-TASSER 中，I-TASSER 全称为 Iterative Threading ASSEmbly Refinement（Yang and Zhang 2015）。I-TASSER 通常也被称为“Zhang server”，因为它由 University of Michigan 的 Yang Zhang 开发。在 CASP7、CASP8、CASP9、CASP10、CASP11 和 CASP12 竞赛中，也就是从 2006 年到 2016 年，I-TASSER 一直被评为蛋白质结构预测排名最高的服务器。

Ab Initio Structure Prediction

Ab initio prediction 字面意思是“从头开始预测”。换言之，这种方法试图在不利用任何相关三维结构先验知识的情况下预测蛋白质结构。Ab initio prediction 通常旨在识别新的折叠，或识别那些与现有结构完全没有任何序列相似性的折叠。在过去十年中，ab initio 蛋白质结构预测取得了显著进展；对于较小的蛋白质（<150 个残基），其结构已经能够以令人惊讶的规律性被准确预测出来。

这些进展在很大程度上归功于 University of Washington 的 Dr. David Baker 及其团队的工作。在 21 世纪初，Baker 团队开发了一个名为 Rosetta 的程序（Bonneau et al. 2001）。Rosetta 使用来自已知蛋白质结构的大型 peptide fragment（肽片段）库，并结合一种专门开发的 Monte Carlo sampling（蒙特卡罗采样）技术和一个智能 energy function（能量函数）来“fold” proteins，也就是预测蛋白质结构。Rosetta 不使用同源建模、threading 或 template-assisted structure generation（模板辅助结构生成），因此代表了一种真正的 de novo 或 ab initio 蛋白质结构预测方法。Rosetta 在早期 CASP 的 ab initio 结构预测竞赛中取得了显著成功。基于相同的搜索概念和智能能量函数，Rosetta 已经发展出若干其他变体，包括 RosettaDock（用于蛋白质-蛋白质 docking）、RosettaDesign（用于设计新型蛋白质）和 RosettaLigand（用于将小分子 docking 到蛋白质上）。

这些变体中有许多现在可以通过 RosettaCommons 网站免费下载。此外，若干 Rosetta 程序现在也可作为 Web servers 免费使用，包括 ROSIE（Lyskov et al. 2013）、Robetta（Kim et al. 2004）和 RosettaDesign（Liu and Kuhlman 2006）。Rosetta 甚至还可以作为一种用于家庭计算机或 crowd-sourced（众包式）蛋白质结构预测和 docking 的分布式“mini-platform”使用，即通过 Rosetta@home 和 Foldit 实现。

Rosetta 的成功激励了蛋白质结构预测领域的许多研究者；当今一些最成功的结构预测程序（例如 I-TASSER）都使用了借鉴自 Rosetta 的算法思想。不过，ab initio 蛋白质结构预测也存在其他方法。其中一种最引人注目的方法，是利用大规模并行 molecular dynamics（MD，分子动力学）模拟，这些模拟在定制超级计算机上运行，计算机中包含专门设计的、针对 MD 优化的计算芯片（Klepeis et al. 2009）。这些 MD 模拟已被证明足够详细且足够准确，能够模拟小型快速折叠蛋白的正确折叠过程（Lindorff-Larsen et al. 2011）。这是一项真正令人印象深刻的成就。

另一种令人着迷的 ab initio 或 de novo 蛋白质结构预测方法采用一种称为 co-evolutionary coupling（协同进化耦合）的技术（Marks et al. 2011）。在这种优雅的方法中，multiple sequence alignment（多序列比对；见 Chapter 8）被用于通过进化约束推断成对残基耦合或空间相互作用。也就是说，如果序列上相距较远的一对残基在空间上彼此接近，那么它们会以协调的方式发生变化。例如，一个小残基（如 glycine，甘氨酸）紧邻一个大残基（如 tryptophan，色氨酸）时，只有在该大残基同时被另一个中等大小残基（如 valine，缬氨酸）替代的情况下，这个小残基才可能被一个中等大小残基（如 leucine，亮氨酸）替代。通过序列比对和适当的统计分析推断出的这些协调性残基突变或“couplings”（耦合），随后被用于创建成对原子约束。这些成对约束随后可用于构建 atomic-resolution structures（原子分辨率结构）。这种 co-evolutionary coupling 方法只使用序列数据作为输入，不进行同源建模，并且已被证明能够生成与实验测定结构相差 3–5 Å RMSD 以内的蛋白质结构模型（Marks et al. 2011）。

尽管 ab initio 结构预测正在取得相当令人印象深刻的进展，而且通过计算解决蛋白质折叠问题似乎已近在眼前，但看起来其中许多优雅的 ab initio 工作可能最终会变得没有太大必要。事实上，得益于过去 50 年结构生物学家的巨大努力，目前看来，大多数天然可能存在的蛋白质折叠已经为人所知。已知蛋白质折叠的数量从 1997 年的 405 个，增加到 2007 年的 1086 个（Levitt 2007），再到 2017 年仅为 1228 个；并且在过去几年中，几乎没有新的折叠被发现。这意味着，当今几乎每一个通过 NMR、X-ray crystallography（X 射线晶体学）或 cryo-EM 解析出的蛋白质结构，都与 PDB 中一个或多个已有结构非常相似。因此，现在几乎任何人都可以使用免费的同源建模服务器或免费的 threading Web 服务器，直接从氨基酸序列推断几乎任何已知蛋白质的结构。换句话说，蛋白质折叠问题本质上已经通过“brute force”（蛮力方式）得到了解决。

当然，这并不意味着不再需要继续开发更好的预测软件，也不意味着不再需要结构生物学家或结构生物学本身。关于 protein–protein interactions（蛋白质-蛋白质相互作用）、protein dynamics（蛋白质动力学）、protein energetics（蛋白质能量学）以及 protein–ligand binding（蛋白质-配体结合）仍会有大量问题，需要通过严谨测量、精确模拟和精心设计的实验来解决。同样，随着人们逐渐认识到，多达 30% 的蛋白质或蛋白质结构域实际上是 unstructured（无结构的）或 intrinsically disordered（内在无序的），结构生物学家、计算生物学家和数据库维护人员现在也面临着一系列新的结构挑战（Varadi et al. 2014）。

107

Protein Structure Evaluation

PDF page 406-409；印刷页码 386-389

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Protein Structure Evaluation

Protein Structure Evaluation

蛋白质结构评估

无论蛋白质结构的坐标是通过实验方法获得的（使用 NMR、X-ray 或 cryo-EM），还是通过建模获得的（通过 homology 或 threading），始终都需要提出一个非常简单的问题：“这个结构有多好？”一个质量较差的结构，如同一个质量较差的模型，可能会导致我们误解蛋白质如何发挥作用、它与其他蛋白质之间的关系，或者潜在 ligand 可能结合或不可能结合的位置。相反，一个高质量结构可以揭示大量具有重要生物学意义的信息，并可作为基础，用于检验关于 folding 或 function 的新假说，设计并构建 mutants，或设计新药。

PDB 中绝大多数通过实验测定的结构实际上都相当优秀；当然，大多数结构生物学家也都努力生成他们所能得到的最佳结构。然而，PDB 中至少已有十几个蛋白质结构实例被发现存在严重缺陷，以至于不得不被撤回（Hooft et al. 1996）。此外，还有数十个蛋白质结构分辨率较低（>3 Å resolution）、存在残基或原子标注错误、缺失较长片段的序列，或只提供 C𝛼 坐标。

随着 NMR spectroscopy 成为 X-ray crystallography 的替代方法之一，我们现在看到，许多蛋白质结构或蛋白质结构的某些部分，在溶液状态与固态（晶体）条件之间实际上存在相当显著的差异。即使在同一蛋白质的不同晶型之间，原子位移平均存在 ±0.5 Å 的差异，或 backbone dihedral angle 变化约 ±7°，也是十分常见的。这些结构变异并不限于实验测定的结构。例如，homology models 总是会在模型本身与真实结构（在真实结构被测定之后）之间表现出差异，而且序列一致性每下降 10%，差异幅度大约增加 0.3 Å。此外，homology models 经常至少有一两个区域建模不正确，原因可能是 sequence alignment errors、loop insertion errors 或 energy refinement errors。

尽管这些评论似乎会使人怀疑许多蛋白质结构的可靠性和实用性，但其主要目的，是提醒我们对所有科学数据都应保持适当程度的谨慎或怀疑。这些评论也旨在强调，我们始终应努力回答开头提出的问题：“这个蛋白质结构有多好？”

蛋白质结构极其复杂且高度可变。这种复杂性使得仅凭观察蛋白质结构来评估其质量或正确性几乎不可能。然而，通过研究大量蛋白质结构，并重点关注那些分辨率特别好的结构，结构生物学家已经认识到，高质量结构具有一些近乎普遍的特征。特别是，在考虑水溶性蛋白质结构时，好的蛋白质结构应当：

尽量减少 Ramachandran plot 中落在不允许区域的 torsion angles 数量；
尽量增加 hydrogen bonds 的数量；
尽量减少暴露的 hydrophobic residues 数量；
尽量增加暴露的 polar 或 charged residues 数量；
尽量减少 interstitial cavities 或 packing defects 的数量；
尽量减少 2.6 Å 范围内的 non-bonded atoms 数量；
尽量降低 hydrogen bond energies 的 standard deviation；
尽量降低 helices 中 dihedral angles 的 standard deviation；
具有较低的 R factor（X-ray structures 中 <0.20），或较低的 backbone RMSD 值（NMR structure ensembles 中 <0.8 Å）。

其中一些特征似乎也代表了蛋白质折叠的基本规则。因此，它们会在大多数蛋白质的结构特征中反复出现，并不令人意外。值得注意的是，这些特征中的许多也可以直接从蛋白质坐标数据中定量化或测量。基于这些观察结果，人们开发出了一批优秀的软件程序，用于自动评估蛋白质结构和蛋白质模型，包括 Dictionary of Secondary Structure for Proteins（DSSP；Kabsch and Sander 1983）、PROCHECK（Laskowski et al. 1993）、Volume, Area, Dihedral Angle Reporter（VADAR；Willard et al. 2003）以及 MolProbity（Davis et al. 2007）。

DSSP 是一个 open source 程序，用 C++ 编写，设计目标是生成以序列为中心的、紧凑的局部蛋白质结构特征摘要（Kabsch and Sander 1983）。它也可作为 web server 使用。DSSP 使用一种非常严格的方法来识别 hydrogen bonds 和 hydrogen bonding patterns，而这些信息随后被用于识别并标注七种不同类型的 secondary structures：alpha helices（H）、3/10 helices（G）、pi helices（I）、beta bridges（B）、extended beta strands（E）、hydrogen-bonded turns（T）和 bends（S）。DSSP 对 secondary structure 的定义已经成为 PDB 中 secondary structure annotation 的事实标准，也是多数 secondary structure prediction 方法所使用的参考集。

除了执行自动化 secondary structure identification 和 assignment 之外，DSSP 还使用 ANAREA algorithm 测定各个残基的 ASA。结果以简单的数字尺度（0–9）表示，其中 0 对应完全埋藏，9 表示完全暴露。

PROCHECK 可能是第一个定量的蛋白质结构评估程序，并且至今仍是最好的程序之一（Laskowski et al. 1993）。PROCHECK 是一个可下载程序，它接受 PDB-formatted X-ray coordinate files 作为输入，并使用 DSSP 识别 secondary structure 和计算 ASA。它还计算 torsion angles（backbone 和 side chain）、bond angles、interatomic distances 以及其他相关结构性质。通过将这些数值与极高分辨率或高质量结构中观察到的数值进行比较，PROCHECK 能够对任意查询结构的质量或等效分辨率作出估计。

PROCHECK 最吸引人的特征之一，是它能够自动生成彩色图形报告（包括 Ramachandran plots、secondary structure markups 和 scatter plots），同时还生成表格、解释和参考文献（Figure 12.14）。检查这些图形或表格，使用户能够快速识别问题区域，或聚焦于可疑和异常的结构特征。

VADAR 是一个蛋白质结构评估 web server，它使用 PDB coordinates 或 PDB ID codes 作为输入，对 NMR 和 X-ray 结构进行评估（Willard et al. 2003）。与前面提到的其他程序一样，VADAR 测量 dihedral angles，识别 hydrogen bonds，并测量 interatomic distances，以帮助评估蛋白质结构。然而，与其他程序不同的是，VADAR 采用更全面的方法识别 secondary structures：它使用三种方法生成 consensus secondary structure。它还能够识别并分类 beta turns，识别 side chain hydrogen bonds 或 salt bridges，计算 packing volume（单位为 Å³），测定精确 ASA（单位为 Å²），执行 packing “defect” checks 和 buried charge evaluation，计算 threading 和 surface free energies，确定 residue disposition，并将这些数值中的许多与高质量结构中预期出现的数值进行比较。

VADAR 会针对蛋白质的不同部分（main chain 和 side chain）生成多种表格，同时生成一个 summary table，用于描述并识别蛋白质中发现的可疑特征。Ramachandran plots（标出 outliers）和 structure quality graphs（JPG 或 PNG）也会自动创建。

Figure 12.14

PROCHECK 生成的高质量 postscript 输出数据示例。

图中为 PROCHECK 的 Ramachandran plot 示例，显示 xx_test - Chain A 中非 glycine、非 proline 残基在 phi 与 psi 二面角空间中的分布。统计结果显示：164 个残基（89.1%）位于最有利区域 [A,B,L]，20 个残基（10.9%）位于额外允许区域 [a,b,l,p]，没有残基位于宽松允许区域 [~a,~b,~l,~p] 或不允许区域。非 glycine、非 proline 残基总数为 184 个（100.0%）。

MolProbity 代表了新一代结构评估 web server，它使用 all atom contact analysis 来评估蛋白质结构（Davis et al. 2007）。具体而言，MolProbity 会向所有输入结构中添加氢原子并优化其几何构型（使用一个名为 REDUCE 的程序），随后计算其 H-bond、steric clash 和 van der Waals contacts。这类接触分析非常敏感，因为氢原子不仅是蛋白质中数量最多的原子，而且也形成了最多的原子接触。因此，在氢原子水平检测到的接触偏差，会放大并揭示任何相连的碳、氧和氮原子的问题，包括它们的 bond lengths、placement 和 angles。

与 VADAR 一样，MolProbity 能够处理 NMR 和 X-ray 结构；同样与 VADAR 一样，它还会生成 Ramachandran、amino acid rotamer 和 covalent geometry measures，以帮助进行一般结构评估。MolProbity 是一种非常强大的结构评估工具，其输出现在已经成为 wwPDB Validation Report 的组成部分；该报告会为 PDB 中所有蛋白质结构提供。

108

Protein Structure Comparison

PDF page 409-412；印刷页码 389-392

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Protein Structure Comparison

Protein Structure Comparison

与序列比较类似，结构比较处于结构生物信息学的核心位置。正如序列比较能够为理解蛋白质的起源、功能、定位、相互作用和活性提供大量线索一样，结构比较也具有同样的重要作用。事实上，由于结构比序列保守得多，结构比较使我们能够追溯到更久远的地球史前时期，用以探寻许多关键酶和蛋白质的起源与演化。遗憾的是，与序列比较相比，结构比较在计算上困难得多。在序列比较中，可以使用字符串匹配或动态规划方法，较容易且快速地生成比对结果，并识别序列相似区域。而在结构比较中，必须采用完全不同的方案，因为比较或比对的对象不再是简单的二维字符字符串，而是复杂的三维形状。计算机天生非常擅长处理字符串，却并不特别擅长识别或比较三维物体。事实上，在识别或比较差异并不很大的三维物体时，人类的表现仍然优于最快的计算机。

尽管如此，仍有一些工具和技术使我们能够比较几乎相同或相对相似的三维结构。最常用的方法称为结构叠合（structure superposition）。叠合或重叠（superimposition）就是旋转或定向某个物体，直到它能够叠放到另一个相似物体之上的过程。这与人们把拼图最后一块放入正确位置时通常进行的操作非常相似：不断旋转和平移这块拼图，直到它最终吻合。实现三维叠合的最简单途径，是确定至少两组三个共同参考点：一组位于待叠合物体上，另一组位于作为覆盖基准的参考物体上。一旦确定这些点，待叠合物体便可以通过旋转和平移，使两组参考点尽可能匹配，即差异最小。当然，问题在于如何知道哪三个参考点最合适。人类非常擅长做出这种判断，而计算机则不然。对于蛋白质而言，这一问题还会进一步复杂化，因为我们通常希望同时叠合的不只是三个点，而实际上是数百个点，或者说数百个原子。

幸运的是，只要参考点已经确定，并且两个物体中已确定的点数相同，就有一些数学方法可以完成这一叠合过程。这些方法包括 Lagrangian multipliers、quaternion methods 和 matrix diagonalization techniques。本章不展开解释这些方法的细节，但可以说，这些方法都非常快速、数学上稳健，而且其中许多方法已经被编写进易于获得的计算机程序中。相同的技术也可以用于叠合两个以上的结构，这在 NMR 结构集合中经常使用。在这种情况下，通常采用迭代方法：先将最初两个已叠合的结构取平均，生成一个单一结构，然后将其作为模板来叠合第三个结构。随后重复“取平均并加入新结构”的过程，直到所有结构都完成叠合。通常，最相似的两个结构会首先被叠合，而最不相似的结构最后叠合，这与渐进式多序列比对中的做法非常类似。

许多结构可视化程序，如 PyMOL、Jmol（Herráez 2006）和 DeepView（Kaplan and Littlejohn 2001），都特别适合执行和可视化分子叠合。此外，也有大量 web servers 可以对成对蛋白质结构进行分子叠合。较常用的服务器包括 SuperPose（Maiti et al. 2004）、FATCAT（Ye and Godzik 2004）、CE（Shindyalov and Bourne 2001）和 TM-align（Zhang and Skolnick 2005）。几乎所有这些服务器都允许用户上传一对 PDB IDs 或一对 PDB files，然后只需点击 submit 按钮即可生成坐标数据。一些服务器，如 SuperPose，还允许用户叠合两个以上的结构。某些服务器（SuperPose、CE 和 TM-align）执行刚性叠合（rigid superposition），而另一些服务器（如 FATCAT）则执行更灵活的叠合（flexible superposition）。这些 web servers 的输出包括简单的 PDB coordinate lists，可由多种可视化工具查看；叠合结果的图像文件；以及关于比对、等价残基数量、RMSDs 或比对分数的信息。

建立用于定量比较蛋白质结构的方法和标准，即结构叠合，促进了一系列包含常见蛋白质折叠类型的数据库的建立。这相当于将序列家族归类到一起以识别共有序列基序，类似于 Pfam、PROSITE 和 InterPro 数据库所做的工作（见第 7 章）。在结构层面上，与之对应的数据库是 CATH（Pearl et al. 2000）和 Structural Classification of Proteins（SCOP）（Murzin et al. 1995）。利用这类数据库，可以发现远缘相关蛋白之间出人意料或尚未被发现的关系，也可以找到结构趋同演化的有趣实例。

CATH 是 Class、Architecture、Topology、Homology 的缩写，是一个根据蛋白质二级结构组成、折叠方式和序列相似性将蛋白质归入分类体系的数据库。其结果是一个层级化的结构域分类方案，使蛋白质结构能够被逻辑地分组和比较。CATH 条目来自 PDB 中较高分辨率的蛋白质结构（<3.0 Å）；对于多结构域蛋白质，在分类之前会先将其划分为组成它们的各个结构域。该层级体系的最高层是 Class level，这一级由二级结构组成自动决定。共有三大类：主要为 alpha、主要为 beta，以及 alpha/beta（见上文）。在 Architecture level，蛋白质结构会根据整体结构域形状和二级结构的取向进一步划分。这一步是人工完成的，使用文献中已有的命名约定。层级体系中的第三级是 Topology level，在这一级中，共同的 architecture 可根据其二级结构连接方式和总体形状进一步划分为不同组。在层级体系的最低级，蛋白质根据序列一致性（>35%）和序列匹配长度（>60%）进行分组。CATH 数据库可以通过文本、标识符、蛋白质序列或 PDB 结构进行检索（Figure 12.15）。CATH 还与 Gene3D 数据库相链接，后者包含来自公共数据库的数千万条蛋白质序列中预测得到的 CATH 结构域。

SCOP 数据库是一个类似的层级化数据库，但提供了略有不同的分类划分。与 CATH 类似，SCOP 数据库旨在对 PDB 中几乎所有蛋白质结构之间的结构关系和演化关系进行全面描述。与 CATH 不同的是，SCOP 数据库主要通过视觉比较和人工分组构建。这一过程会借助若干计算工具，但并不由这些工具主导。SCOP 使用六级层级结构：Species、Protein、Family、Superfamily、Folds 和 Class。Species 对应来自特定生物物种的一条独特蛋白质序列；Protein 对应功能基本相同、序列相似的蛋白质，这些蛋白质可以来自不同生物物种，也可以代表同一物种内的不同 isoforms；Family 对应序列相似但功能不同的蛋白质；Superfamily 将具有共同功能和结构特征、并被推断来自共同演化祖先的蛋白质家族联系在一起；Folds 对应具有相同主要二级结构、相同排列方式以及相同拓扑连接方式的蛋白质；Class 对应二级结构组成和组织方式相似的蛋白质。SCOP 有七个“真正”的 classes，此外还有四个用于不符合常规分类蛋白质的特殊 classes，这些类别基于二级结构组成和大小划分。自 2009 年以来，SCOP 数据库一直在发展为一个扩展版本，称为 SCOPe（Chandonia et al. 2017），同时也发展出一个新更新的层级体系，称为 SCOP2。原始 SCOP 数据库和新的 SCOPe 数据库都可以很容易地浏览：用户可以通过超链接沿着层级结构从 Classes 到 Folds，再到 Superfamilies，依次向下查看；也可以通过关键词进行搜索。SCOPe 比 SCOP 更新得多，其中包含大量带有超链接的文档和缩略结构图像，使用户能够方便地导航和探索结构关系与演化关系。

由于像 CATH 和 SCOP 那样人工分类蛋白质结构需要相当多的时间和成本，近年来已有持续趋势转向更自动化、层级性较弱的方法。特别是，已经出现了一些基于 web 的服务，使用户能够将新测定的结构与 PDB 中所有已有结构进行比较。这些结构相似性搜索服务器包括 FATCAT（Ye and Godzik 2004）、Dali（Dietmann et al. 2001）、TopSearch（Wiederstein et al. 2014）和 PDBeFOLD，后者以前称为 SSM（Krissinel and Henrick 2004）。结构相似性搜索服务器能够将用户上传的查询结构与 PDB 中的每一个结构进行成对结构叠合。从这个意义上说，FATCAT、Dali、TopSearch 和 PDBeFOLD 对结构生物学家而言，相当于 BLAST 对序列生物信息学家的作用。然而，与 BLAST 不同，结构匹配的质量并不是用 E-value 来衡量的。相反，这些结构比较算法通常会报告多种“替代性”评估指标，例如 p-values、Z-values、sequence coverage、rankings、raw scores 和 RMSDs。（需要注意的是，最好始终仔细阅读输出说明，因为评分方法并不存在统一共识。）大多数服务器还会报告结构比对区域上的序列一致性百分比。较小的 p- 或 Z-values、较小的 RMSDs、较高的 scores，以及较高的 sequence coverage，都是结构相似性的良好指标。评分方案之所以多样，是因为这些结构相似性搜索服务器执行的是非常复杂的“比对”，其复杂程度远高于 BLAST 生成的比对；这些比对会纳入几乎任意长度的 gaps、chain reversals、几何畸变，以及被比对片段拓扑连接关系的改变。

许多 X-ray crystallographers 和 NMR spectroscopists 使用 FATCAT、Dali、TopSearch 和 PDBeFOLD 来判断他们新测定的结构（尚未存入 PDB）是否代表一种新的 fold，或属于已有 fold。这样的判断对于理解蛋白质的功能和起源可能具有深远意义。如果一个功能未知结构与某个功能已知结构表现出显著的结构相似性，那么通常可以对该未知蛋白质的功能作出判断。与以往一样，那些 RMSD <2 Å、但序列一致性 <15% 的结构尤其有趣且信息量丰富。它们可能是非常古老的同源物实例，也可能是潜在有趣的趋同演化案例。

当然，并非每个人都是结构生物学家，也并非每个人都能获得一个全新蛋白质结构的坐标，因此新结构相似性搜索查询相对少见。更多时候，用户只是希望更好地理解一个已有结构，例如了解其演化关系或潜在功能。在这些情况下，上传一个已有 PDB identifier，而不是上传 PDB coordinate file，并针对预先计算好的结构邻居数据库进行搜索，会容易得多，也快得多。这类预计算邻居搜索由 VAST+（Madej et al. 2014）、FATCAT、Dali、TopSearch 和 PDBeFOLD 支持。它们也可以通过本章前面介绍过的 PDB Structure Similarity 页面使用。

Figure 12.15 CATH 数据库对 Escherichia coli thioredoxin 的描述示例，显示其 class（Alpha Beta）、architecture（3-Layer (𝛼𝛽𝛼) Sandwich）、topology（Glutaredoxin），以及与其他相关结构的 homology（Glutaredoxin）。

109

Summary + Internet Resources + Further Reading + References

PDF page 412-418；印刷页码 392-398

▶

English SourcePDF extracted

源文暂缺。

中文译文

Ch12 Protein Structure Prediction and Analysis / Summary + Internet Resources + Further Reading + References

小结

当今生物信息学中使用的许多概念和思想，例如序列比较、结构/序列可视化、结构预测、电子数据库以及进化分析，都可以追溯到结构生物学，以及开发了许多早期生物信息学工具的结构生物学家。没有结构生物学和结构生物学家的这些重要贡献，生物信息学就不会成为今天的样子。近些年来，局面开始发生转变：结构生物学家如今也开始求助于生物信息学家，以帮助解决模式发现、远缘结构比较以及大规模分布式数据管理等新兴问题。结构生物学家与生物信息学家之间的这种相互给予和吸收，对于维系这两个领域都至关重要；这种专业知识与洞见的交流无疑还将在未来持续相当长一段时间。希望本章已经说明，至少其中一部分互动是如何演变而来的，以及结构生物信息学如何继续成为深入理解生命“引擎”——蛋白质和酶——不可或缺的组成部分。

网络资源

BioMagResBank

www.bmrb.wisc.edu

CASP

predictioncenter.org

CATH/Gene3D

www.cathdb.info

CE

source.rcsb.org/jfatcatserver/ceHome.jsp

CPHModels

www.cbs.dtu.dk/services/CPHmodels

Dali

ekhidna2.biocenter.helsinki.fi/dali/

DeepView

spdbv.vital-it.ch

DSSP

www.cmbi.ru.nl/dssp.html

FATCAT

fatcat.sanfordburnham.org

HHpred

toolkit.tuebingen.mpg.de/#/tools/hhpred

iCn3D

www.ncbi.nlm.nih.gov/Structure/icn3d/full.html

I-TASSER

zhanglab.ccmb.med.umich.edu/I-TASSER/

Jmol

jmol.sourceforge.net

JSmol

jmol.sourceforge.net

LOMETS

zhanglab.ccmb.med.umich.edu/LOMETS

LOOPP

cbsu.tc.cornell.edu/software/loopp

MMDB

www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

MODELLER

salilab.org/modeller

ModWeb

modbase.compbio.ucsf.edu/modweb

MolProbity

molprobity.biochem.duke.edu

MUSTER

zhanglab.ccmb.med.umich.edu/MUSTER

NGL Viewer

proteinformatics.charite.de/ngl/html/ngl.html

PANAV

panav.wishartlab.com

PDBe

www.ebi.ac.uk/pdbe

PDBeFOLD

www.ebi.ac.uk/msd-srv/ssm

PDBj

pdbj.org

Phyre2

www.sbg.bio.ic.ac.uk/~phyre2/html/page.cgi?id=index

Proteopedia

proteopedia.org/wiki/index.php/Main_Page

PROTEUS2

www.proteus2.ca/proteus2

PyMOL

www.pymol.org

RaptorX

raptorx.uchicago.edu

RasMol

www.openrasmol.org

RCSB-PDB

www.rcsb.org/pdb/home/home.do

Robetta

robetta.bakerlab.org

Rosetta@home

boinc.bakerlab.org

RosettaCommons

www.rosettacommons.org

RosettaDesign

rosettadesign.med.unc.edu

ROSIE

rosie.rosettacommons.org

SCOP

scop.mrc-lmb.cam.ac.uk/scop

SCOPe

scop.berkeley.edu

SHIFTX2

www.shiftx2.ca

STING Millennium

sms.cbi.cnptia.embrapa.br/SMS/STINGm

SuperPose

wishart.biology.ualberta.ca/SuperPose

SWISS-MODEL

swissmodel.expasy.org

TargetDB

sbkb.org

TM-align

cssb.biology.gatech.edu/skolnick/webservice/TM-align/index.shtml

TopMatch

topmatch.services.came.sbg.ac.at

TopSearch

topsearch.services.came.sbg.ac.at

VADAR

vadar.wishartlab.com

VAST+

www.ncbi.nlm.nih.gov/Structure/vastplus/vastplus.cgi

WebMol

bioinformatics.mpimp-golm.mpg.de/group-members/mpi-mp-group/dirk-walther/webmol-1

WHAT_CHECK

swift.cmbi.umcn.nl/gv/whatcheck/

延伸阅读

Branden, C. and Tooze, J. (1999). Introduction to Protein Structure, 2e. New York, NY: Garland Science Publishing. 这是一本出色且易读的参考书，覆盖内容优秀，并配有精美的彩色图示。本书很好地涵盖了该领域；尽管它出版于将近 20 年前，几乎每一位从事结构生物学实践工作的研究者都会拥有第一版或第二版中的某一版。

Kelley, L.A. and Sternberg, M.J.E. (2009). Protein structure prediction on the web: a case study using the Phyre server. Nat. Protoc. 4: 363–371. 这篇文章非常详细且实用地介绍了如何使用 Phyre 结构预测服务器，以及该服务器的工作原理。文章还提供了关于蛋白质结构预测的优秀背景材料，并对结构预测的优势与局限给出了很好的、平衡的评估。

Lesk, A.M. (2000). Introduction to Protein Architecture: The Structural Biology of Proteins. Oxford, UK: Oxford University Press. 这是 Lesk 博士的又一本优秀著作。全书图示精美，并且对各种背景的读者都很友好。书中还提供了许多有趣的问题和基于网络的练习。

Rhodes, G. (2006). Crystallography Made Crystal Clear: A Guide for Users of Macromolecular Models, 3e. Cambridge, MA: Academic Press. 对于非晶体学研究者而言，这是一本介绍蛋白质 X 射线晶体学的优秀入门书。它以清晰、易懂的方式解释了许多复杂概念。同时，本书还包含一组非常易读的章节，涉及 NMR 结构分析、同源模型的使用以及蛋白质结构可视化。

参考文献

Bai, X.C., McMullan, G., and Scheres, S.H. (2015). How cryo-EM is revolutionizing structural biology. Trends Biochem. Sci. 40: 49–57.

Bates, P.A., Kelley, L.A., MacCallum, R.M., and Sternberg, M.J. (2001). Enhancement of protein modeling by human intervention in applying the automatic programs 3D-JIGSAW and 3D-PSSM. Proteins (Suppl 5): 39–46.

Bernstein, F.C., Koetzle, T.F., Williams, G.J.B. et al. (1977). The Protein Data Bank. J. Mol. Biol. 112: 535–542.

Bonneau, R., Tsai, J., Ruczinski, I. et al. (2001). Rosetta in CASP4: progress in ab initio protein structure prediction. Proteins (Suppl 5): 119–126.

Borrell, B. (2009). Fraud rocks protein community. Nature 462: 970.

Bowie, J.U., Luthy, R., and Eisenberg, D. (1991). A method to identify protein sequences that fold into a known 3-dimensional structure. Science 253: 164–170.

Bryant, S.H. and Lawrence, C.E. (1993). An empirical energy function for threading a protein sequence through a folding motif. Proteins 16 (1): 92–112.

Brylinski, M. and Lingam, D. (2012). eThread: a highly optimized machine learning-based approach to meta-threading and the modeling of protein tertiary structures. PLoS One 7: e50200.

Cavanagh, J., Faribrother, W.J., Palmer, A.G. III, et al. (2006). Protein NMR Spectroscopy: Principles and Practice, 2e. Cambridge, MA: Academic Press.

Chandonia, J.M., Fox, N.K., and Brenner, S.E. (2017). SCOPe: manual curation and artifact removal in the structural classification of proteins – extended database. J. Mol. Biol. 429: 348–355.

Chou, P.Y. and Fasman, G.D. (1974). Prediction of protein conformation. Biochemistry 13: 222–245.

Corey, R.B. and Pauling, L. (1953). Molecular models of amino acids, peptides, and proteins. Rev. Sci. Instrum. 24: 621–627.

Davis, I.W., Leaver-Fay, A., Chen, V.B. et al. (2007). MolProbity: all-atom contacts and structure validation for proteins and nucleic acids. Nucleic Acids Res. 35 (Web Server issue): W375–W383.

Dietmann, S., Park, J., Notredame, C. et al. (2001). A fully automatic evolutionary classification of protein folds: Dali domain dictionary version 3. Nucleic Acids Res. 29: 55–57.

Doreleijers, J.F., Sousa da Silva, A.W., Krieger, E. et al. (2012). CING: an integrated residue-based structure validation program suite. J. Biomol. NMR 54: 267–283.

Drenth, J. (2006). Principles of Protein X-Ray Crystallography, 3e. New York, NY: Springer.

Gibson, K.D. and Scheraga, H.A. (1967). Minimization of polypeptide energy I. Preliminary structures of bovine pancreatic ribonuclease s-peptide. Proc. Natl. Acad. Sci. U.S.A. 58: 420–427.

Hagen, J.B. (2000). The origins of bioinformatics. Nat. Rev. Genet. 1: 231–236.

Hall, S.R., Allen, A.H., and Brown, I.D. (1991). The crystallographic information file (CIF): a new standard archive file for crystallography. Acta Crystallogr. Sec. A: Found. Crystallogr. 47: 655–685.

Han, B., Liu, Y., Ginzinger, S.W., and Wishart, D.S. (2011). SHIFTX2: significantly improved protein chemical shift prediction. J. Biomol. NMR 50: 43–57.

Hanson, R.M., Prilusky, J., Renjian, Z. et al. (2013). JSmol and the next-generation web-based representation of 3D molecular structure as applied to Proteopedia. Isr. J. Chem. 53: 207–216.

Herráez, A. (2006). Biomolecules in the computer: Jmol to the rescue. Biochem. Mol. Biol. Educ. 34: 255–261.

Higa, R.H., Togawa, R.C., Montagner, A.J. et al. (2004). STING Millennium suite: integrated software for extensive analyses of 3d structures of proteins and their complexes. BMC Bioinf. 5: 107.

Hodis, E., Prilusky, J., Martz, E. et al. (2008). Proteopedia – a scientific “wiki” bridging the rift between three-dimensional structure and function of biomacromolecules. Genome Biol. 9: R121.

Hooft, R.W., Vriend, G., Sander, C., and Abola, E.E. (1996). Errors in protein structures. Nature 381: 272.

Kabsch, W. and Sander, C. (1983). Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers 22: 2577–2637.

Källberg, M., Margaryan, G., Wang, S. et al. (2014). RaptorX server: a resource for template-based protein structure modeling. Methods Mol. Biol. 1137: 17–27.

Kaplan, W. and Littlejohn, T.G. (2001). Swiss-PDB viewer (Deep View). Briefings Bioinf. 2: 195–197.

Kelley, L.A., Mezulis, S., Yates, C.M. et al. (2015). The Phyre2 web portal for protein modeling, prediction and analysis. Nat. Protoc. 10: 845–858.

Kendrew, J.C., Bodo, G., Dintzis, H.M. et al. (1958). A three dimensional model of the myoglobin molecule obtained by x-ray analysis. Nature 181: 662–666.

Kim, D.E., Chivian, D., and Baker, D. (2004). Protein structure prediction and analysis using the Robetta server. Nucleic Acids Res. 32 (Web Server issue): W526–W531.

Klepeis, J.L., Lindorff-Larsen, K., Dror, R.O., and Shaw, D.E. (2009). Long-timescale molecular dynamics simulations of protein structure and function. Curr. Opin. Struct. Biol. 19: 120–127.

Krissinel, E. and Henrick, K. (2004). Secondary-structure matching (SSM), a new tool for fast protein structure alignment in three dimensions. Acta Crystallogr. Sect. D: Biol. Crystallogr. 60: 2256–2268.

Kuntal, B.K., Aparoy, P., and Reddanna, P. (2010). EasyModeller: a graphical interface to MODELLER. BMC Res. Notes 3: 226.

Laskowski, R.A., MacArthur, M.W., Moss, D.S., and Thornton, J.M. (1993). PROCHECK: a program to check the stereochemical quality of protein structures. J. Appl. Crystallogr. 26: 283–291.

Levitt, M. (2007). Growth of novel protein structural data. Proc. Natl. Acad. Sci. U.S.A. 104: 3183–3188.

Levitt, M. and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261: 552–558.

Lindorff-Larsen, K., Piana, S., Dror, R.O., and Shaw, D.E. (2011). How fast-folding proteins fold. Science 334: 517–520.

Liu, Y. and Kuhlman, B. (2006). RosettaDesign server for protein design. Nucleic Acids Res. 34 (Web Server issue): W235–W238.

Lüthy, R., Bowie, J.U., and Eisenberg, D. (1992). Assessment of protein models with three-dimensional profiles. Nature 356: 83–85.

Lyskov, S., Chou, F.C., Conchúir, S.Ó. et al. (2013). Serverification of molecular modeling applications: the Rosetta online server that includes everyone (ROSIE). PLoS One 8: e63906.

Madej, T., Boguski, M.S., and Bryant, S.H. (1995). Threading analysis suggests that the obese gene product may be a helical cytokine. FEBS Lett. 373: 13–18.

Madej, T., Lanczycki, C.J., Zhang, D. et al. (2014). MMDB and VAST+: tracking structural similarities between macromolecular complexes. Nucleic Acids Res. 42 (Database issue): D297–D303.

Maiti, R., Van Domselaar, G.H., Zhang, H., and Wishart, D.S. (2004). SuperPose: a simple server for sophisticated structural superposition. Nucleic Acids Res. 32 (Web Server issue): W590–W594.

Marks, D.S., Colwell, L.J., Sheridan, R. et al. (2011). Protein 3D structure computed from evolutionary sequence variation. PLoS One 6 (12): e28766.

Marti-Renom, M.A., Stuart, A.C., Fiser, A. et al. (2000). Comparative protein structure modeling of genes and genomes. Annu. Rev. Biophys. Biomol. Struct. 29: 291–325.

Martz, E. (2002). Protein explorer: easy yet powerful macromolecular visualization. Trends Biochem. Sci. 27: 107–109.

McCree, D.E. (1999). Practical Protein Crystallography, 2e. Cambridge, MA: Academic Press.

Montgomerie, S., Cruz, J.A., Shrivastava, S. et al. (2008). PROTEUS2: a web server for comprehensive protein structure prediction and structure-based annotation. Nucleic Acids Res. 36 (Web Server issue): W202–W209.

Murzin, A.G., Brenner, S.E., Hubbard, T., and Chothia, C. (1995). SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247: 536–540.

NCBI Resource Coordinators (2017). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 45 (D1): D12–D17.

Nielsen, M., Lundegaard, C., Lund, O., and Petersen, T.N. (2010). CPHmodels-3.0 – remote homology modeling using structure-guided sequence profiles. Nucleic Acids Res. 38 (Web Server issue): W576–W581.

Pearl, F.M.G., Lee, D., Bray, J.E. et al. (2000). Assigning genomic sequences to CATH. Nucleic Acids Res. 28: 277–282.

Pieper, U., Webb, B.M., Dong, G.Q. et al. (2014). ModBase, a database of annotated comparative protein structure models and associated resources. Nucleic Acids Res. 42 (Database issue): D336–D346.

Prlic, A., Bliven, S., Rose, P.W. et al. (2010). Pre-calculated protein structure alignments at the RCSB PDB website. Bioinformatics 26: 2983–2985.

Ramachandran, G.N., Ramakrishnan, C., and Sasisekharan, V. (1963). Stereochemistry of polypeptide chain configurations. J. Mol. Biol. 7: 95–99.

Read, R.J., Adams, P.D., Arendall, W.B. 3rd, et al. (2011). A new generation of crystallographic validation tools for the protein data bank. Structure 19: 1395–1412.

Richards, F.M. (1977). Areas, volumes, packing and protein structure. Annu. Rev. Biophys. Bioeng. 6: 151–176.

Richardson, J.S. (1981). The anatomy and taxonomy of protein structure. Adv. Protein Chem. 34: 167–339.

Rose, A.S. and Hildebrand, P.W. (2015). NGL viewer: a web application for molecular visualization. Nucleic Acids Res. 43 (Web Server issue): W576–W579.

Sali, A. (1998). 100,000 protein structures for the biologist. Nat. Struct. Biol. 5: 1029–1032.

Sayle, R.A. and Milner-White, E.J. (1995). RASMOL: biomolecular graphics for all. Trends Biochem. Sci. 20: 374–376.

Schaeffer, R.D. and Daggett, V. (2011). Protein folds and protein folding. Protein Eng. Des. Sel. 24: 11–19.

Schwede, T., Kopp, J., Guex, N., and Peitsch, M.C. (2003). SWISS-MODEL: an automated protein homology-modeling server. Nucleic Acids Res. 31: 3381–3385.

Sheffler, W. and Baker, D. (2010). RosettaHoles2: a volumetric packing measure for protein structure refinement and validation. Protein Sci. 19: 1991–1995.

Shindyalov, I.N. and Bourne, P.E. (2001). A database and tools for 3-D protein structure comparison and alignment using the combinatorial extension (CE) algorithm. Nucleic Acids Res. 29: 228–229.

Sippl, M.J. and Wiederstein, M. (2008). A note on difficult structure alignment problems. Bioinformatics 24: 426–427.

Söding, J., Biegert, A., and Lupas, A.N. (2005). The HHpred interactive server for protein homology detection and structure prediction. Nucleic Acids Res. 33 (Web Server issue): W244–W248.

Vaguine, A.A., Richelle, J., and Wodak, S.J. (1999). SFCHECK: a unified set of procedures for evaluating the quality of macromolecular structure-factor data and their agreement with the atomic model. Acta Crystallogr. Sect. D: Biol. Crystallogr. 55: 191–205.

Vallat, B.K., Pillardy, J., Májek, P. et al. (2009). Building and assessing atomic models of proteins from structural templates: learning and benchmarks. Proteins 76: 930–945.

Varadi, M., Kosol, S., Lebrun, P. et al. (2014). pE-DB: a database of structural ensembles of intrinsically disordered and of unfolded proteins. Nucleic Acids Res. 42 (Database issue): D326–D335.

Walther, D. (1997). WebMol – a Java based PDB viewer. Trends Biochem. Sci. 22: 274–275.

Wang, B., Wang, Y., and Wishart, D.S. (2010). A probabilistic approach for validating protein NMR chemical shift assignments. J. Biomol. NMR 47: 85–99.

Westbrook, J.D., Feng, Z., Chen, L. et al. (2003). The Protein Data Bank and structural genomics. Nucleic Acids Res. 31: 489–491.

Westbrook, J.D., Ito, N., Nakamura, H. et al. (2005). PDBML: the representation of archival macromolecular structure data in XML. Bioinformatics 21: 988–992.

Wiederstein, M., Gruber, M., Frank, K. et al. (2014). Structure-based characterization of multiprotein complexes. Structure 22: 1063–1070.

Willard, L., Ranjan, A., Zhang, H. et al. (2003). VADAR: a web server for quantitative evaluation of protein structure quality. Nucleic Acids Res. 31: 3316–3319.

Wu, S. and Zhang, Y. (2007). LOMETS: a local meta-threading-server for protein structure prediction. Nucleic Acids Res. 35: 3375–3382.

Wu, S. and Zhang, Y. (2008). MUSTER: improving protein sequence profile-profile alignments by using multiple sources of structure information. Proteins 72: 547–556.

Yang, J. and Zhang, Y. (2015). I-TASSER server: new development for protein structure and function predictions. Nucleic Acids Res. 43 (Web Server issue): W174–W181.

Ye, Y. and Godzik, A. (2004). FATCAT: a web server for flexible structure comparison and structure similarity searching. Nucleic Acids Res. 32 (Web Server issue): W582–W585.

Young, J.Y., Westbrook, J.D., Feng, Z. et al. (2017). OneDep: unified wwPDB system for deposition, biocuration, and validation of macromolecular structures in the PDB archive. Structure 25: 536–545.

Zhang, Y. and Skolnick, J. (2005). TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic Acids Res. 33 (7): 2302–2309.