Human-readable edition

Bioinformatics
中文译稿

点击任意小节标题展开译文，所有内容已内嵌，无需网络。

Chapter 1

Biological Sequence Databases

001

Introduction

PDF page 21 - PDF page 23 顶部；印刷页码 1-3

▶

第 1 章 Biological Sequence Databases

Introduction

在过去几十年中，人们一直以近乎急切的速度，试图从最基本的层面理解构成“生命之书”的究竟是什么。生物学家（以及一般意义上的科学家）希望理解，一个生物体基因组中数以百万计或数以十亿计的碱基，如何包含细胞开展维持该生物体生存所必需的无数代谢过程所需的全部信息；这些信息又如何一代一代地传递下去。为了从基础层面理解单个核苷酸碱基的集合如何驱动生命这台机器，必须收集大量序列数据，并以便于检索和分析的方式加以存储。为此，研究者在生物序列数据库的设计和维护方面投入了大量工作。这些数据库不仅从计算角度显著推动了我们对生物学的理解，也通过与实验台研究的整合使用，对生物学认识的进展产生了重要影响。

序列数据库的历史始于 20 世纪 60 年代初。当时，Margaret Dayhoff 及其在 National Biomedical Research Foundation（NBRF）的同事（1965）收集了当时已知的全部蛋白质序列——总共 65 条——并将它们出版在一本名为 Atlas of Protein Sequence and Structure 的书中。需要记住的是，在生物学发展的这一阶段，研究重点是通过 Edman degradation 等传统技术测定蛋白质序列，而不是测定 DNA 序列，因此可用序列的总体数量很少。到 20 世纪 70 年代末，随着相当数量的核苷酸序列变得可用，这些序列也被纳入 Atlas 的后续版本中。随着这一资料集的发展，它不仅包含蛋白质序列，还包含与之配套的基于文本的描述，以及关于许多蛋白质家族进化的信息。从本质上说，这项工作是第一个带注释的序列数据库，尽管它当时是以印刷形式存在的。随着时间推移，Atlas 中包含的数据量变得难以管理，将其转为电子形式的需求也日益明显。从 20 世纪 70 年代初到 20 世纪 80 年代末，Atlas 的内容由 NBRF（后来由 Protein Information Resource，PIR）以磁带形式进行电子分发；这些分发内容还包括一些基础程序，可用于搜索并评估较远的进化关系。

序列数据库历史的下一个阶段，是由 20 世纪 70 年代末研究人员可用的核苷酸序列数据量真正爆炸式增长所推动的。为满足更强大的公共序列数据库需求，Los Alamos National Laboratory（LANL）于 1979 年创建了 Los Alamos DNA Sequence Database，该数据库于 1982 年被称为 GenBank（Benson et al. 2018）。与此同时，European Molecular Biology Laboratory（EMBL）于 1980 年创建了 EMBL Nucleotide Sequence Data Library。整个 20 世纪 80 年代，EMBL（当时位于德国 Heidelberg）、LANL，以及后来加入的 National Center for Biotechnology Information（NCBI，隶属于 National Library of Medicine，后者属于 National Institutes of Health）共同向这些数据库贡献 DNA 序列数据。这些数据由多组人工审查人员处理：他们手工转录并解读印刷期刊中发表的内容，将其转化为更适合计算分析的电子格式。几年后，DNA Databank of Japan（DDBJ；Kodama et al. 2018）加入了这一 DNA 数据收集协作。

到 20 世纪 80 年代末，产生的 DNA 序列数据量已经非常庞大，以至于印刷期刊开始要求科学家将其 DNA 序列直接以电子方式提交到这些数据库，而不是发表在纸质期刊或论文中。1988 年，在这三个组织召开会议之后（如今统称为 International Nucleotide Sequence Database Collaboration，即 INSDC；Karsch-Mizrachi et al. 2018），它们达成协议：使用共同的数据交换格式，并且每个数据库只更新直接提交给自己的记录。由于这一协议，三个中心（EMBL、DDBJ 和 NCBI）现在都接收直接提交的 DNA 序列，并对这些序列进行分发，使每个中心都保存全部序列的副本；同时，每个中心也都是这些序列的主要分发中心。DDBJ/EMBL/GenBank 记录会在三个站点每 24 小时自动更新一次，这意味着所有序列很快都可以在 DDBJ、European Nucleotide Archive（ENA；Silvester et al. 2018）和 GenBank 中找到。尽管如此，INSDC 内的每个数据库仍可按照自己认为合适的方式展示和注释序列数据。

在 DNA 序列数据库早期工作展开的同时，Swiss-Prot 蛋白质序列数据库的基础也在 20 世纪 80 年代初由 Amos Bairoch 奠定；Bairoch 在一篇第一人称综述中以引人入胜的视角回顾了这段历史（Bairoch 2000）。Bairoch 将 PIR 的 Atlas 转换为一种类似于 EMBL 核苷酸数据库所用格式的格式。在这个最初名为 PIR+ 的版本中，每种蛋白质都被加入了额外信息，从而提高了它作为经过策展、注释良好的蛋白质信息来源的价值。1986 年夏，Bairoch 开始通过 US BIONET（互联网的前身）分发 PIR+，并将其更名为 Swiss-Prot。当时，它总共包含 3900 条蛋白质序列。与今天的标准相比，这一数量显得很小，但在当时已被视为极其庞大的数据量。

由于 Swiss-Prot 和 EMBL 采用相似的格式，这两个团队之间自然发展出合作关系；当 EMBL 和 Swiss-Prot 的业务都迁移到位于英国 Hinxton 的 EMBL European Bioinformatics Institute（EBI；Cook et al. 2018）后，这些合作进一步加强。Swiss-Prot 和 EMBL 团队最早开展的合作项目之一，是创建一个新的、规模大得多的蛋白质序列数据库，作为 Swiss-Prot 的补充。由于维护 Swiss-Prot 条目的高质量是一项耗时工作，需要专家注释人员进行广泛的序列分析和细致策展（Apweiler 2001），同时也为了快速发布尚未达到 Swiss-Prot 严格注释标准的蛋白质数据，一个名为 TrEMBL 的新数据库被创建出来；TrEMBL 意为“translation of EMBL nucleotide sequences”。这个 Swiss-Prot 补充库最初由计算注释的序列条目构成，这些条目来自 INSDC 数据库中所有编码序列（coding sequences, CDSs）的翻译结果。

2002 年，Swiss Institute of Bioinformatics、EMBL-EBI 和 PIR 发起了一项新的合作，即 UniProt consortium（UniProt Consortium 2017）。这一工作催生了 UniProt Knowledgebase（UniProtKB），其中包括 Swiss-Prot、TrEMBL 和 PIR。类似的工作也促成了 NCBI Protein Database 的形成；该数据库汇集了来自众多来源的数据，并将在下文中作更充分的介绍。人类基因组测序的完成、众多模式生物基因组的测序，以及总体上数量极其庞大的序列数据的存在，共同构成了充分理由：读者首先需要扎实理解这些主要公共序列数据库，进而才能开展稳健而准确的生物信息学分析。

002

Nucleotide Sequence Databases

PDF page 23；印刷页码 3

▶

第 1 章 Biological Sequence Databases

Nucleotide Sequence Databases

如上所述，核苷酸序列数据的主要来源，是参与 INSDC 的各个数据库——DDBJ、ENA 和 GenBank。这三方每 24 小时共享一次新增或更新的数据。这种数据传递之所以能够实现，是因为它们使用了共同的数据格式来描述下文将详细介绍的各类信息。

序列数据库中保存信息的基本格式，是一种称为 flatfile 的文本文件。不同 flatfile 格式之间的对应关系，极大地方便了这些数据库之间每天进行数据交换。在多数情况下，一个 flatfile 格式中的字段都可以一一映射到另一个 flatfile 格式中。随着时间推移，多种文件格式被采用，其中一些一直被广泛使用，另一些则由于各种原因逐渐被淘汰。某一种格式能否成功，取决于它在多种场景中的实用性，也取决于它能否有效容纳并表达那些需要被归档并传达给科学家的生物学数据类型。

在最简单的形式中，一条序列记录可以表示为一串核苷酸，再加上某种基本标签或标识符。在这些简单格式中，使用最广泛的是 FASTA。FASTA 最初是 Lipman 和 Pearson（1985）开发的 FASTA 软件套件的一部分，本书第 3 章将对其作详细介绍。这种格式本身非常简单，因而为人和计算机处理原始数据都提供了一种方便方式。其形式如下。

>U54469.1
CGGTTGCTTGGGTTTTATAACATCAGTCAGTGACAGGCATTTCCAGAGTTGCCCTGTTCAACAATCGATA
GCTGCCTTTGGCCACCAAAATCCCAAACTTAATTAAAGAATTAAATAATTCGAATAATAATTAAGCCCAG
TAACCTACGCAGCTTGAGTGCGTAACCGATATCTAGTATACATTTCGATACATCGAAATCATGGTAGTGT
TGGAGACGGAGAAGGTAAGACGATGATAGACGGCGAGCCGCATGGGTTCGATTTGCGCTGAGCCGTGGCA
GGGAACAACAAAAACAGGGTTGTTGCACAAGAGGGGAGGCGATAGTCGAGCGGAAAAGAGTGCAGTTGGC

为简洁起见，这里只显示了该序列最开始的几行。在 FASTA 格式最简单的实现中，“大于号”字符（>）表示一条新序列记录的开始；这一行称为定义行（definition line，通常也称为 def line）。唯一标识符——在本例中是 accession.version 编号（U54469.1）——之后接核苷酸序列；序列可以使用大写或小写字母表示，通常每行 60 个字符。登录号是始终与这条序列关联的编号，也是在论文中引用时应使用的编号；而版本号后缀则便于用户判断自己查看的是否是某条特定序列的最新记录。每当序列被更新时，版本号后缀就会递增 1。

还可以在定义行中加入更多信息，使这种简单格式稍微更具信息量。例如：

>ENA|U54469|U54469.1 Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E)
gene, complete cds, alternatively spliced.

这个修改后的 FASTA 定义行现在包含了来源数据库（ENA）、accession.version 编号（U54469.1），以及对该序列所代表的生物学实体的简短描述。

003

Nucleotide Sequence Flatfiles: A Dissection

PDF page 23 末尾 - PDF page 29 上半；印刷页码 3-9

▶

第 1 章 Biological Sequence Databases

Nucleotide Sequence Flatfiles: A Dissection

由于 flatfile 是序列数据库中信息的基本单位，并且承担着促进这些数据库之间信息交换的作用，因此有必要理解 flatfile 中每一个字段代表什么，以及记录的不同部分可以包含哪些类型的信息。虽然不同 flatfile 格式之间存在一些细微差异，但它们都可以分为三个主要部分：header，即包含整条记录相关信息和描述符的头部；feature table，即为序列提供相关注释的特征表；以及序列本身。

The Header

header 是一条记录中最能体现数据库特异性的部分。这里我们将以 ENA 版本的记录作为讨论对象（完整记录见附录 1.1），并在附录 1.2 中给出相应的 DDBJ 和 GenBank 版本 header。记录的第一行提供了该记录所含序列的基本识别信息，名称也很贴切，称为 ID 行；它对应于 DDBJ/GenBank 中的 LOCUS 行。

ID
U54469; SV 1; linear; genomic DNA; STD; INV; 2881 BP.

登录号显示在 ID 行中，后面跟着它的序列版本（这里是第一个版本，即 SV 1）。由于这里是 SV 1，因此它等同于前文所述的 U54469.1。随后给出的是 DNA 分子的拓扑结构（linear，线性）和分子类型（genomic DNA，基因组 DNA）。下一个元素表示该序列在 ENA 中的数据类别：STD，表示一条“标准的、已注释并已组装的序列”。数据类别用于将序列记录归入不同的功能分区，使用户能够查询数据库中的特定子集。Box 1.1 对这些功能分区作了说明。最后，ID 行还给出目标序列的分类分区（INV，表示无脊椎动物；见 Internet Resources）及其长度（2881 个碱基对）。登录号也会单独出现在紧随 ID 行之后的 AC 行中。

Box 1.1 核苷酸数据库中的功能分区

将核苷酸序列记录组织为彼此分离的功能类型，使用户能够查询这些数据库中特定的记录子集。此外，如果知道某条序列来自某个以特定技术为导向的数据库，用户就可以从适当的生物学角度解释这些数据。下面介绍其中几个分区。每类功能分区的示例（ENA 称之为“数据类别”）可通过本章 Internet Resources 部分列出的 ENA Data Formats 页面中的示例链接查看。

CON

由全基因组测序工作产生的染色体、基因组和其他长 DNA 序列的构建记录（或“contigged”记录）。这一分区中的记录不包含序列数据；相反，它们包含的是组装指令，用于说明如何组装多个数据库记录中的序列数据。

EST

Expressed Sequence Tags，表达序列标签。这些记录包含来自 mRNA（cDNA）的短单次读取序列，长度通常为 300-500 bp，且通常会大量产生。EST 代表给定组织或给定发育阶段中表达情况的一个快照。它们是给定 cDNA 文库中表达的标签，其中有些编码蛋白，有些则不编码。

GSS

Genome Survey Sequences，基因组调查序列。它与 EST 分区类似，但这些序列来源于基因组。GSS 分区包含但不限于：单次通过读取的基因组调查序列、细菌人工染色体（bacterial artificial chromosome, BAC）或酵母人工染色体（yeast artificial chromosome, YAC）的末端序列、外显子捕获的基因组序列，以及 Alu 聚合酶链式反应（polymerase chain reaction, PCR）序列。

HTG

High-Throughput Genome sequences，高通量基因组序列。它们是由高通量测序中心产生的未完成 DNA 序列，会以加速方式提供给科学界，用于同源性和相似性搜索。这一分区中的条目包含关键词，用来指示其在测序流程中所处的阶段。HTG 序列一旦完成，就会被移入相应的数据库分类分区。

STD

包含一条标准的、已注释并已组装序列的记录。

STS

Sequence-Tagged Sites，序列标签位点。这类序列较短，长度为 200-500 bp，是操作上唯一的序列，可识别 PCR 实验中使用的一组引物对，从而生成一种能够定位到基因组中单一位置的试剂。STS 分区旨在促进 STS 与其他分区中序列之间的交叉比较，以便将匿名序列的图谱位置与已知基因关联起来。

WGS

Whole-Genome Shotgun sequences，全基因组鸟枪法序列。它们是采用鸟枪法策略的项目所产生的序列数据。这类项目会生成大量短序列读段，随后可由计算机算法将这些读段组装为序列重叠群（contigs）、更高阶的脚手架序列（scaffolds），有时还可以组装为接近染色体长度或达到染色体长度的序列。

ID 行之后是一个或多个日期行（以 DT 表示），用于说明该条目最初创建或最后更新的时间。对于我们关注的这条序列，该条目最初创建于 1996 年 5 月 19 日，并于 2017 年 6 月 23 日在 ENA 中最后更新：

DT
19-MAY-1996 (Rel. 47, Created)
DT
23-JUN-2017 (Rel. 133, Last updated, Version 5)

每一行中的 release number 表示该条目创建或最后更新之后的第一个季度发布版本。条目的版本号出现在第二行，使用户能够很容易地判断自己查看的是否是某条特定序列的最新记录。请注意，这不同于前面描述的 accession.version 格式：记录中的某些元素可能发生了变化，但序列本身可能保持不变，因此这两种不同类型的版本号并不总是彼此对应。

header 的下一部分包含 definition lines，用于简明描述该记录中包含的生物学信息类型。definition line 在 ENA 中标记为 DE，在 DDBJ/GenBank 中标记为 DEFINITION，其形式如下。

DE
Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene,
DE
complete cds, alternatively spliced.

生成这些 definition lines 时需要非常谨慎。虽然许多 definition lines 可以由记录中的其他部分自动生成，但仍会经过人工审查，以确保信息的一致性和丰富度。显然，想用一行文本捕捉一条序列背后的全部生物学信息是不可能的；不过，同一条记录后续部分很快就会给出这些丰富的信息。

沿着 flatfile 记录继续往下看，可以看到目标序列的完整分类学信息。OS 行（在 DDBJ/GenBank 中为 SOURCE 行）给出该序列来源物种的首选科学名称，后面用括号给出生物体的常用名称。OC 行（在 DDBJ/GenBank 中为 ORGANISM 行）包含来源生物体的完整分类学分类。分类信息按照自上而下的方式列出，就像分类树中的节点一样，最一般的类群（Eukaryota，真核生物）排在最前面。

OS
Drosophila melanogaster (fruit fly)
OC
Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Hexapoda; Insecta; Pterygota;
OC
Neoptera; Holometabola; Diptera; Brachycera; Muscomorpha; Ephydroidea;
OC
Drosophilidae; Drosophila; Sophophora.

每条记录都必须至少包含一条参考文献或引用，记录在所谓的 reference blocks 中。这些 reference blocks 用于给予科学贡献归属，并提供背景，说明为什么要测定这条特定序列。reference blocks 的形式如下。

RN
[1]
RP
1-2881
RX
DOI; .1074/jbc.271.27.16393.
RX
PUBMED; 8663200.
RA
Lavoie C.A., Lachance P.E., Sonenberg N., Lasko P.;
RT
"Alternatively spliced transcripts from the Drosophila eIF4E gene produce
RT
two different Cap-binding proteins";
RL
J Biol Chem 271(27):16393-16398(1996).
XX
RN
[2]
RP
1-2881
RA
Lasko P.F.;
RT
;
RL
Submitted (09-APR-1996) to the INSDC.
RL
Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield,
RL
Montreal, QC H3A 1B1, Canada

在这个例子中显示了两条参考信息，一条指向已发表的论文，另一条指向该序列记录本身的提交。上面的第二个 reference block 提供了第一篇论文中资深作者的信息，以及该作者的邮寄地址。虽然第二个 reference block 中的日期说明了该序列（及其附带信息）提交到数据库的时间，但它并不表示该记录首次公开发布的时间，因此不能根据这个日期推断或声称该记录的首次公开发布时间。每当序列更新时，还可以向记录中添加新的提交者信息块。

有些 header 可能包含 COMMENT 行（DDBJ/GenBank）或 CC 行（ENA）。这些行可以包含多种多样的说明和注释（描述符），它们都指向整条记录。基因组中心常常使用这些行提供联系信息并表达致谢。注释还可以包含序列的历史。如果某条记录中的序列被更新，comment 会包含一个指向该记录先前版本的指针。反过来，如果检索到的是较早版本的记录，comment 会指向较新的版本；如果还存在更早的版本，也会向后指向那些版本。最后，还有数据库交叉引用行（标记为 DR），它们提供链接，指向包含目标序列相关信息的关联数据库。在附录 1.1 中这条记录的完整 header 里，可以看到一条指向 FlyBase 的交叉引用。需要注意的是，附录 1.2 中相应的 DDBJ/GenBank header 并不包含这些交叉引用。

The Feature Table

在 INSDC 各合作机构早期协作时，人们就努力寻找一种共同方式，用来表示某一数据库记录中包含的生物学信息。这种共同表示方式称为 feature table，即特征表。它由三类内容组成：feature keys，即特征键，用一个单词或缩写表示所描述的生物学属性；location information，即位置信息，说明该特征位于序列中的什么位置；以及额外的 qualifiers，即限定符，用于提供关于该特征的补充描述信息。INSDC 在线 feature table 文档非常详尽，详细说明了允许使用哪些特征，以及每一种特征可以搭配哪些限定符。feature table 中的措辞会尽可能采用常见的生物学研究术语，并且在 DDBJ、ENA 和 GenBank 条目之间保持一致。

这里我们将解析来自 Drosophila melanogaster 的 eukaryotic transcription factor 4E 基因的 feature table。该表在附录 1.3（ENA 格式）和附录 1.4（DDBJ/GenBank 格式）中均完整给出。这条特定序列存在可变剪接，产生两个不同的基因产物：4E-I 和 4E-II。feature table 中的第一个信息块始终是 source feature，它指出序列的生物学来源，以及与整条序列相关的补充信息。所有 INSDC 条目都必须包含这个 feature，因为所有 DNA 或 RNA 序列都来源于某种具体的生物学来源，包括合成 DNA。

FT
source
1..2881
FT
/organism="Drosophila melanogaster"
FT
/chromosome="3"
FT
/map="67A8-B2"
FT
/mol_type="genomic DNA"
FT
/db_xref="taxon:7227"
FT
gene
80..2881
FT
/gene="eIF4E"

在 source key 的第一行中，请注意其编号方式：它用两个由两个点分隔的数字（1..2881）表示该 feature key 覆盖的位置范围。由于 source key 涉及整条序列，因此可以推断，这个条目所描述的序列长度为 2881 个核苷酸。表 1.1 展示了表示任一特征位置的多种方式，这些方式能够覆盖范围很广的生物学场景。随后出现的是限定符，每个限定符前面都有一个斜杠。这里给出了该生物体的完整科学名称，也给出了具体的图谱坐标，说明这条序列位于 3 号染色体的 67A8-B2 图谱位置。同时还指出了被测序的分子类型（genomic DNA）。最后一行表示一个数据库交叉引用，缩写为 db_xref，指向 NCBI taxonomy database；其中 taxon 7227 对应 D. melanogaster。一般来说，这些交叉引用是受控限定符，允许条目通过外部数据库中唯一的标识符连接到外部数据库。在上面的 source block 之后是 gene feature，它表明该基因本身是此条目中整条序列的一个子集，起始于位置 80，终止于位置 2881。

FT
mRNA
join(80..224,892..1458,1550..1920,1986..2085,2317..2404,
FT
2466..2881)
FT
/gene="eIF4E"
FT
/product="eukaryotic initiation factor 4E-I"
FT
mRNA
join(80..224,1550..1920,1986..2085,2317..2404,2466..2881)
FT
/gene="eIF4E"
FT
/product="eukaryotic initiation factor 4E-II"

Table 1.1 feature table 中位置的表示方式

表示方式	含义
345	序列中的单一位置
345..500	一个连续的位置范围，包含所示的两个边界位置
<345..500	一个连续的位置范围，但精确的下边界未知；该特征始于位置 345 之前的某处，并终止于位置 500
345..>500	一个连续的位置范围，但精确的上边界未知；该特征始于位置 345，并终止于位置 500 之后的某处
<1..888	该特征起始于第一个已测序碱基之前，并延续到位置 888
(102.110)	表示精确位置未知，但它是 102 到 110 之间的某一个位置，包含两端位置
123^124	指向位置 123 和 124 之间的一个位点
123^177	指向位置 123 到 177 之间任意两个相邻核苷酸或氨基酸之间的一个位点
join(12..78,134..202)	区域 12-78 和 134-202 被连接起来，形成一条连续序列
complement(4918..5126)	序列记录中 4918 到 5126 位置所对应序列的互补序列
J00194:100..202	登录号为 J00194 的数据库条目中 100-202 的位置，包含两端位置

本例中的下一个 feature 指出哪些区域构成该基因的两个 mRNA 转录本：第一个对应 eukaryotic initiation factor 4E-I，第二个对应 eukaryotic initiation factor 4E-II。在第一种情况（如上所示）中，join 行表示 6 个不同的 DNA 片段被转录形成成熟 RNA 转录本；而在第二种情况中，第二个区域缺失，只有 5 个不同的 DNA 片段被转录为成熟 RNA 转录本。因此，这个分子最终编码出两个剪接变体。

FT
CDS
join(201..224,1550..1920,1986..2085,2317..2404,2466..2629)
FT
/codon_start=1
FT
/gene="eIF4E"
FT
/product="eukaryotic initiation factor 4E-II"
FT
/note="Method: conceptual translation with partial peptide
FT
sequencing"
FT
/db_xref="GOA:P48598"
FT
/db_xref="InterPro:IPR001040"
FT
/db_xref="InterPro:IPR019770"
FT
/db_xref="InterPro:IPR023398"
FT
/db_xref="PDB:4AXG"
FT
/db_xref="PDB:4UE8"
FT
/db_xref="PDB:4UE9"
FT
/db_xref="PDB:4UEA"
FT
/db_xref="PDB:4UEB"
FT
/db_xref="PDB:4UEC"
FT
/db_xref="PDB:5ABU"
FT
/db_xref="PDB:5ABV"
FT
/db_xref="PDB:5T47"
FT
/db_xref="PDB:5T48"
FT
/db_xref="UniProtKB/Swiss-Prot:P48598"
FT
/protein_id="AAC03524.1"
FT
/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGE
FT
PAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTVED
FT
FWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDNLWL
FT
DVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDALRLGR
FT
NNSLQYQLHKDTMVKQGSNVKSIYTL"

mRNA feature 之后是上面所示的 CDS feature，它描述最终编码蛋白质产物的区域。只看 eukaryotic initiation factor 4E-II，CDS feature 也显示了一个 join 行，其坐标与 mRNA feature 中显示的坐标略有不同，差异尤其体现在起始位置和终止位置。原因在于，5′ 和 3′ untranslated regions（UTRs，非翻译区）包含在 mRNA feature 中，但不包含在 CDS feature 中。CDS feature 对应于翻译后蛋白质产物中的氨基酸序列，该序列显示在上面的 /translation 限定符中。/codon_start 限定符表示，第一个密码子的氨基酸翻译从这一连接区域的第一个位置开始，没有偏移。

/protein_id 限定符显示蛋白质数据库中相应条目的登录号（AAC03524.1），并带有超链接，使用户能够直接进入该条目。这些唯一标识符采用“3 + 5”格式，即三个字母后接五个数字。版本号由后面的十进制小数表示；当记录中的蛋白质序列发生变化时，版本号递增 1。为基因产物或蛋白质指定名称（通过 /protein 限定符）往往带有主观性，有时是根据其与其他序列之间较弱的相似性来指定的，而那些其他序列本身有时也注释不佳。由于低质量注释可能会传递式扩散（也就是说，坏数据往往会产生更多坏数据），因此建议用户查阅经过人工审查的核苷酸和蛋白质序列数据库，以获得关于某条序列推定功能的最新、准确信息。最后，请注意 /db_xref 限定符通过大量交叉引用，链接到 InterPro、Protein Data Bank（PDB）和 UniProtKB/Swiss-Prot 中的条目，以及 Gene Ontology annotation（GOA；Gene Ontology Consortium 2017）。

当记录中存在 CDS feature 时，source feature 及其指定的生物体隐含了用于将核酸序列翻译为蛋白质序列的遗传密码。此外，这些 feature table 以 DNA 为中心，这意味着所有特征都是通过 DNA 坐标系统进行定位的，而不是通过氨基酸参考点来定位；附录 1.3 和附录 1.4 中的示例体现了这一点。

SQ
Sequence 2881 BP; 849 A; 699 C; 585 G; 748 T; 0 other;
cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca
60
acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt
120
cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata
180
.
. <truncated for brevity>
.
aaacggaacc ccctttgtta tcaaaaatcg gcataatata aaatctatcc gctttttgta
2820
gtcactgtca ataatggatt agacggaaaa gtatattaat aaaaacctac attaaaaccg
2880
g
2881
//

最后，在每条核苷酸序列记录的末尾，都可以看到实际的核苷酸序列，每行 60 个碱基。请注意，标志着记录这一部分开始的 SQ 行不仅提供了序列的总长度，还给出了每一种核苷酸碱基的数量，因此可以很容易地计算这条序列的 GC 含量。

004

Graphical Interfaces

PDF page 29 - PDF page 30；印刷页码 9-10

▶

第 1 章 Biological Sequence Databases

Graphical Interfaces

为了帮助解释基于文本的 flatfile 中包含的数据，研究者开发了图形界面。图 1.1 展示了我们关注的序列（U54469.1）对应 ENA 记录的图形视图示例。当 feature table 中记录了很长一列生物学特征时，这类图形视图尤其有用，因为它能帮助用户直观看到不同生物学特征之间潜在的相互作用或关系。第 2 章关于 NCBI Entrez discovery pathway 的讨论，以及本章后面的内容，还会提供使用图形视图辅助解释数据库记录信息的其他示例。

Figure 1.1

ENA 记录 U54469.1 的登录页面，提供了 Drosophila melanogaster eukaryotic initiation factor 4E（eIF4E）基因序列中生物学特征的图形视图。图形视图中的 tracks 显示了该记录所报告的 2881 bp 序列中，基因、mRNA 和编码区（标记为 CDS）的位置。

图像资产：

005

RefSeq

PDF page 30 - PDF page 31；印刷页码 10-11

▶

第 1 章 Biological Sequence Databases

Box 1.2 RefSeq

本书前几章将介绍序列数据和序列注释进入公共数据库的多种途径。系统性测序项目产生的数据，与单个研究者实验室产生的数据结合在一起，形成了一套丰富且极具价值的序列数据资源；但与此同时，也出现了一些明显的问题。最重要的问题是，同一个生物学实体可能在不同数据库中由许多不同条目表示。此外，有时也并不清楚某条序列究竟是通过实验测定得到的，还是仅仅来自计算预测。

为了解决这些问题，NCBI 开发了 RefSeq 项目。该项目的主要目标，是为中心法则中的每一类分子（DNA、mRNA 和蛋白质）提供一条参考序列。由于每个生物学实体只被表示一次，RefSeq 按定义就是非冗余的。RefSeq 中的核苷酸序列和蛋白质序列彼此之间有明确链接。最重要的是，RefSeq 条目会持续接受人工审查，从而保证 RefSeq 条目能够代表关于某条特定 DNA、mRNA 或蛋白质序列的最新知识状态。

RefSeq 条目通过一套独立的登录号系列，与 GenBank 中的其他条目区分开来。RefSeq 登录号遵循“2 + 6”格式：先是一个表示参考序列类型的双字母代码，随后是一个下划线和一个六位数字。通过实验测定得到的序列数据表示如下：

NT_123456
Genomic contigs (DNA)
NM_123456
mRNAs
NP_123456
Proteins

通过基因组注释工作推导得到的参考序列表示如下：

XM_123456
Model mRNAs
XM_123456
Model proteins

理解“N”编号和“X”编号之间的区别很重要：前者表示真实的、通过实验测定得到的序列，而后者表示从原始 DNA 序列推导出的计算预测结果。

更多类型的 RefSeq 条目，以及关于 RefSeq 项目的更多信息，可以在 NCBI RefSeq 网站上找到。

006

Protein Sequence Databases

PDF page 31；印刷页码 11

▶

第 1 章 Biological Sequence Databases

Protein Sequence Databases

随着原核生物和真核生物众多完整基因组序列的可用，研究者正投入大量精力来鉴定这些基因组所编码的蛋白质，并分析它们的功能。这些蛋白质的大规模分析持续产生海量数据，其中包括蛋白质组学方法（第 11 章）和蛋白质结构分析（第 12 章）等方法所产生的数据，只是其中几个例子。这些方法及其他类似方法使得人们能够迅速鉴定大量蛋白质，绘制它们之间的相互作用（第 13 章），确定它们在细胞中的位置，并分析它们的生物学活性。这一不断增长的“信息空间”进一步强化了蛋白质序列数据库的核心地位：这些数据库承担着存储这些努力所产生数据的任务，并将其免费提供给生命科学社区。

由于蛋白质数据库中的大多数序列数据都来源于核苷酸序列的翻译，因此在很大程度上可以把它们视为“二级数据库”。通用蛋白质序列数据库涵盖所有物种的蛋白质，而专门的蛋白质序列数据库则聚焦于特定蛋白家族、蛋白群或某个特定生物体。具有代表性的模式生物数据库包括 Mouse Genome Database（MGD；Smith et al. 2018）和 WormBase（Lee et al. 2018）等（Baxevanis and Bateman 2015; Rigden and Fernández 2018）。关于生物体序列数据库的内容将在第 2 章更详细讨论。

通用蛋白质数据库还可以进一步分为两大类：序列库，即数据几乎不经过人工干预或几乎不经人工干预即存储的数据库；以及人工审查数据库，即专家通过专业人工审查对原始数据进行增强。确保互操作性、建立并实施标准、采用旨在准确表示序列数据库中生物学知识的最佳实践，其重要性无论怎样强调都不为过。事实上，这些审查目标如此重要，以至于还有一个名为 International Society for Biocuration 的组织，其主要使命就是推进这些核心原则。

007

The NCBI Protein Database

PDF page 32；印刷页码 12

▶

第 1 章 Biological Sequence Databases

The NCBI Protein Database

NCBI 维护着 Protein database，其内容来源于多个不同来源。其中包括上文所述的 INSDC 数据库中已注释编码区的翻译结果、RefSeq（Box 1.2），以及 NCBI 的 Third Party Annotation（TPA）数据库。TPA 数据集本身就很有意思，因为它收录了由科学界提供的实验数据和推断数据，用于补充 INSDC 核苷酸条目中的信息。顾名思义，TPA 中的信息由第三方提供，而不是由对应 INSDC 条目的原始提交者提供。NCBI Protein database 还包括来自非 NCBI 来源的其他蛋白质序列数据，例如 Swiss-Prot、PIR、PDB 和 Protein Research Foundation。关于如何对 NCBI Protein database 执行检索的逐步方法，将在第 3 章中详细介绍。

008

UniProt

PDF page 32 下半 - PDF page 35 上半；印刷页码 12-15

▶

第 1 章 Biological Sequence Databases

UniProt

数据仓库固然是科学家尽可能快速获取序列数据的重要途径，但显然，如果再加入来自多个高度可信来源的生物学信息，底层序列数据的效力就会大大增强。UniProt Consortium 正是为了实现这一点而成立的，它把 Swiss-Prot、TrEMBL 和 Protein Information Resource Protein Sequence Database 统一纳入一个称为 UniProt 的框架之下（UniProt Consortium 2017）。UniProt 包含三个主要数据库：UniProt Archive，即对来自多种源数据库的所有公开蛋白质序列进行汇编而成的非冗余集合；UniProtKB，它整合了 UniProtKB/Swiss-Prot 和 UniProtKB/TrEMBL 的条目；以及 UniProt Reference Clusters（UniRef），它提供 UniParc 和 UniProtKB 中数据的非冗余视图，并在三个不同的序列一致性水平上进行聚类（Suzek et al. 2015）。

UniProtKB 条目所包含的信息之丰富，最适合通过一个实例来说明。这里我们以人类 heterogeneous nuclear ribonuclear protein A1 的条目为例，其 accession number 为 P09651。使用该 accession number 作为检索词搜索 UniProtKB，得到的界面如图 1.2 所示。左侧栏下半部分显示了该蛋白可用的信息类型，用户可以根据自己的兴趣选择或取消选择相应部分。窗口的主体部分提供该序列的基本识别信息，并指出该条目是否已由 UniProtKB 人工审查人员手工审查和注释。这里我们可以看到，这一条目确实已经经过审查，而且有实验性证据支持该蛋白的存在。文件中的下一部分用于传达功能信息，同时给出与该条目相关的 Gene Ontology（GO）术语，以及指向 Reactome 等酶和通路数据库的链接（见第 13 章）。点击左侧栏中的任意蓝色块，用户就会跳转到条目的相应部分。例如，如果点击 Subcellular location，便会得到图 1.3 所示的视图，其中展示了一个颜色编码的细胞示意图，说明注释类型（人工或自动），并提供支持该注释的文献链接。图 1.3 的下半部分还显示了该蛋白与疾病相关的信息，记录了与早发型 Paget 病和肌萎缩侧索硬化症相关的变体（Kim et al. 2013; Liu et al. 2016）。

在 UniProtKB 窗口的左上角，有一些显示选项，对于可视化该条目 feature table 中的大量数据非常有用。点击 Feature viewer 后，会出现图 1.4 所示的视图，以坐标化方式清晰总结了该序列的注释。任何部分都可以通过点击图形左侧蓝色方框中的标签来展开。这里已经展开了 post-translational modification（PTM）部分，显示该蛋白中修饰残基的位置；点击轨道中的任一标记都会弹出窗口，提供关于该 PTM 的更多信息，以及相关文献链接。

在图 1.5 中，Structural features 和 Variants 两部分也已展开，显示了蛋白内所有 alpha helices、beta strands 和 beta turns 的位置，以及推定具有临床相关性的点突变位置。这里高亮显示的是位置 351 的一个变体；作为 ClinVar project（Landrum et al. 2016）的一部分所识别出的 proline-to-leucine 变体，可能与 relapsing–remitting multiple sclerosis 有关。通过查看这一非常有用的图形显示中的不同部分，用户可以开始看到各类特征如何彼此重叠，这或许能提示一个已知或预测的致病变体是否位于蛋白的某个结构区域内。这些注释和观察可为实验设计和实验数据解释提供重要启发。

Figure 1.2

以 accession number P09651 作为检索词，在 UniProtKB 中搜索人类 heterogeneous nuclear ribosomal protein A1 记录得到的结果。详见正文。

Figure 1.3

UniProtKB 中人类 heterogeneous nuclear ribosomal protein A1 记录的 Subcellular location 和 Pathology & Biotech 部分。点击窗口左侧栏中的蓝色图块即可访问这些部分。详见正文。

Figure 1.4

UniProtKB 中人类 heterogeneous nuclear ribosomal protein A1 记录的 Feature viewer 渲染图。点击窗口左上方的 Display 链接，可以进入 Feature viewer。点击图形左侧蓝色框中的标签，可展开任一部分。详见正文。

Figure 1.5

在 Feature viewer 显示中展开 PTM、Structural features 和 Variants 部分，可以显示人类 heterogeneous nuclear ribosomal protein A1 中所有 post-translational modifications（PTMs）、alpha helices、beta strands 和 beta turns 的位置，以及推定具有临床相关性的点突变位置。点击任一变体会弹出包含更多信息的窗口；这里弹出的窗口提供了该序列 351 位 proline-to-leucine 变体的疾病关联数据。详见正文。

图像资产：

PDF 插图 (3 页)

figure_1_3_page_render

figure_1_4_page_render

figure_1_5_page_render

009

Summary + Box 1.3 Ensuring the Continued Quality of Data in Public Sequence Databases

PDF page 36 - PDF page 37 上半；印刷页码 16-17

▶

第 1 章 Biological Sequence Databases

Summary

基因组学和蛋白质组学领域的发现速度极快，这要求数据库的构建方式不仅要便于存储这些数据，还要便于对数据库中的信息进行高效处理和检索。几十年来，研究者在如何处理数据库设计和内容方面的关键问题上积累了许多经验，其中不少经验来之不易。因此，持续发展现有数据库，并构想和创建新类型数据库，将成为推动生物学发现进步的关键焦点。正如本章已经清楚展示的那样，保持数据库的及时更新和准确性，是一项需要生物学界积极参与的任务（Box 1.3）。因此，所有用户都有责任以积极方式确保这些数据的准确性，与人工审查人员保持持续对话，使这些被广泛使用的资源能够继续成为全球生物学家的宝贵资源。

Box 1.3 确保公共序列数据库中数据的持续质量

鉴于 DDBJ、EMBL 和 GenBank 承担着维护所有公开 DNA、RNA 和蛋白质序列档案的职责，这一资源能否持续发挥作用，在很大程度上取决于其中数据的质量。尽管一条记录在公开之前会经过高度的人工和自动检查，错误仍然会进入数据库。这些错误可能很轻微，并不产生生物学后果（例如邮政编码错误）；也可能具有误导性（例如某个生物体的属名正确，但种名错误）；甚至可能完全错误（例如一条全长 mRNA 没有标注 CDS）。有时，记录中的参考文献区块也可能不正确，使研究者无法链接到描述该序列的正确出版物。长期以来，许多人已经积极报告这些错误；但更多时候，这些错误仍未得到纠正。

虽然 INSDC 的各个成员负责托管和传播其数据库中的数据，但请记住，数据的所有权属于最初提交者，而只有这些最初提交者（或其指定人员）才能更新自己的数据库记录。为了尽可能保持这些社区资源的准确和及时更新，用户在工作中使用数据库时，如果发现任何错误，都被积极鼓励报告出来，以便数据库管理员能够在适当情况下与最初提交者跟进。

下面列出的是目前向三大序列数据库提交错误信息的电子邮件地址。由于所有数据库每晚都会相互共享信息，因此只需要向联盟中的任意一个成员报告错误即可。作者也被积极鼓励定期检查自己的记录，以确保他们此前提交的信息仍然准确。虽然这里是在三大序列数据库的背景下讨论这一社区责任，但所有数据库都提供类似机制，使错误信息能够被提交给数据库管理员。

DDBJ

ddbjupdt@ddbj.nig.ac.jp

EMBL

datasubs@ebi.ac.uk

GenBank

gb-admin@ncbi.nlm.nih.gov

如上所述，公开可用数据的范围显然远远超出人类数据，也并不限于序列类数据。由于主要公共序列数据库需要以相当通用的方式存储数据，这些数据库往往并不包含某些生物学群体所感兴趣的更专门类型的信息。为了解决这一问题，许多较小的专业数据库应运而生，并由身处“一线”的生物学家开发和人工审查，以满足特定需求。这些数据库包含的信息从品系杂交到基因表达数据不等，是对那些更广为人知的公共序列数据库的重要补充；也鼓励用户明智地同时使用这两类数据库。此类数据库的带注释清单可见于 Nucleic Acids Research 每年出版的 Database 专刊（Rigden and Fernández 2018）。

本章之所以放在本书开头，是因为本书认为，理解生物学数据库，是能够开展稳健、准确的生物信息学分析的第一步。强烈建议读者花时间理解这些数据库中数据的结构，因为这是寻找感兴趣序列数据，并开展后续章节所述更高级分析的基础。

010

Acknowledgments + Internet Resources

PDF page 37 中部；印刷页码 17

▶

第 1 章 Biological Sequence Databases

Acknowledgments

作者感谢 Rolf Apweiler 允许使用本书第三版中的材料。

Internet Resources

DDBJ 数据库分部

www.ddbj.nig.ac.jp/ddbj/data-categories-e.html

日本 DNA 数据库（DDBJ）

www.ddbj.nig.ac.jp

EMBL 核苷酸序列数据库

www.embl.org

ENA 数据格式

www.ebi.ac.uk/ena/submit/data-formats

欧洲生物信息学研究所

www.ebi.ac.uk

GenBank

www.ncbi.nlm.nih.gov

GenBank 数据库分部

www.ncbi.nlm.nih.gov/genbank/htgs/divisions

Genome Ontology Consortium

geneontology.org

INSDC Feature Table 定义

insdc.org/documents/feature_table.html

International Society for Biocuration

biocuration.org

NCBI 数据模型

www.ncbi.nlm.nih.gov/IEB/ToolBox/SDKDOCS/DATAMODL.HTML

NCBI Protein Database

www.ncbi.nlm.nih.gov/protein

Nucleic Acids Research Database 专刊

academic.oup.com/nar

Protein Data Bank（PDB）

www.rcsb.org

Protein Identification Resource（PIR）

pir.georgetown.edu

Protein Research Foundation

www.proteinresearch.net

RefSeq

www.ncbi.nlm.nih.gov/refseq

Swiss-Prot（EBI）

www.ebi.ac.uk/uniprot

Swiss-Prot（ExPASy）

web.expasy.org/docs/swiss-prot_guideline.html

UniProt Consortium

www.uniprot.org

011

第 1 章 Biological Sequence Databases

References

PDF page 38；印刷页码 18

▶

第1章生物序列数据库

参考文献

Apweiler, R. (2001). Swiss-Prot 中的功能信息：大规模蛋白质序列表征的基础。Briefings Bioinf. 2:9-18.

Bairoch, A. (2000). 生物信息学中的意外发现：一位瑞士生物信息学家在激动人心时代的艰辛历程！Bioinformatics. 16:48-64.

Baxevanis, A.D. and Bateman, A. (2015). 生物数据库在生物学发现中的重要性。Curr. Protoc. Bioinf. 50:1.1.1-1.1.8.

Benson, D.A., Cavanaugh, M., Clark, K. et al. (2018). GenBank。Nucleic Acids Res. 46:D41-D47.

Cook, C.E., Bergman, M.T., Cochrane, G. et al. (2018). 2017年的欧洲生物信息学研究所：数据协调与整合。Nucleic Acids Res. 46:D21-D29.

Dayhoff, M.O., Eck, R.V., Chang, M.A., and Sochard, M.R. (1965). 蛋白质序列与结构图谱。Silver Spring, MD: National Biomedical Research Foundation.

Gene Ontology Consortium (2017). 基因本体知识库的扩展与资源。Nucleic Acids Res. 45:D331-D338.

Green, E.D., Rubin, E.M., and Olson, M.V. (2017). DNA测序的未来。Nature. 550:179-181.

Karsch-Mizrachi, I., Tagaki, T., and Cochrane, G., on behalf of the International Nucleotide Sequence Database Collaboration (2018). 国际核苷酸序列数据库协作组织。Nucleic Acids Res. 46:D48-D51.

Kim, H.J., Kim, N.C., Wang, Y.D. et al. (2013). hnRNPA2B1和hnRNPA1中朊病毒样结构域的突变导致多系统蛋白病和肌萎缩侧索硬化症。Nature. 495:467-473.

Kodama, Y., Mashima, J., Kosuge, T. et al. (2018). 日本DNA数据库：30周年。Nucleic Acids Res. 46:D30-D35.

Landrum, M.J., Lee, J.M., Benson, M. et al. (2016). ClinVar：临床相关变异解读的公共档案库。Nucleic Acids Res. 44:D862-D868.

Lee, R.Y.N., Howe, K.L., Harris, T.W. et al. (2018). WormBase 2017：蜕皮进入新阶段。Nucleic Acids Res. 46:D869-D874.

Lipman, D.J. and Pearson, W.R. (1985). 快速而灵敏的蛋白质相似性搜索。Science. 227:1435-1441.

Liu, Q., Shu, S., Wang, R.R. et al. (2016). 全外显子组测序在一个"连枷臂"肌萎缩侧索硬化症家系中鉴定出hnRNPA1的错义突变。Neurology. 87:1763-1769.

Rigden, D.J. and Fernández, X.M. (2018). 2018年《核酸研究》数据库专辑与在线分子生物学数据库集合。Nucleic Acids Res. 46:D1-D7.

Silvester, N., Alako, B., Amid, C. et al. (2018). 2017年的欧洲核苷酸档案库。Nucleic Acids Res. 46:D36-D40.

Smith, C.L., Blake, J.A., Kadin, J.A. et al., and The Mouse Genome Database Group (2018). 小鼠基因组数据库（MGD）-2018：实验小鼠的知识库。Nucleic Acids Res. 46:D836-D842.

Suzek, B.E., Wang, Y., Huang, H. et al., and The UniProt Consortium (2015). UniRef簇：改进序列相似性搜索的全面且可扩展的替代方案。Bioinformatics. 31:926-932.

UniProt Consortium (2017). UniProt：通用蛋白质知识库。Nucleic Acids Res. 45:D158-D169.

---

本章由 Andreas D. Baxevanis 博士以私人身份撰写。美国国立卫生研究院或美国卫生与公众服务部不为此提供任何官方支持或认可，也不应据此推断。

Chapter 2

Information Retrieval from Biological Databases

013

Introduction

PDF page 39 - PDF page 40 顶部；印刷页码 19-20

▶

2 信息检索：从生物数据库中获取信息

引言

2003 年 4 月 14 日，生物学界庆祝人类基因组计划主要目标的达成：以完整、准确且高质量的方式完成人类基因组测序（International Human Genome Sequencing Consortium 2001; Schmutz et al. 2004）。许多人将这一成就与人类登月相提并论；它深刻改变了生物医学研究的开展方式，并且无疑仍将在未来持续影响这一领域的发展方向。人类基因组数据、人类序列变异数据、模式生物序列数据，以及关于基因结构和功能的信息，共同为生物学家更好地设计和解释实验室实验提供了丰厚基础，也兑现了生物信息学促进并加速生物学发现的承诺。

对生物学家而言，最重要的数据库之一是 GenBank——一个带有注释、收录所有公开可用 DNA 和蛋白质序列的集合（Benson et al. 2017；见第 1 章）。该数据库由美国国立卫生研究院（NIH）下属的美国国立生物技术信息中心（NCBI）维护，是 NCBI、欧洲分子生物学实验室（EMBL）和日本 DNA 数据库（DDBJ）协作的成果。本书撰写时，GenBank 已包含超过 2 亿条序列和超过 300 万亿个核苷酸碱基。人类基因组测序的完成、不断扩大的模式生物基因组测序，以及总体上急剧增长的序列数据，为生物科学家提供了非凡机会，因为这些数据本身具有巨大的内在价值。但与此同时，对缺乏经验的用户来说，如此庞大的数据体量也构成了难题——不仅因为“序列信息空间”规模巨大，也因为即便人类基因组测序早已“完成”，这个信息空间仍在以飞快且持续加速的速度扩张。

GenBank 的增长情况（图 2.1）清楚显示了人类基因组计划和其他系统性测序项目对序列数据持续积累的影响；图中所示的指数增长预计在未来一段时间内仍将持续。“序列空间”在不断扩张，由此产生的海量生物数据也同样迅速增长。这一事实凸显出所有生物学家都需要学习如何有效导航这些信息：既要在自己的工作中高效利用这些数据，也要在可能的情况下，基于这些虚拟宝库中已有的数据避免开展昂贵而重复的实验。

如果 GenBank（或任何其他生物数据库）中的数据不能被方便地检索，条目也不能以有用而有意义的格式获取，那么它几乎没有实际价值。否则，上述测序工作就无法真正发挥作用：没有有效的搜索和检索工具，整个生物学界既无法利用隐藏在数十亿碱基和氨基酸中的信息，也无法利用这些分子形成的结构或其中携带的突变信息。为使这些数据能被生物学家实际访问和使用，研究界已经投入了大量努力；本章关注的正是这些努力所产生的程序和界面。本章讨论将以 NCBI 维护的数据库查询为中心，因为这些较为“通用”的数据存储库是生物学家最常访问的资源；同时，本章也会介绍一些专门数据库，它们提供的信息未必能通过 Entrez——NCBI 的综合信息检索系统——获得。

---

图 2.1 GenBank 的指数增长（以核苷酸数量——方块，单位为十亿，和提交的序列数量——圆圈，单位为千计）。图的数据来源获取自美国国立生物技术信息中心（NCBI）网站。请注意，1997 年后加速增长的时期恰逢人类基因组计划的遗传和物理作图目标的完成，为高准确性、高通量测序以及新技术开发奠定了基础（Collins et al. 1998, 2003; Green et al. 2011）。

014

Integrated Information Retrieval: The Entrez System

PDF page 40 - PDF page 58 "Organismal Sequence Databases Beyond NCBI" 标题前；印刷页码 20-38

▶

集成信息检索：Entrez 系统

---

概述

Entrez 是 NCBI 维护的集成信息检索系统，它充分利用了多个公共数据库条目之间既有的逻辑关系。例如，PubMed 中的一篇论文可能描述了某个基因的测序，而该基因的序列则收录在 GenBank 中；这段核苷酸序列进一步编码一种蛋白质产物，而其序列存储在 NCBI 的蛋白质数据库中；该蛋白质的三维结构可能已经解析，其坐标可能出现在 NCBI 的 Structure 数据库中；最后，该基因还可能存在等位基因或结构变异记录，分别编目于 dbSNP 或 dbVar 等数据库。正是这些具有生物学基础的自然联系，促使人们开发出一种方法，使用户不必逐个访问和查询各个数据库，也能找到关于某一特定生物实体的全部相关信息。

Entrez 本身并不是一个数据库，而是一个接口；通过这个接口，用户可以访问并遍历其组成数据库，因此它是一个集成信息检索系统。Entrez 信息空间包括 PubMed 记录、核苷酸和蛋白质序列数据、保守蛋白质域信息、三维结构信息，以及具有潜在临床意义的基因组变异数据；本章将讨论其中相当一部分。Entrez 的优势在于，用户只需提交一个——也就是仅仅一个——查询，就可以跨大量组成数据库访问这些信息。这种非常强大的集成方法，是通过两类数据库条目连接实现的：邻近关系（neighboring）和硬链接（hard links）。

---

数据库条目之间的关系：邻近关系

邻近关系这一概念，使同一数据库内部的条目能够彼此关联。如果用户正在查看某个 PubMed 条目，就可以让 Entrez “查找” PubMed 中与原始论文主题相似的所有其他论文。同样，如果用户正在查看一个序列条目，Entrez 也可以返回与原始序列相似的其他序列。数据库内邻近关系的建立基于统计相似性度量，其中一些度量将在下文更详细地说明。虽然“邻近”一词传统上用于描述这些连接，但在 NCBI 网站的当前术语中，邻近条目被称为“相关数据”。

BLAST 生物序列相似性通过 Basic Local Alignment Search Tool（即 BLAST；Altschul 等，1990）检测和比较。该算法试图找出高评分片段对（high-scoring segment pairs）——可相互比对且比对后符合特定评分和统计学标准的序列对。第 3 章将详细讨论 BLAST 算法家族及其应用。

VAST 分子结构相似性通过一种基于向量的方法来检测，该方法称为 VAST（Vector Alignment Search Tool，向量比对搜索工具；Gibrat 等，1996）。VAST 使用几何标准评估三维结构域之间的相似性，其比较过程包括三个主要步骤：

首先，基于已知的三维坐标数据，识别构成每个蛋白质结构核心的 α 螺旋和 β 折叠。然后，根据这些二级结构元素的位置计算直线向量。VAST 追踪每个向量如何连接到下一个向量（即一个向量的 C 端如何连接到下一个向量的 N 端），以及每个向量代表 α 螺旋还是 β 折叠。后续比较步骤仅使用这些向量来评估与其他蛋白质的结构相似性——因此，实际上大部分费力推导出的原子坐标数据在这一步被丢弃。这种明显简化的原因仅仅是问题规模：截至本文撰写时，分子建模数据库（MMDB；Madej 等，2014）中已有约 15 万个结构，如果要将每个结构与 MMDB 中的所有其他结构进行深入比较，所需时间将使计算变得既不切实际也不可行。

其次，算法尝试最佳对齐这些向量组，寻找类型和相对方向相同且各元素间连接性一致的二级结构对。其目标是识别高度相似的"核心亚结构"——代表统计显著匹配的对，其匹配程度高于随机选择的两蛋白进行比较所能获得的匹配程度。

最后，使用蒙特卡罗（随机搜索）方法在每个残基位置进行细化，以优化结构对齐。最终对齐无需全局对齐，因为匹配可能涉及被比较蛋白质的各个结构域。

2014 年，VAST 引入了一项重大改进。这种新方法称为 VAST+（Madej 等，2014），不再局限于通过比较各个三维域来评估结构相似性；相反，它考虑大分子复合物内的整套三维域。这种方法实质上将比较从三级结构层面提升到四级结构层面，能够识别相似的功能多亚基组装体。在 VAST+ 的术语中，大分子复合物被称为"生物单元"（biological unit），不仅包括构成该复合物的蛋白质，还包括有结构信息可用的核苷酸和化学物质。VAST+ 比较从 VAST 描述的步骤开始，然后经过多个步骤：识别可叠加的生物单元、计算叠加结构的均方根偏差（RMSD）作为叠加的定量度量，最后执行细化步骤以改善叠加的 RMSD 值。该过程的结果是获得全局结构对齐，可以识别被比较分子的相似和差异部分；从生物学角度，可以促进形状相似蛋白质之间的比较；也可用于研究单个复合物在不同条件下的构象变化。虽然 VAST+ 现在是 Entrez 系统中识别结构邻近的默认方法，但需注意该算法依赖于 PDB 坐标数据记录中明确标识的生物单元——这些记录是 MMDB 记录的基础；如果没有定义此类生物单元，则使用原始 VAST 算法进行比较。

通过使用 VAST 和 VAST+ 等方法，可以发现在仅查看序列相似性时可能无法提示关联的蛋白质之间的关系——这些信息可与额外数据和见解结合，用于帮助推断功能相似性。关于基于 X 射线或核磁共振（NMR）坐标数据的其他结构预测方法的更多信息，请参见第 12 章。

加权关键词项 与比较 PubMed 条目相比，比较序列或结构数据反而显得相对直接；PubMed 条目由自由文本组成，其语法规则并不总是固定。由于不同作者的写作风格不可能完全相同，如何比较表面上差异很大的文本块，是一个相当棘手的问题。Entrez 采用一种称为相关对检索模型的方法来进行此类比较，该模型基于加权关键词项（Wilbur and Coffee 1994；Wilbur and Yang 1996）。这一概念最好通过例子来说明。考虑两篇手稿，其标题如下：

BRCA1 as a Genetic Marker for Breast Cancer
Genetic Factors in the Familial Transmission of the Breast Cancer BRCA1 Gene

两个标题都包含 BRCA1、Breast 和 Cancer 这三个词，这些共同词的存在可能表明这两份手稿的主题相似。还考虑词之间的接近程度，因此两个记录中共同的、彼此接近的词比彼此距离较远的共同词得分更高。在上述例子中，Breast 和 Cancer 两个词总是相邻出现，因此根据接近度得分会高于其中任一词与 BRCA1 的得分。标题中发现的常用词比摘要正文中发现的常用词得分更高，因为标题词被认为比摘要正文中的词"更重要"。总体而言，加权取决于某个词在 PubMed 所有条目中出现频率的倒数，数据库中不常出现的词被赋予较高权重，而常用词则被降低权重。

---

硬链接

硬链接的概念比上述邻近方法简单直接得多。硬链接用于连接不同数据库中的条目；只要条目之间存在逻辑关联，就可以建立硬链接。例如，如果一个 PubMed 条目描述了包含感兴趣基因的染色体区域的测序，则在 PubMed 条目和该基因对应的核苷酸条目之间建立硬链接。如果该基因中的开放阅读框编码已知蛋白质，则在核苷酸条目和蛋白质条目之间建立硬链接。如果蛋白质条目具有实验推导的结构，则在蛋白质条目和结构条目之间放置硬链接。

在 Entrez 生态系统中，搜索可以从任何地方开始——对用户进入该信息空间没有限制。然而，根据用作起点的数据库不同，可用于搜索的数据库字段也不同。这不难理解，因为不同数据库中的条目必然以不同方式组织，反映了每个数据库试图编目的生物实体的本质。

---

Entrez 发现路径

说明 Entrez 系统集成特性，并突出邻近关系强大之处的最佳方式，是借助一些具体的生物学实例。查询 Entrez 最简单的方法是使用单独的搜索词，并通过 AND、OR 或 NOT 等布尔运算符连接。考虑一个需要检索关于名为 DCC（deleted in colorectal carcinoma，结肠直肠癌缺失基因）的基因的所有可用信息，并将返回的信息限制在作者中有 Guy A. Rouleau 的发表文献的情况。NCBI 主页顶部有一个非常简单的查询界面，允许用户从下拉菜单中选择要搜索的数据库，并在右侧的文本框中输入查询词。在这种情况下，要搜索已发表的论文，应从下拉菜单中选择 PubMed，在右侧的文本框中输入 DCC AND "Rouleau GA" [AU]。[AU] 限定符表示这是作者词，因此 Entrez 仅在评估搜索语句的该部分时考虑条目中的作者字段。查询结果如图 2.2 所示。

表 2.1 Entrez 布尔搜索语句

通用语法：

search term [tag] Boolean operator search term [tag] ...

其中 [tag] =

标签	含义
[ACCN]	Accession，accession 编号
[AD]	Affiliation，机构
[ALL]	All fields，所有字段
[AU]	Author name，作者名
	`Lentz R [AU]` 匹配 LentzRA、LentzRB 等
	`"Lentz R" [AU]` 仅匹配 LentzR
[AUID]	Unique author identifier，如 ORCID ID
[ECNO]	Enzyme Commission numbers，酶委员会编号
[EDAT]	Entrez date，Entrez 日期
	YYYY/MM/DD、YYYY/MM 或 YYYY；用冒号分隔日期范围，如 2016:2018
[GENE]	Gene name，基因名
[ISS]	Issue of journal，期刊期号
[JOUR]	Journal title，期刊标题、官方缩写或 ISSN
	Journal of Biological Chemistry
	J Biol Chem
	0021-9258
[LA]	Language，语言
[MAJR]	MeSH major topic，主要主题
	文章讨论的主要主题之一
[MH]	MeSH terms
	生物医学受控词汇（主题）
[ORGN]	Organism，生物体
[PDAT]	Publication date，发表日期
	YYYY/MM/DD、YYYY/MM 或 YYYY；用冒号分隔日期范围
[PMID]	PubMed ID
[PROT]	Protein name（for sequence records），蛋白质名（用于序列记录）
[PT]	Publication type，包括：Review、Clinical Trial、Lectures、Letter、Technical Report
[SH]	MeSH subheading，MeSH 副主题词
	用于修饰 MeSH 词
	`stenosis [MH] AND pharmacology [SH]`
[SUBS]	Substance name，物质名称
	文章中讨论的化学物质
[SI]	Secondary source ID
	二次源数据库名称和/或文章中讨论的序列 accession 编号
[TITL]	Title word，标题词
	仅限定义行中的词（Structure 数据库中不可用）
[WORD]	Text words，文本词
	标题和摘要、MeSH 词、副主题词、化学物质名称、以人物姓名为主题和 MEDLINE 二次来源中的所有词和数字
[VOL]	Volume of journal，期刊卷号

布尔运算符 = AND、OR 或 NOT

---

图 2.2 说明（见原书）

图 2.2 使用布尔运算符和字段限定符对 PubMed 执行基于文本的 Entrez 查询的结果。查询（DCC AND "Rouleau GA" [AU]）显示在窗口顶部的搜索框中，其下方显示使用此查询确定的三个文献。每个条目给出稿件标题、作者姓名和引用信息。点击稿件名称可检索实际记录。

---

图 2.2 中显示的查询找到了 PubMed 中匹配该查询的三个条目。用户可以通过添加额外搜索词进一步缩小查询范围——如果用户对该基因的特定方面感兴趣，或者如果初始查询返回的条目实在太多的话。可用字段限定符列表见表 2.1。

对于图 2.2 Summary 视图中显示的每个找到的文献，用户可以看到论文标题、作者和引用。要查看搜索结果中的任何论文，用户只需点击任何超链接标题即可。以第三个参考文献（Srour 等，2010）为例。点击标题会将用户带到图 2.3 所示的 Abstract 视图。该视图提供论文名称、作者列表、机构隶属关系和摘要本身。摘要下方是一条标有"MeSH terms, Substances"的灰色条；点击灰色条末端的加号会显示与稿件相关的编目信息（MeSH terms，医学主题词）和索引物质。可以使用窗口左上角 Format 下拉菜单选择多种显示格式。将显示切换为 MEDLINE 格式会产生 MEDLINE 布局，左侧是每个字段内容对应的双字母代码（例如，作者字段再次用代码 AU 表示）。这种格式的条目列表可以保存到桌面，并轻松导入第三方文献管理程序。

图 2.3 说明（见原书）

图 2.3 通过 Entrez 返回的 PubMed 记录 Abstract 格式示例。该 Abstract 视图对应图 2.2 中显示的第三个参考文献（Srour 等，2010）。该视图通过右侧运行的 Discovery Column 提供相关文章、序列信息和期刊全文的链接。详见正文。

---

该窗口右侧的栏目被恰当地命名为 Discovery Column。它不仅提供论文全文版本的访问入口，更重要的是，还包含许多指向该稿件相关附加信息的有用链接。Similar articles 部分提供了用户可以利用前面描述的邻近和硬链接关系的入口点之一，在下面的示例中，我们将多次返回此页面以说明可用信息类型的精选内容。首先，要开始这段旅程，如果用户点击该部分底部的 See all 链接，Entrez 将返回与原始 Rouleau 论文相关的 104 篇参考文献（截至本文撰写时）；其中前六篇如图 2.4 所示。列表中的第一篇论文就是同一个 Rouleau 论文，因为根据定义，它与自身最相关（"父"条目）。后续论文的排列顺序基于统计相似性。因此，与父条目最近的条目被认为在主题上与父条目最接近。通过浏览标题，用户可以轻松找到其他相关研究的信息，也可以快速收集相关参考文献。当撰写基金申请书或论文时，这是一个特别有用且节省时间的功能，因为可以轻松浏览摘要并快速识别真正感兴趣的论文。

图 2.4 说明（见原书）

图 2.4 在 PubMed 中找到的条目的邻近条目。图 2.3 中的原始条目（Srour 等，2010）位于列表顶部，表示这是父条目。通过点击每个条目下方的 Similar articles 链接，可以找到这些论文各自的邻近条目。详见正文。

---

回到图 2.3 所示的 Abstract 视图，可以看到 Discovery Column 底部有一系列通往 Entrez 系统内其他数据库的硬链接。这些链接能够把用户直接带到与目标出版物广泛相关的信息页面。在这里，选择 Gene 链接会将用户带到 Entrez Gene，这是 Entrez 的一个功能，提供关于相关基因的大量信息（图 2.5）。数据从多种来源收集，包括 RefSeq。这里我们看到 DCC 是人类 netrin-1 受体的官方符号的蛋白质编码基因。Genomic context 部分表明 DCC 是位于 18q21.2 的蛋白质编码基因。

图 2.5 说明（见原书）

图 2.5 人类 DCC（deleted in colorectal carcinoma）netrin-1 受体的 Entrez Gene 页面。条目表明这是位于 18q21.2 的蛋白质编码基因，并提供了 DCC 的基因组背景信息、替代基因名和编码蛋白信息。此外还提供了指向其他 National Center for Biotechnology Information（NCBI）和外部数据库的广泛链接。详见正文。

---

紧接着下方，提供了 DCC 基因的基因组区域、转录本和产物摘要信息，以图形方式呈现并提供基因组坐标。用户可以通过向下滚动 Gene 页面找到图上未显示的其他内容，在那里会找到相关功能信息（如基因表达数据）、相关表型、蛋白质-蛋白质相互作用信息、通路信息、Gene Ontology 注释以及与选定生物体中相似序列的同源信息。Discovery Column 顶部的 Table of Contents 提供这些部分的快捷链接。Discovery Column 进一步下方是指向 NCBI 和其他来源提供的附加资源的广泛链接列表。值得注意的是 SNP:GeneView 链接，将用户带到来自 dbSNP 的数据（图 2.6）。dbSNP 中发现的信息远不止单核苷酸多态性（SNP），还包括短插入和缺失、短串联重复和微卫星等短遗传变异信息。这里，我们将重点放在图 2.6 所示的表格上，这是一种查看单个 SNP 信息的直接方式。每个 SNP 条目占用表格的两行或多行，一行显示 contig 参考序列（较常见的等位基因），另一行或多行显示 SNP（不太常见的等位基因）。

图 2.6 说明（见原书）

图 2.6 单核苷酸多态性数据库（dbSNP）GeneView 页面的部分内容，提供人类 DCC 基因中鉴定出的每个 SNP 的信息。详见正文。

---

考虑表格的前三行，显示 contig 参考序列 G，有两个已记录的 SNP，将该位置的 G 变为 A 或 C。在蛋白质水平上，这会将 DCC 蛋白第 2 位的氨基酸从谷氨酸变为赖氨酸（对于 G 到 A 的替换）或变为谷氨酰胺（对于 G 到 C 的替换）。这些行标为红色，因为这些是"非同义 SNP"——即该 SNP 在氨基酸水平上产生离散变化。相反，考虑表格中第一组绿色行，绿色表示这是"同义 SNP"，其中 contig 参考序列（G）和 SNP 等位基因（A）的密码子最终产生相同的氨基酸（Glu）；这并不完全令人惊讶，因为 SNP 位于密码子的摇摆位，遗传密码在那里经常有冗余。关于人类 SNP 的更多信息，请参见第 15 章。

再次从图 2.3 所示的 Abstract 视图开始，可以通过点击右侧 Related information 部分中的 Protein (RefSeq) 链接找到链接到该摘要的 RefSeq 蛋白质序列，产生如图 2.7 所示的视图。请注意，除一个条目外，所有条目都标记为"预测的"；列表中最后一个条目的 accession 编号以 NP 开头，表示包含实验确定或验证的序列（见 Box 1.2）。点击该条目第一行（编号 6）会将用户带到图 2.8 所示的视图，即 netrin 受体——DCC 基因蛋白质产物的 RefSeq 条目。特征表——GenBank 条目中列出该蛋白质序列中每个已记录生物学特征的位置和特征的部分，如翻译后修饰、可识别的重复单元、二级结构区域和临床相关变异——在这种情况下特别长。这使得难以确定各特征之间的相对方向，可能导致用户错过生物学特征之间的重要相互作用或关系。幸运的是，可以通过点击条目顶部的 Graphics 链接访问提供特征表中元素鸟瞰图的查看器，产生如图 2.9 所示的更容易理解的显示。提供了缩放控制，将光标悬停在显示中的任何元素上会产生包含 GenBank 条目中该特征的具体信息的弹出框。

图 2.7 说明（见原书）

图 2.7 RefSeq 蛋白质数据库中对应图 2.3 中原始 Srour 等（2010）条目的条目。可以点击任何 accession 编号访问和检查条目。详见正文。

---

图 2.8 说明（见原书）

图 2.8 人类 DCC 基因蛋白质产物 netrin 受体的 RefSeq 条目。条目顶部的 FASTA 链接提供以 FASTA 格式快速访问蛋白质序列，而 Graphics 链接提供图形视图，显示该条目特征表中捕获的所有单个元素（见图 2.9）。详见正文。

---

图 2.9 说明（见原书）

图 2.9 图 2.8 中所示的人类 netrin 受体 RefSeq 条目，现以图形格式呈现。用户只需将光标悬停在显示中的任何元素上，即可了解该视图中的各个元素；右下角的弹出框就是这样一个例子，显示序列第 1267 位磷酸化位点的信息。视图窗口顶部有缩放和导航控制，使用户能够在更广泛的基因组背景下理解该基因。

---

从这里，用户还可以通过检查 Discovery Column 中提供的蛋白质结构进入结构领域。点击 See all 9 structures 链接会将用户带到图 2.10 所示的视图，列出与 netrin 受体相关的结构条目。第二个条目是 netrin-1 与 DCC 受体复合物片段的晶体结构（PDB:4URT；Finci 等，2014），点击该条目标题会将用户带到图 2.11 所示的结构摘要页面。从右侧开始，Interactions 窗口显示该生物单元中各元素之间的关系，这里由 netrin-1 蛋白（圆形 A）、DCC 受体（圆形 B）和五个不同的化学实体（菱形 1-5）组成。三维结构显示在左侧面板中，可以通过点击该面板左下角带对角箭头的方块进一步查询结构。此操作将启动 iCn3D（意为"I see in 3-D"），这是一个基于网络的查看器，允许旋转结构、提供颜色和渲染选项以增强可视化，并提供各种附加选项；读者可参考 iCn3D 在线文档了解具体信息。在 4URT 结构摘要页面右上角有一个指向相似结构的链接，由 VAST+ 判定。点击 VAST+ 链接会产生图 2.12 所示的输出，这里显示被认为与查询（4URT）具有相似生物单元的前 10 个（共 256 个）结构；此处显示的表格按所有比对残基的 RMSD（单位为 Å）排序，从最小到最大。

图 2.10 说明（见原书）

图 2.10 与图 2.8 和 2.9 所示的人类 netrin 受体 RefSeq 条目相关的蛋白质结构。每个结构的描述都是超链接的，允许用户访问该条目的结构摘要页面（见图 2.11）。每个条目下方的单个链接允许快速访问相关结构和蛋白质、保守域信息以及 iCn3D 查看器。

---

图 2.11 说明（见原书）

图 2.11 pdb:4URT 的结构摘要页面，即 netrin-1 与 DCC 受体复合物片段的晶体结构（Finci 等，2014）。条目显示相应分子建模数据库（MMDB）条目的头部信息、指向报告该结构的论文的链接以及用于确定该结构的方法（此处为 X 射线衍射，分辨率为 3.1 Å）。

---

图 2.12 说明（见原书）

图 2.12 通过 VAST+ 识别与 4URT 相似的结构。前 10 个（共 256 个）具有与查询相似的生物单元的结构。表格按所有比对残基的 RMSD（单位为 Å）排序。

---

医学数据库

虽然许多研究人员把注意力集中在基于序列的数据上，但经过编目和组织的序列库并不是唯一对生物医学研究界有用的数据库类型。此类数据库中一个非常重要的例子是在线人类孟德尔遗传数据库（Online Mendelian Inheritance in Man，OMIM）。OMIM 是 Victor McKusick 最初于 1966 年创立的人类基因与遗传疾病权威目录的电子版本（McKusick 1966, 1998；Amberger 等，2014）。该数据库由约翰斯·霍普金斯大学医学院编写和维护，基于已发表文献提供简明的文字信息，覆盖大多数具有遗传基础的人类疾病；在适当情况下，它还提供用于说明相关疾病或障碍的图片、完整引用信息，以及大量有用的外部资源链接（其中部分将在下文介绍）。正如下例所示，对 OMIM 的基本了解，应当成为关注遗传疾病临床方面的医师科学家的必备知识储备。

OMIM 采用明确的编号系统，每个条目都有一个唯一编号，即 “MIM 编号”。它类似于 accession 编号，而且编号中的某些位置还携带关于遗传疾病本身的信息。第一个数字表示该疾病的遗传模式：1、2 和 6 表示常染色体基因座或表型，3 表示 X 连锁基因座或表型，4 表示 Y 连锁基因座或表型，5 表示线粒体基因座或表型。MIM 编号前的星号（*）表示基因，井号（#）表示描述表型的条目，加号（+）表示该条目描述的是同时具有已知序列和表型的基因，百分号（%）表示已确认的孟德尔表型或基因座，但其潜在分子基础尚不清楚。如果某一条目尚未明确建立孟德尔遗传基础，则其 MIM 编号前不加任何符号。

这里继续沿用前一小节中的 Entrez 示例：从图 2.3 的 Discovery Column 中点击 OMIM（引用）链接。系统首先显示一个中间登录页，列出两个条目：一个是 DCC 基因，另一个是描述镜像运动（mirror movements）表型的条目（图 2.13）。点击第二个条目后，用户会进入 DCC 基因的 OMIM 页面（图 2.14）。该条目的 Text 部分对这一基因的鉴定、结构、相关生化特征、定位信息、基因功能、分子遗传学概况以及动物模型研究进行了权威的综合概述。对于刚开始研究某个新基因或遗传疾病的人来说，OMIM 条目中这一由专家人工审查的部分应视为“必读内容”，因为它概括了给定基因最重要的方面，并在正文中嵌入了原始研究文献引用。

图 2.13 与 DCC 基因相关的在线人类孟德尔遗传数据库（OMIM）条目。第一个条目前的井号（#）表示该条目描述的是一种表型，即镜像运动；第二个条目前的星号（*）表示该条目是基因条目，即 DCC 基因。

图 2.14 DCC 基因的在线人类孟德尔遗传数据库（OMIM）条目。OMIM 中的每个条目都包含基因符号、疾病的替代名称、疾病描述、临床概要以及参考文献等信息。详见正文。

等位基因变异列表（list of allelic variants）是该条目中特别有用的功能（图 2.15）。每个等位基因变异后都附有简要说明，用来描述该特定突变导致的临床或生化结果。本文撰写时，已有超过 5200 个 OMIM 条目包含至少一个导致或关联于人类离散表型的等位基因变异。需要注意的是，图 2.15 所示的等位基因变异会产生截然不同的临床结果——两种不同类型的癌症，以及本示例中讨论的运动障碍。这是一个很有启发性的案例，说明同一基因中的不同突变可以导致截然不同的遗传疾病。

图 2.15 可通过在线人类孟德尔遗传数据库（OMIM）获得的等位基因变异列表示例。该图显示 DCC 基因四个等位基因变异中的三个。其中两个已记录变异会导致消化道癌症，另有两个与运动障碍相关。每个等位基因变异下方的描述提供了该特定突变的相关信息。

这些典型条目中描述的观察结果以及由此衍生的类似研究，通常会为临床试验奠定基础；这些试验的目标，是把相关知识转化为新的预防和治疗策略。NIH 的核心临床试验信息来源 ClinicalTrials.gov 收录了由公共机构和私人机构资助的临床试验数据。全球正在进行的临床试验数量非常庞大。图 2.16 显示了本文撰写时正在积极招募结直肠肿瘤患者的 4600 余项临床试验中的前八项。点击某个方案名称后，用户会进入相应研究的信息页面，其中包括首席研究员姓名和联系信息。点击页面顶部的 On Map 标签，则会生成一张可点击的世界地图，显示各地区或国家正在进行的临床试验数量（图 2.17）；这种视图有助于识别距离潜在研究受试者住所较近的试验。

作为科学家，我们往往倾向于关注本章其余部分讨论的那些数据库和信息类型。然而，临床试验网站无疑是本章所介绍资源中最重要的网站之一，因为它为患有特定遗传或代谢疾病的患者提供了一条途径，使他们有机会获得最新的前沿治疗，而这种治疗可能实质性改善其生活质量。

---

术语表

英文术语	中文译名	备注
Integrated Information Retrieval	集成信息检索
Entrez	Entrez	NCBI 的信息检索系统，保留英文
neighboring	邻近关系	传统译法
hard links	硬链接	数据库术语
BLAST	BLAST	Basic Local Alignment Search Tool，保留英文
VAST	VAST	Vector Alignment Search Tool，保留英文
VAST+	VAST+	保留英文
Weighted Key Terms	加权关键词项
Relevance Pairs Model	相关对检索模型
Discovery Column	Discovery Column	NCBI 界面元素，保留英文
Discovery Pathway	发现路径
Boolean operators	布尔运算符
Field delimiters / tags	字段限定符
dbSNP	dbSNP	Database of Single Nucleotide Polymorphisms，保留英文
dbVar	dbVar	Database of Genomic Structural Variation，保留英文
MMDB	MMDB	Molecular Modeling Database，保留英文
PubMed	PubMed	保留英文
GenBank	GenBank	保留英文
RefSeq	RefSeq	保留英文
PDB	PDB	Protein Data Bank，保留英文
iCn3D	iCn3D	"I see in 3-D"，保留英文
RMSD	RMSD	Root-mean-square deviation，保留英文
SNP	SNP	Single Nucleotide Polymorphism，保留英文
Gene Ontology	Gene Ontology	基因本体论
Entrez Gene	Entrez Gene	保留英文
biological unit	生物单元	VAST+ 术语
netrin-1 receptor / DCC	netrin-1 受体 / DCC	结肠直肠癌缺失基因

PDF 插图 (14 页)

015

Organismal Sequence Databases Beyond NCBI

PDF page 58 - PDF page 61；印刷页码 38-41

▶

NCBI 以外的物种序列数据库

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 范围：PDF pages 58–61（印刷页码 38–41）。

> 用途：

图 2.16 ClinicalTrials.gov 页面，显示所有正在招募结直肠肿瘤患者的临床试验。点击试验名称，即可查看每项试验的信息，包括试验负责人以及参与试验的资格标准。

图 2.17 一张可交互地图，显示正在进行的结直肠肿瘤相关临床试验的地理分布。这种基于地图的信息呈现方式有助于识别距离潜在研究参与者住所较近的试验。

尽管从上述讨论来看，NCBI 似乎是序列世界的中心，但事实上，世界各地还存在大量专业基因组数据库，分别服务于科学界中的特定研究群体。这些数据库通常提供在其他地方难以获得的信息，例如表型（phenotypes）、实验条件（experimental conditions）、品系杂交（strain crosses）以及图谱特征（map features）。这些数据对相关研究群体至关重要：一方面，它们会影响实验设计和实验结果解释；另一方面，它们包含的数据类型并不总能很好地纳入 NCBI 数据模型（NCBI data model）的框架。正因如此，专业数据库应运而生，并且仍在持续发展。这些数据库的定位，是作为 GenBank 以及类似全球数据库的重要补充。我们不可能在此穷尽讨论所有此类增值数据库（value-added databases），但仅从《Nucleic Acids Research》每年第一期都会专门刊登描述这些数据库的论文这一事实（Galperin et al., 2017），就足以看出这类数据库数量之庞大。

一个极具代表性的专业物种数据库是小鼠基因组数据库（Mouse Genome Database，MGD；Bult et al., 2016）。MGD 位于缅因州巴尔港（Bar Harbor, ME）的杰克逊实验室（Jackson Laboratory），提供关于实验小鼠的综合知识库（knowledgebase），也是其整体小鼠基因组信息学（Mouse Genome Informatics，MGI）资源的重要组成部分。MGD 提供基因、遗传标记、突变等位基因与表型、以及与其他物种的直系同源关系等信息，同时还包含丰富的连锁图谱、细胞遗传学图谱、遗传图谱和物理图谱数据。图 2.18 展示了其中一部分数据，提供了小鼠 Dcc 基因的相关信息；该基因是本章前述示例中人类 DCC 基因的直系同源物。用户可以直接搜索基因名称进入该页面；在本例中，也可以通过 OMIM 中 DCC 条目 Animal Model 部分提供的链接进入。这些链接指向利用小鼠模型完成的开创性研究，这些研究加深了我们对人类 DCC 突变影响的理解。

图 2.18 小鼠基因组信息学（MGI）中 Dcc 基因的页面。该条目提供小鼠 Dcc 基因（人类 DCC 基因的直系同源物）的相关信息，包括突变等位基因与表型数据、图谱数据、单核苷酸多态性（SNP）数据以及表达数据。在“突变、等位基因与表型”部分，表型概览用蓝色方块标注哪些表型由 Dcc 基因突变引起；在“表达”部分，蓝色方块表示该基因在野生型小鼠特定组织、器官或系统中的表达情况。

另一个长期专注于特定物种的资源是斑马鱼模式生物数据库（Zebrafish Model Organism Database），也称为斑马鱼信息网络（Zebrafish Information Network，ZFIN；Howe et al., 2012）。鉴于斑马鱼在多类研究问题中具有良好的实验可操作性，它已经成为一种特别有吸引力的动物模型，应用领域包括脊椎动物发育、再生、炎症、感染性疾病和药物发现等。ZFIN 提供了一个非常简洁的搜索界面，支持使用任意术语进行自由文本搜索。再次以 DCC 作为搜索词进行演示，用户会进入斑马鱼 dcc 基因的摘要页面。

图 2.19 斑马鱼信息网络（ZFIN）中斑马鱼 dcc 基因的页面。该条目提供斑马鱼 dcc 基因（人类 DCC 基因的直系同源物）的相关信息。详见正文。

如图 2.19 所示，ZFIN 提供斑马鱼突变体、序列靶向试剂、转基因构建、与其他物种的直系同源关系、Dcc 蛋白产物中的蛋白质结构域信息，以及基因表达和表型数据；这些数据既来自已发表文献，也来自斑马鱼研究群体的直接提交。在这里，点击“基因表达”部分中的 19 张图片链接，即可查看 dcc 在各种实验条件下表达模式的原尺寸图像（图 2.20）。

虽然 MGD 和 ZFIN 是模式生物数据库的出色范例，但每个主要模式生物研究群体都维护着类似资源。这些群体还开展合作，通过基因组资源联盟（Alliance of Genome Resources）开发中央门户，以简化跨多个此类资源的信息检索。

016

Summary + Internet Resources + References

PDF page 62 - PDF page 64；印刷页码 45-47PDF: Summary / Internet Resources / Further Reading / References

▶

小结、网络资源、延伸阅读与参考文献

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 范围：PDF pages 62–64；印刷页码 45–47。

> 实际 PDF 小节名：Summary / Internet Resources / Further Reading / References。

> 用途：

跨页图注（承接上一小节，图 2.20）

图 2.20 斑马鱼信息网络（Zebrafish Information Network，ZFIN）中可获得的基因表达数据示例。这里展示了斑马鱼 dcc 基因在不同实验条件下的表达模式。插图显示 Gao 等（2012）数据的一张完整尺寸图像，其中包括 dcc 的表达模式（A 图），以及 dcc 与 Lim homeobox 5 基因（lhx5）共表达的情况（B 图）。

小结

正如本章引言所指出的，研究人员能够利用的信息空间将继续以极快速度扩展；仅 GenBank 的规模就以大约每年翻一番的速度增长。如此庞大的数据量可能会使缺乏经验的用户感到困惑，但掌握本章介绍的技术之后，所有生物学领域的研究人员都可以更充分地利用这些数据。现代科学正在转向“大数据”（big data）方法，这进一步强调了一个重要观点：要开展前沿研究，实验台研究策略和计算策略都将不可或缺。正如研究人员需要接受基础生物化学、分子生物学等方法学训练一样，对生物信息学技术的基本理解，也会成为生物学家工具箱中不可或缺的一部分。到这里，读者应该已经很清楚：要学会有效检索和使用基因组序列数据，没有什么能够替代亲自坐到计算机前动手实践。我们强烈鼓励读者充分利用本章介绍的资源，通过实际使用这些工具来提升信心与能力，并开始把生物信息学方法和策略应用到自己的研究工作中。

网络资源

Alliance of Genome Resources — www.alliancegenome.org
Basic Local Alignment Search Tool (BLAST) — ncbi.nlm.nih.gov/BLAST
ClinicalTrials.gov — clinicaltrials.gov
DNA Data Bank of Japan (DDBJ) — www.ddbj.nig.ac.jp
European Molecular Biology Laboratory–European Bioinformatics Institute (EMBL-EBI) — www.ebi.ac.uk
GenBank — www.ncbi.nlm.nih.gov/genbank

-%20iCn3D%20%E2%80%94%20www.ncbi.nlm.nih.gov/Structure/icn3d/docs/icn3d_about.html

Mouse Genome Database (MGD) — informatics.jax.org
Online Mendelian Inheritance in Man (OMIM) — omim.org
Protein Data Bank (PDB) — www.rcsb.org/pdb
RefSeq — ncbi.nlm.nih.gov/refseq
Single Nucleotide Polymorphism Database (dbSNP) — www.ncbi.nlm.nih.gov/SNP
Vector Alignment Search Tool (VAST) — www.ncbi.nlm.nih.gov/Structure/VAST
Zebrafish Information Network (ZFIN) — zfin.org

延伸阅读

Baxevanis, A. D. (2012). Searching Online Mendelian Inheritance in Man (OMIM) for information on genetic loci involved in human disease. Curr. Protoc. Hum. Genet. Chapter 9, Unit 9.13.1–10.

这是一篇以 protocol 为导向的说明，介绍如何制定 OMIM 检索的基本方法，并讨论可通过 OMIM 获得的信息类型，包括由遗传异常导致的临床表现描述。

Galperin, M. Y., Fernández-Suárez, X. M., and Rigden, D. J. (2017). The 24th annual Nucleic Acids Research database issue: a look back and upcoming changes. Nucleic Acids Res. 45:D1–D11.

这是一篇经过人工审查的年度综述，回顾并介绍生物医学研究群体感兴趣且具有重要意义的专业数据库。

参考文献

Altschul, S., Gish, W., Miller, W. et al. (1990). Basic local alignment search tool. J. Mol. Biol. 215:403–410.

Amberger, J. S., Bocchini, C. A., Schiettecatte, F. et al. (2014). OMIM.org: Online Mendelian Inheritance in Man, an online catalog of human genes and genetic disorders. Nucleic Acids Res. 43:D789–D798.

Benson, D. A., Cavanaugh, M., Clark, K. et al. (2017). GenBank. Nucleic Acids Res. 45:D37–D42.

Bult, C. J., Eppig, J. T., Blake, J. A. et al. (2016). Mouse genome database 2016. Nucleic Acids Res. 44:D840–D847.

Collins, F. S., Patrinos, A., Jordan, E. et al., and Members of the DOE and NIH Planning Groups (1998). New goals for the U.S. Human Genome Project: 1998–2003. Science. 282:682–689.

Collins, F. S., Green, E. D., Guttmacher, A. E., and Guyer, M. S., on behalf of the U.S. National Human Genome Research Institute (2003). A vision for the future of genomics research. Nature. 422:835–847.

Finci, L. I., Krüger, N., Sun, X. et al. (2014). The crystal structure of netrin-1 in complex with DCC reveals the bifunctionality of netrin-1 as a guidance cue. Neuron. 83:839–849.

Galperin, M. Y., Fernández-Suárez, X. M., and Rigden, D. J. (2017). The 24th annual Nucleic Acids Research database issue: a look back and upcoming changes. Nucleic Acids Res. 45:D1–D11.

Gao, J., Zhang, C., Yang, B. et al. (2012). Dcc regulates asymmetric outgrowth of forebrain neurons in zebrafish. PLoS One. 7:e36516.

Gibrat, J.-F., Madej, T., and Bryant, S. (1996). Surprising similarities in structure comparison. Curr. Opin. Struct. Biol. 6:377–385.

Green, E. D. and Guyer, M. S., and The National Human Genome Research Institute (2011). Charting a course for genomic medicine from base pairs to bedside. Nature. 470:204–213.

Howe, D. G., Bradford, Y. M., Conlin, T. et al. (2012). ZFIN, the Zebrafish Model Organism Database: increased support for mutants and transgenics. Nucleic Acids Res. 41:D854–D860.

International Human Genome Sequencing Consortium (2001). Initial sequencing and analysis of the human genome. Nature. 409:860–921.

Madej, T., Lanczycki, C. J., Zhang, D. et al. (2014). MMDB and VAST+: tracking structural similarities between macromolecular complexes. Nucleic Acids Res. 42:D297–D303.

McKusick, V. A. (1966). Mendelian Inheritance in Man: Catalogs of Autosomal Dominant, Autosomal Recessive, and X-Linked Phenotypes. Baltimore, MD: The Johns Hopkins University Press.

McKusick, V. A. (1998). Online Mendelian Inheritance in Man: Catalogs of Human Genes and Genetic Disorders, 12e. Baltimore, MD: The Johns Hopkins University Press.

Schmutz, J., Wheeler, J., Grimwood, J. et al. (2004). Quality assessment of the human genome sequence. Nature. 429:365–368.

Srour, M., Rivière, J. B., Pham, J. M. T. et al. (2010). Mutations in DCC cause congenital mirror movements. Science. 328:592.

Wilbur, W. J. and Coffee, L. (1994). The effectiveness of document neighboring in search enhancement. Inf. Process. Manag. 30:253–266.

Wilbur, W. J. and Yang, Y. (1996). An analysis of statistical term strength and its use in the indexing and retrieval of molecular biology texts. Comput. Biol. Med. 26:209–222.

章节署名说明

本章由 Andreas D. Baxevanis 博士以个人身份撰写。不应将其解释为美国国立卫生研究院（National Institutes of Health）或美国卫生与公众服务部（United States Department of Health and Human Services）的正式支持或认可。

PDF 插图 (3 页)

page_62_render

page_63_render

page_64_render

Chapter 3

Assessing Pairwise Sequence Similarity: BLAST and FASTA

017

Introduction

PDF page 65 - PDF page 66 顶部；印刷页码 45-46

▶

评估双序列相似性：BLAST 和 FASTA

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 作者：Andreas D. Baxevanis

> 范围：PDF page 65 - PDF page 66 顶部；印刷页码 45-46。

> 用途：

引言

生物信息学的基石之一，是比较核苷酸序列或蛋白质序列，并据此推断这些序列之间的关系。通过这种比较分析，研究者可以推断两个蛋白质是否具有相似功能、是否包含相似的结构基序，或者是否存在可识别的进化关系。本章关注双序列比对（pairwise alignments）：即直接将两条序列逐位比较，以推断这些关系。另一种方法是多序列比对（multiple sequence alignment），用于识别三条或更多序列之间共有的重要特征；这种方法常用于预测二级结构和功能基序，并识别对结构和功能都很重要的保守位置与保守残基，第 8 章将对此进行讨论。

在讨论如何评估核苷酸序列或蛋白质序列之间的相关性之前，需要先定义两个重要术语：相似性（similarity）和同源性（homology）。这两个术语常被混用，但事实上，它们含义明显不同，所隐含的生物学关系也非常不同。

相似性是衡量两条序列彼此相关程度的定量指标。相似性始终基于可观察的结果，通常就是两条序列的双序列比对。当两条序列完成比对后，可以直接统计有多少残基彼此对齐；这个原始计数随后可以转换为最常用的相似性度量，即序列一致性百分比（percent identity）。相似性指标可用于量化两条序列在进化时间中逐渐分化时发生的变化，包括替换、插入和缺失的影响。它们也可用于识别那些对维持蛋白质结构或功能至关重要的残基。简言之，较高的序列相似性百分比可能提示共同的进化历史，或者提示生物学功能上可能存在共性。

相比之下，同源性意味着一种进化关系；它是在考察两条序列之间的最优比对并评估其相似性之后，提出的一种推断性结论。基因（及其蛋白质产物）要么同源，要么不同源——同源性不能用程度或百分比来衡量。同源性这一概念以及 homolog 这一术语，可适用于两类不同关系：

如果基因是由物种分化事件分隔开的，则称为直系同源（orthologous）。直系同源基因是共同祖先中某一序列的直接后代，可能具有相似的结构域组成、三维结构和生物学功能。简单来说，直系同源基因可以理解为不同物种中的同一个基因（或蛋白质）。
如果同一物种内的基因是由基因复制事件分隔开的，则称为旁系同源（paralogous）。研究旁系同源基因，有助于理解既有基因如何被适应性改造或被共同利用，从而在某一物种内提供新的或经过修饰的功能。

关于同源性、直系同源和旁系同源的概念，以及判断序列之间进化关系的方法，第 9 章将进行更详细的讨论。

018

Global Versus Local Sequence Alignments

PDF page 66；印刷页码 46

▶

全局序列比对与局部序列比对

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 范围：PDF page 66；印刷页码 46。

> 用途：

用于评估相似性，并进一步推断同源性的序列比对方法，可以分为两类：全局序列比对（global sequence alignment）和局部序列比对（local sequence alignment）。全局序列比对方法会取两条序列，并尝试在两条序列的全长范围内给出最佳比对。一般来说，全局序列比对方法最适用于长度大致相同、且相似性很高的序列。虽然这类方法可以应用于任意两条序列，但随着序列相似性降低，它们往往会漏掉一些重要的生物学关系；这些关系在把序列作为整体来考察时，可能并不明显。

相比之下，大多数生物学家更依赖第二类比对算法，即局部序列比对。在这类方法中，序列比较的目标是在被比对的两条序列中找到最相似的区域，而不是在两条序列的全长范围内寻找（或强行建立）一个比对。因此，局部比对聚焦于更容易比对的高相似性子序列，使得判断两条序列之间可能存在的生物学关系变得容易得多。这也使局部比对方法成为生物学发现中常用的首选方法之一。

很多时候，这类方法会为被比较的两条序列返回不止一个结果，因为所分析的序列之间可能存在不止一个共同结构域或共同子序列。局部序列比对方法最适合用于具有一定相似性的序列，或长度不同的序列；接下来的讨论也将主要围绕这类方法展开。

019

Scoring Matrices

PDF page 66 - PDF page 72 上半；印刷页码 46-52

▶

评分矩阵

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 范围：PDF page 66 - PDF page 71 上半；印刷页码 46-51。

> 用途：

无论使用全局比对方法还是局部比对方法，一旦两条待比较序列完成比对，接下来的问题就是：怎样实际衡量“序列 A”和“序列 B”之间的比对有多好？回答这个问题的第一步，是使用数值方法。这些方法不仅考虑两条序列逐位重叠的情况，还考虑被比对的残基或核苷酸本身的性质与特征。

为此，研究者投入了大量精力来开发一类称为评分矩阵（scoring matrices）的工具。评分矩阵是经验性的加权方案，出现在所有涉及两条或多条序列比较的分析中。因此，理解这些矩阵是如何构建的，以及如何在不同矩阵之间做出选择，非常重要。矩阵的选择能够——而且确实会——显著影响大多数序列比较方法得到的结果。

最常用的蛋白质评分矩阵会考虑以下三个主要生物学因素。

保守性（conservation）。矩阵需要考虑蛋白质序列之间的绝对保守性，也需要提供一种方法来评估保守性氨基酸替换。评分矩阵中的数值，用来表示哪些氨基酸残基可以替换其他残基，同时不对天然蛋白质的功能造成不利影响。从物理化学角度看，残基的电荷、大小和疏水性等特征需要相似。

图 3.1 BLOSUM62 评分矩阵（Henikoff and Henikoff 1992）。BLOSUM62 是蛋白质分析中使用最广泛的评分矩阵，并且在通用场景中具有最佳覆盖度。矩阵每一行左侧和每一列顶部的标准单字母代码表示 20 种氨基酸。图中还包括歧义代码 B（表示天冬酰胺或天冬氨酸；Asx）、Z（表示谷氨酰胺或谷氨酸；Glx），以及 X（表示任意氨基酸）。注意，该矩阵相对于对角线呈镜像对称。详见正文。

频率（frequency）。正如氨基酸残基不能任意相互替换一样，矩阵也需要反映特定残基在整个蛋白质集合中出现的频率。稀有残基会比常见残基获得更高权重。

进化（evolution）。从设计上看，评分矩阵隐含地代表了进化模式；矩阵也可以被调整，以偏向检测亲缘关系较近或较远的蛋白质。针对不同进化距离选择何种矩阵，将在下文讨论。

构建评分矩阵还涉及一些细微问题，Henikoff 和 Henikoff（2000）的一篇优秀综述对此有详细说明。

这些因素在评分矩阵中究竟如何体现，最好的说明方式是拆解最常用的评分矩阵 BLOSUM62（图 3.1）。20 种氨基酸以及标准歧义代码分别列在矩阵顶部和侧边。矩阵中的分数实际上表示一个优势比（odds ratio）的对数（Box 3.1），该优势比考虑的是：在自然界中，某一残基被观察到替换另一残基的频率。这个优势比还会考虑：如果替换以随机方式发生（纯粹出于偶然），某一残基被另一残基替换的频率应当是多少。因此，正分表示两种残基彼此替换的观察频率高于随机预期；负分则表示两种残基彼此替换的观察频率低于随机预期。更简单地说，常见替换得到正分，不常见替换得到负分。

Box 3.1 评分矩阵与对数优势比

蛋白质评分矩阵来源于氨基酸彼此替换的观察频率。基于这些概率，可以使用下式生成评分矩阵：

S_i,j = log[(q_i,j) / (p_i p_j)]

其中，p_i 表示残基 i 在所有蛋白质中出现的概率，p_j 表示残基 j 在所有蛋白质中出现的概率。q_i,j 表示在蛋白质家族的多序列比对中，或在已知具有生物学关系的序列中，氨基酸 i 和 j 被观察到彼此对齐的频率。因此，对数优势比 S_i,j（或称 “lod score”，即 lod 分数）表示残基 i 被残基 j 替换时，观察频率与随机频率之间的比值。对于常见替换，S_i,j 大于 0；对于发生频率低于随机预期的替换，S_i,j 小于 0；如果观察频率与随机频率相同，则 S_i,j 等于 0。

为了更充分地说明矩阵中数字的含义，可以设想两条序列已经完成比对，现在需要评估在比对的某一给定位置上，序列 A 中的一个残基与序列 B 中的一个残基匹配得有多好。以图 3.1 中的评分矩阵为例：

对角线上的数值表示某一位置发生精确匹配时得到的分数，这些数值总是正数。例如，如果序列 A 中的色氨酸残基（W）与序列 B 中的色氨酸残基对齐，那么这一匹配会得到 11 分，即 W 行与 W 列交叉处的数值。还应注意，11 是对角线上的最高值。因此，W:W 比对获得如此高的分数，不仅反映了这是一次精确匹配，也反映了色氨酸是蛋白质中最稀有的氨基酸。换句话说，W:W 比对总体上更不容易偶然发生，因此也更可能是正确的。
离开对角线后，可以考虑一个保守性替换的例子：用酪氨酸（Y）替换色氨酸。Y 行与 W 列的交叉处数值为 2。这个正值意味着，这种替换在比对中出现的观察频率高于随机预期；但它不如保留色氨酸残基好（2 < 11），也不如保留酪氨酸残基好（2 < 7）。
最后，考虑一个非保守性替换的例子：用缬氨酸（V）替换色氨酸。V 行与 W 列交叉处的数值为 −3。这个负值意味着，这种替换并不常被观察到，其出现更多可能是偶然结果。

尽管评分矩阵中数字及其相互关系的含义看起来相当直接，但在实际构建矩阵时，仍必须对什么才算保守性替换或非保守性替换，以及如何评估这些事件在自然界中的频率，做出一些判断。这正是不同评分矩阵彼此区分的主要因素。为了帮助读者做出明智选择，有必要讨论目前可用矩阵的构建思路、优点和缺点。

PAM 矩阵

最早可用于蛋白质序列分析的实用矩阵由 Dayhoff 等人（1978）开发。这些矩阵的基础，是考察一组序列一致性超过 85% 的蛋白质中的替换模式。该分析在 71 组亲缘关系较近的蛋白质中识别出 1572 个变化。研究者据此构建表格，用来表示在某一给定位置上，一个特定氨基酸替换另一个氨基酸的频率。

由于被考察的序列具有如此高的相似性，所得频率代表的是较短进化距离上预期会出现的情况。此外，由于这些蛋白质之间进化关系接近，可以预期观察到的突变不会显著改变蛋白质功能。这称为接受（acceptance）：即那些能够通过自然选择被容纳，并产生与原始蛋白质具有相同或相似功能蛋白质的变化。由于该分析考察的是单个点突变，因此由此得到的计量单位称为可接受点突变（point accepted mutation），即 PAM 单位。1 个 PAM 单位对应每 100 个残基中发生 1 个氨基酸变化，约等于 1% 分化。

PAM 矩阵的构建包含若干假设。其中最重要的假设之一是：某一位置上的氨基酸替换独立于该位置此前发生过的突变。基于这一假设，原始矩阵被外推，用来预测更长进化距离上的替换频率。例如，PAM1 矩阵可以与自身相乘 100 次，得到 PAM100 矩阵；PAM100 代表的是每 100 个残基发生 100 次氨基酸变化时的预期情况。（这并不意味着 100 个残基中的每一个都发生了变化，而只是说总共发生了 100 次变化；某些位置可能先发生变化，随后又变回原来的残基。）由于代表较长进化距离的矩阵是从上述 1572 个观察变化所构建的原始矩阵外推而来，因此必须记住，这些矩阵确实是预测结果，并非基于直接观察。原始矩阵中的任何误差都会在外推矩阵中被放大，因为单纯的矩阵相乘会显著放大这些误差。

读者还应了解 PAM 矩阵构建中的其他假设。所有位点都被假定为同等可变；替换被假定为独立于周围残基；同时，PAM 矩阵不考虑保守区块或基序。这里比较的序列具有平均组成特征，而这一“平均”是基于 1978 年可获得的少量蛋白质序列得出的，因此偏向小型球状蛋白；尽管后来已有努力将更多序列数据纳入其中（Gonnet et al. 1992; Jones et al. 1992）。最后，这里还隐含了一个假设：负责较短时间尺度上序列进化的力量，与较长进化时间尺度上的力量相同。虽然 PAM 矩阵存在显著缺点，但也应记住，在 1978 年可获得的信息条件下，这些矩阵的开发标志着人们量化序列关系能力的一项重要进展。由于许多生物信息学工具仍可使用这些矩阵，读者应牢记这些潜在缺陷，并审慎使用。

BLOSUM 矩阵

1992 年，Steve 和 Jorja Henikoff 采用了一种与上述方法略有不同的思路，并解决了 PAM 矩阵的许多缺点。新矩阵开发的基础，是一项旨在识别蛋白质家族中保守基序的研究（Henikoff and Henikoff 1991, 1992）。该研究促成了 BLOCKS 数据库的建立；这一数据库使用 block 的概念来识别蛋白质家族。block 的概念源自更熟悉的 motif 概念，后者通常指一段保守的氨基酸序列，并为蛋白质赋予特定功能或结构。当同一家族蛋白质中的这些单个基序可以在不引入缺口的情况下完成比对时，得到的结果就是一个 block；这里的 block 指的是比对本身，而不是单条序列。显然，任意一个给定蛋白质都可以包含一个或多个 block，分别对应其结构基序或功能基序。有了这些蛋白质 block，就可以只在蛋白质中最保守、也就是推测最不容易发生变化的区域中寻找替换模式。研究者考察了代表 500 多组相关蛋白质的 2000 个 block，并基于这些保守 block 中的替换模式，生成了区块替换矩阵（blocks substitution matrices），简称 BLOSUM。

鉴于科学发现的速度，到 1992 年，可用蛋白质序列数量远多于 1978 年，因此这些新矩阵可以从更稳健的基础数据集中推导出来。然而，BLOSUM 矩阵与 PAM 矩阵之间最重要的区别在于：BLOSUM 矩阵是在不同进化距离上直接计算得到的，而不是外推得到的，因此能够更准确地反映这些距离上的替换模式，并进一步反映相应的进化力量。BLOSUM 矩阵仅基于保守区域直接计算，这一事实使其对结构性或功能性替换的检测更加敏感；因此，在局部相似性搜索中，BLOSUM 矩阵的表现明显优于 PAM 矩阵（Henikoff and Henikoff 1993）。

回到直接推导各类矩阵这一点，每个 BLOSUM 矩阵都会被赋予一个编号（BLOSUMn），该编号表示用于推导该矩阵的序列的保守水平。例如，BLOSUM62 矩阵是由序列一致性不超过 62% 的序列计算得到的；序列一致性超过 62% 的序列会被聚类，并且它们的贡献被加权为 1。聚类会降低亲缘关系很近的序列的贡献，也就是说，来自同一家族中最接近成员的替换不会被过度代表，从而减少偏倚。降低 n 的值，会得到用于更远亲缘关系序列的矩阵。

应在何时使用哪种矩阵？

虽然大多数生物信息学软件都会为用户提供默认评分矩阵，但默认矩阵未必一定最适合当前提出的生物学问题。表 3.1 旨在根据已有研究提供一些指导，帮助选择合适的评分矩阵；这些研究考察了不同矩阵检测已知生物学关系的有效性（Altschul 1991; Henikoff and Henikoff 1993; Wheeler 2003）。需要注意的是，这两个矩阵家族的编号方向相反：分化程度更高的序列，需要使用编号较高的 PAM 矩阵和编号较低的 BLOSUM 矩阵来识别。以下等价关系有助于将 PAM 矩阵与 BLOSUM 矩阵对应起来（Wheeler 2003）：

PAM250 约等于 BLOSUM45
PAM160 约等于 BLOSUM62
PAM120 约等于 BLOSUM80

除这里讨论的蛋白质矩阵外，还有许多专门矩阵：有些特异于某一物种，有些关注特定蛋白质类别（如跨膜蛋白），有些关注结构性替换，还有一些尝试利用疏水性指标来评估相似性（见 Wheeler 2003）。面对这样的选择格局，读者最需要记住的是：没有任何单一矩阵能够回答所有序列比较问题。要正确开展基于序列的分析，必须充分理解每一种矩阵究竟代表什么。

表 3.1 选择合适的评分矩阵

矩阵	最适合的用途	相似性
PAM40	短而高度相似的比对	70–90%
PAM160	检测蛋白质家族成员	50–60%
PAM250	分化程度更高序列的较长比对	∼30%
BLOSUM90	短而高度相似的比对	70–90%
BLOSUM80	检测蛋白质家族成员	50–60%
BLOSUM62	最有效地发现所有潜在相似性	30–40%
BLOSUM30	分化程度更高序列的较长比对	<30%

“相似性”列给出的是该矩阵最适合检测的相似性范围（Wheeler 2003）。

---

核苷酸评分矩阵

> 范围：PDF page 71；印刷页码 51。

在核苷酸层面，评分问题要简单得多。这里使用的矩阵通常只是简单统计匹配和错配。这类矩阵还假设四种可能的核苷酸碱基出现频率相同，即各占 25%。在某些情况下，矩阵也会考虑碱基之间的歧义或化学相似性；图 3.2 展示了这类矩阵的一个例子。

核苷酸评分矩阵与蛋白质评分矩阵在构建方式上的基本差异，应当清楚表明：在判定相似性和推断同源性时，对于编码 DNA 序列，基于蛋白质的搜索总是比基于核苷酸的搜索更有力。这是因为 20 个字母组成的氨基酸字母表，相比 4 个字母组成的核苷酸字母表，天然包含更高的信息量。

---

缺口与缺口罚分

> 范围：PDF page 71 - PDF page 72 上半；印刷页码 51-52。

在比较两条核苷酸序列或蛋白质序列时，常常需要引入缺口（gaps），以改善两条序列之间的比对。这些缺口用于补偿所研究序列之间发生的插入和缺失。因此，从本质上说，这些缺口代表了生物学事件。也正因为如此，在双序列比对中引入的缺口数量必须控制在合理范围内，避免得到生物学上不可信的情形。

在双序列比对中，对缺口进行评分的方法不同于前面讨论过的评分方式，因为这里无法比较两个字符：一条序列在某个位置有残基，而另一条序列在该位置没有任何字符。最常用的缺口评分方法涉及一个称为仿射缺口罚分（affine gap penalty）的量。在这种方法中，引入缺口会产生一个固定扣分；此外，还会根据缺口长度产生一个成比例的额外扣分。仿射缺口罚分的公式为：

G + L n

其中，G 是缺口开启罚分（gap-opening penalty，即产生缺口的代价），L 是缺口延伸罚分（gap-extension penalty），n 是缺口长度，并且 G > L。最后这一条件很重要：由于缺口开启罚分大于缺口延伸罚分，延长已有缺口会比创建新缺口更受偏好。在大多数程序中，G 和 L 的值可以手动调整，使缺口插入更宽松或更严格；不过，多数方法会根据所使用的评分矩阵，自动将 G 和 L 调整到最合适的值。

图 3.2 核苷酸评分表。图左上角显示四种核苷酸碱基的评分，其余单字母代码表示 IUPAC/UBMB 关于歧义或化学相似性的代码。注意，该矩阵相对于对角线呈镜像对称。

另一种常用的主要缺口罚分类型是非仿射（或线性）缺口罚分（non-affine or linear gap penalty）。在这种方法中，开启缺口本身没有代价；对于缺口中的每一个位置，只施加一个简单、固定的错配罚分。通常认为，仿射罚分更能代表序列比对背后的生物学原因，因为仿射缺口罚分考虑到这样一个事实：大多数保守区域没有缺口，而且单个突变事件可能插入或删除的不止一个残基。在实践中，使用仿射缺口罚分更有助于检测亲缘关系更远的同源序列。

020

BLAST

PDF page 72 - PDF page 81 中部；印刷页码 52-61

▶

BLAST

> 来源：Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 4th ed.

> 范围：PDF page 72；印刷页码 52。

> 用途：

到目前为止，用于检测目标序列之间相似性的最常用技术，是基本局部比对搜索工具（Basic Local Alignment Search Tool），即 BLAST（Altschul 等，1991）。BLAST 能够成为序列分析中的基石技术，主要原因在于它可以准确而快速地检测核苷酸序列和蛋白质序列之间的相似性，同时不牺牲敏感性。原始的标准 BLAST 程序家族见表 3.2；不过，自 BLAST 问世以来，已经发展出许多原始程序的变体，用于满足双序列比较领域中的特定需求。本章后面将讨论其中若干变体。

---

算法

> 范围：PDF page 72 - PDF page 74；印刷页码 52-54。

BLAST 是一种局部比对方法。它不仅能够检测查询序列与目标序列之间最佳的局部比对区域，还能够判断查询序列和目标序列之间是否存在其他可能的比对。为了以计算上高效的方式找到这些局部比对区域，该方法首先用查询序列中的一小段字母作为种子来启动搜索，这段字母称为查询词（query word）。以图 3.3 所示示例为例，设默认长度为 3 的查询词为 RDQ。（实际运行时，会考虑所有长度为 3 的词；因此，使用图 3.3 中的序列时，第一个查询词是 TLS，随后是 LSH，依此沿序列继续。）

BLAST 此时不仅需要在目标数据库的所有序列中寻找 RDQ 这个词，还需要寻找引入了保守替换的相关词，因为这些匹配也可能具有生物学信息和生物学相关性。为了判断哪些词与 RDQ 相关，算法会使用评分矩阵来构建所谓的邻域（neighborhood）。图 3.3 中间面板显示了与原始查询词相关的一组词，并按得分从高到低排列；这些得分使用 BLOSUM62 评分矩阵（图 3.1）计算。显然，必须设置某种截断值，使后续分析只考虑确实与原始查询词密切相关的词。控制这一截断值的参数称为邻域得分阈值（neighborhood score threshold，T）。T 的值由 BLAST 程序自动确定，但用户也可以调整。增大 T 会使搜索更偏向精确匹配，并加快搜索速度，但也可能遗漏有趣的生物学关系。降低 T 则允许检测序列之间更远的关系。在这里，只有 T ≥ 11 的词会进入下一步。

表 3.2 BLAST 算法。

程序	查询序列	数据库
BLASTN	核苷酸	核苷酸
BLASTP	蛋白质	蛋白质
BLASTX	核苷酸，六框翻译	蛋白质
TBLASTN	蛋白质	核苷酸，六框翻译
TBLASTX	核苷酸，六框翻译	核苷酸，六框翻译

图 3.3 BLAST 搜索的启动。搜索从给定长度的查询词开始（此处为三个氨基酸），将其与评分矩阵进行比较，以确定处在原始查询词“邻域”中的其他三字母词。随后，会检查目标数据库序列中是否出现这些邻域词。详见正文。

现在看图 3.3 的下方面板，原始查询词 RDQ 已经与邻域中的另一个词 REQ 对齐，而后者的得分超过了 T ≥ 11 的得分阈值。接下来，BLAST 算法会尝试向两个方向延伸这个比对，并累计由匹配、错配和缺口产生的得分，直到构建出最大长度的局部比对。要解释这个最大长度究竟如何确定，最清楚的方式是观察图 3.4 中的图。这里，已经比对的残基数量被绘制在横轴上，而由该比对产生的累计得分被绘制在纵轴上。图中最左侧的点表示原始查询词与邻域中的某个词之间的比对，该词同样具有 T = 11 或更高的值。随着延伸继续进行，只要精确匹配和保守替换所带来的得分超过错配和缺口带来的扣分，累计得分就会升高。一旦累计得分超过得分阈值 S，该比对就会被报告在 BLAST 输出中。需要特别注意，单纯超过 S 并不自动意味着该比对具有生物学显著性；这是一个非常重要的问题，后文还会讨论。

图 3.4 BLAST 搜索延伸。延伸长度表示在双序列比较中已经对齐的字符数。累计得分表示逐位置得分的总和，这些逐位置得分由搜索所使用的评分矩阵决定。T 表示邻域得分阈值，S 是在 BLAST 输出中返回一个命中所需的最低得分，X 是显著性衰减阈值。详见正文。

随着延伸继续进行，在某个时刻，错配和缺口将开始超过精确匹配和保守替换，并从评分矩阵中累积负分。一旦曲线开始向下，BLAST 就会判断得分下降是否超过一个称为 X 的阈值。如果曲线衰减超过了 X 值所允许的范围，延伸就会终止，并且比对会被修剪回曲线先前达到最大值时对应的长度。所得比对称为高得分片段对（high-scoring segment pair，HSP）。由于 BLAST 算法会使用所有可能的查询词系统地沿查询序列推进，因此对于任意给定的一对序列，可能会发现不止一个 HSP。

识别出 HSP 之后，重要的是判断所得比对是否真正显著。利用该比对的累计得分以及若干其他参数，可以计算出一个称为 E 的新值，其中 E 表示 “expect”（见 Box 3.2）。对于每一个命中，E 给出 BLAST 纯粹由随机机会发现得分为 S 或更高的 HSP 的预期数量。换句话说，E 值提供了一个衡量指标，用于判断所报告的 HSP 是否为假阳性（见 Box 5.4）。较低的 E 值意味着更高的生物学显著性。

Box 3.2 Karlin–Altschul 方程

可以想见，仅仅根据原始得分来评估任意给定 BLAST 命中的推定生物学显著性是困难的，因为得分依赖于查询序列和目标序列的组成、序列长度、用于计算原始得分的评分矩阵，以及许多其他因素。在关于局部序列比对统计理论的最重要论文之一中，Karlin 和 Altschul（1990）提出了一个直接处理这一问题的公式。该公式后来被称为 Karlin–Altschul 方程，它使用与搜索相关的参数来计算一个期望值（expectation value，E）。该值表示纯粹由随机机会预期出现的 HSP 数量。用于计算 E 的方程及其参数如下：

E = k m N e^(-λS)

其中，k 是一个较小的常数，m 是查询序列中的字母数，N 是目标数据库中的字母总数，λ 是用于标准化高得分片段对原始得分的常数，且 λ 的取值会随所用评分矩阵而变化；S 是高得分片段对的得分。

---

执行 BLAST 搜索

> 范围：PDF page 74 下半 - PDF page 81 顶部；印刷页码 54-61。

> 实际 PDF 小节名：Performing a BLAST Search / Understanding the BLAST Output。

尽管世界各地都有许多 BLAST 服务器可供使用，但进行这类搜索最常用的入口，是美国国立生物技术信息中心（National Center for Biotechnology Information，NCBI）的 BLAST 主页（图 3.5）。页面上半部分提供最常用 BLAST 搜索类型的入口，这些类型概括于表 3.2；页面下半部分则用于进入各种专门类型的 BLAST 搜索。为了说明执行 BLAST 搜索相对容易，本节以使用 BLASTP 进行蛋白质搜索为例。点击 Protein BLAST 方框后，用户会进入 BLASTP 搜索页面，其部分界面如图 3.6 所示。显然，必须提供一条作为比较基础的查询序列。回到第 2 章对 Entrez 的讨论，本例将来自 Homo sapiens 的 netrin 受体序列（NP_005206.2）粘贴到查询序列框中。紧邻其右侧，用户可以使用 query subrange 框指定是否只使用该序列的一部分；如果要使用整条序列，则应将这些字段留空。

图 3.5 美国国立生物技术信息中心（NCBI）的 BLAST 起始页面。正文讨论了可通过 BLAST 界面执行的若干最常用查询示例。

进入页面的 Choose Search Set 部分后，可以通过 Database 下拉菜单选择要搜索的数据库；点击 Database 下拉菜单旁边的问号，可以查看每个可用目标数据库的简短说明。这里，搜索将在 RefSeq 数据库中执行（见 Box 1.2）。其下方的 Organism 框可用于将搜索结果限定为来自某个具体生物体或分类单元的序列。虽然这不是本例演示的一部分，但如果用户想把返回结果限制为只来自小鼠和大鼠，可以使用与 Entrez 搜索相同的语法（见表 2.1），在该字段中输入 Mus musculus [ORGN] AND Rattus norvegicus [ORGN]；如果用户想要除小鼠和大鼠之外的所有结果，还需要勾选 Exclude 框。由于本搜索将在 RefSeq 中执行，可以点击 “Models (XM/XP)” 复选框，从搜索结果中排除预测蛋白。最后，在 Program Selection 部分，BLASTP 默认处于选中状态。

图 3.6 BLASTP 查询页面的上半部分。窗口中的第一部分用于指定感兴趣序列、是否只使用该序列的一部分执行搜索（query subrange）、要搜索哪个数据库，以及使用哪一种基于蛋白质的 BLAST 算法执行查询。详见正文。

如果用户希望所有算法参数都使用默认设置，只需点击蓝色 BLAST 按钮即可提交搜索。不过，用户也可以通过修改 Algorithm parameters 部分中的选项，对搜索执行方式进行更精细的控制。要访问这些设置，用户必须先点击 “Algorithm parameters” 字样旁边的加号，展开网页中的这一部分，得到图 3.7 所示的界面。查询页面的这一部分，正是本章前文讨论的 BLAST 搜索理论开始发挥作用的地方。在 General Parameters 部分，expect threshold 会把返回结果限制为 E 值低于指定值的条目；数值越小，截断标准越严格。word size 设置会改变用于启动 BLAST 搜索的查询词长度；较长的 word size 会以较长的无缺口比对启动搜索。对于蛋白质搜索，推荐 word size 为 3，因为较短的词会提高灵敏度；不过，如果要搜索近乎完全相同的匹配，也可以使用较长的 word size，这样还能获得更快的搜索速度。

图 3.7 BLASTP 查询页面的下半部分，显示用户可调整以微调搜索的算法参数。正文所讨论搜索中发生改变的参数值以黄色高亮显示，并用菱形标出。详见正文。

在 Scoring Parameters 部分，用户可以选择合适的打分矩阵（默认矩阵为 BLOSUM62）。更换矩阵会自动把 gap penalties 改为适合该打分矩阵的数值。正如前文关于 affine gap penalties 的讨论所述，用户也可以手动修改这些数值；提高缺口代价会使成对比对包含更少缺口，而降低这些数值则会使插入缺口更加宽容。

在 Filters and Masking 部分，应当进行过滤以去除低复杂度区域。低复杂度区域可以简单定义为组成偏倚的区域（Wootton and Federhen 1993）。这类区域可能包括同聚物连续片段、短周期重复，或序列中若干残基的轻微过度表示。低复杂度区域的生物学作用尚不清楚；一般认为，它们可能代表 DNA 复制错误或不等交换事件的结果。判断感兴趣序列是否包含低复杂度区域非常重要；这些区域在执行序列比对时往往会造成问题，并可能导致假阳性结果，因为它们通常会在彼此无关的蛋白质之间表现出相似性。最后，在提交查询之前，务必勾选 “Show results in a new window” 框。这样可以保留原始查询窗口（或标签页），便于根据需要返回并调整或改变搜索参数。

理解 BLAST 输出

上述查询所得 BLASTP 结果的第一部分如图 3.8 所示。图的上半部分显示了通过将查询序列与 NCBI Conserved Domain Database（CDD）中的数据进行比较而找到的保守蛋白结构域位置。随后是 BLASTP 结果的图形概览，使用户能够大致了解有多少序列与查询序列具有相似性，以及这些序列相对于查询序列的得分情况。图形显示中各项特征的细节见图 3.8 图注。由这次特定 BLASTP 搜索找到的实际序列列表，即 “hit list”，部分显示于图 3.9。每个命中项包含的信息包括来自该命中来源数据库条目的定义行、用于计算最佳 HSP 比对 E 值的 score 值、该最佳 HSP 比对的 percent identity，以及带有超链接的 accession number；通过该 accession number，用户可以直接访问该命中的来源数据库记录。表格默认按 E 值从低到高排序；请记住，E 值越低，表示比对越好。在 E value 列中可以看到，许多条目的 E value 为 0.0。这表示一个极低的 E 值被向下舍入为零，并意味着统计学显著性。还要注意，hit list 中每个条目前都有一个复选框；勾选其中一个或多个复选框后，图 3.9 中灰显的选项会被激活，允许用户下载所选序列、以图形方式查看所选命中、生成树状图，或即时构建多序列比对。

图 3.8 BLASTP 结果的图形显示。查询序列用标有 “Query” 的粗青色条表示，其刻度线标示查询序列中的残基位置。查询序列下方较细的条代表 BLAST 算法检测到的每个匹配（“hits”）。颜色表示每个命中的相对得分，得分颜色键显示在框的顶部。每条线的长度及其位置表示与查询序列相似的区域。由细线连接的命中表示同一序列中存在多个高评分片段对（HSP）；类似地，穿过某个命中的细垂直条表示整体比对中存在断裂。将鼠标移到任一线条上，会弹出显示该命中身份的信息框。点击任一线条，可直接跳转到该命中的详细信息（见图 3.10）。

图 3.9 BLASTP 的 “hit list”。对于找到的每条序列，用户会看到该命中来源数据库条目的定义行、最佳高评分片段对（HSP）比对的 score 值、所有 HSP 比对得分的总和、HSP 覆盖查询序列的百分比，以及最佳 HSP 比对的 E 值和 percent identity。带超链接的 accession number 允许直接访问该命中的来源数据库记录。在 E value 列中，极低的 E 值会被向下舍入为零。对于非零 E 值，使用指数记数法；以图中第一个非零值为例，2e-159 应读作 2 × 10^-159。

点击 hit list 中任一蛋白名称后，用户会移动到页面下方，来到显示该命中的成对比对结果的输出部分（图 3.10）。标题行提供该特定命中的完整定义行，随后在标题行下方显示每个已识别的 HSP。在多数情况下，用户只会看到一个比对；但在图 3.10 所示的案例中有两个比对，其中得分和 E 值更好的命中显示在前。每个命中给出的统计量包括 E 值、identities（完全匹配）的数量、“positives”（完全匹配加保守替换）的数量，以及落入缺口区域的残基数量。在比对内部，缺口用短横线表示，而低复杂度区域用灰色小写字母表示。

图 3.10 一个代表性 BLASTP 命中的详细信息。标题行给出该命中的身份，以及 score 和 E value。percent identity 表示完全匹配，而 percent “positives” 同时考虑完全匹配和保守替换。gap 数值显示由于引入缺口而未能比对的残基数量。缺口用短横线表示，低复杂度区域用灰色小写字母表示。请注意，第二个比对前没有标题行；这表示它是同一数据库条目中的第二个高评分片段对（HSP）。

---

建议的 BLAST 截断标准

> 范围：PDF page 81 中部；印刷页码 61。

> 实际 PDF 小节名：Suggested BLAST Cut-Offs。

如前文所指出的，某个命中出现在 BLAST 报告中，并不自动意味着该命中具有生物学显著性。随着时间推移，基于许多研究者的系统测试和个人经验，已有多种指南被提出，用于建立一条边界，以区分有意义的命中和其余结果。对于基于核苷酸的搜索，应寻找 E 值不高于 10^-6、且序列一致性不低于 70% 的结果。对于基于蛋白质的搜索，应寻找 E 值不高于 10^-3、且序列一致性不低于 25% 的命中。使用更宽松的截断标准，会使分析有进入所谓 “twilight zone”（暮光区）的风险；这是一个低一致性区域，在该区域中，关于两条序列之间关系的任何结论，充其量都可能是可疑的（Doolittle 1981, 1989; Vogt et al. 1995; Rost 1999）。

需要提醒读者，不要盲目使用这些截断标准，或任何其他建议截断标准，尤其是在接近分界线的区域。用户应始终考虑所使用的打分矩阵是否正确。同样，用户也应手动检查成对比对结果，并通过阅读文献考察任何推定同源关系背后的生物学依据，从而说服自己：无论某个命中位于建议截断标准的哪一侧，它是否真正具有合理的生物学意义。

021

BLAST 2 Sequences

PDF page 81 下半 - PDF page 83 顶部跨页图注；印刷页码 61-63

▶

BLAST 2 Sequences

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 81 下半 - PDF page 83 顶部跨页图注；印刷页码 61-63。

> 实际 PDF 小节名：BLAST 2 Sequences。

> 用途：

BLAST 的一个变体称为 BLAST 2 Sequences，可用于在任意两条感兴趣的蛋白质序列或核苷酸序列之间寻找局部比对（Tatusova and Madden 1999）。虽然该方法使用 BLAST 引擎来寻找两条序列之间的最佳局部比对，但它并不执行数据库搜索。相反，待比较的两条序列由用户预先指定。该方法特别适合用于比较已经通过实验方法确定为同源的序列，或用于比较来自不同物种的序列。

回到图 3.6 所示的 Protein BLAST（BLASTP）搜索页面，勾选标为 “Align two or more sequences” 的复选框后，页面结构会发生变化，用户现在可以同时输入将要相互比较的 query sequence 和 subject sequence（图 3.11）。与任何 BLAST 搜索一样，用户可以调整一组标准的 BLAST 相关选项，包括选择打分矩阵和 gap penalties。

图 3.12 显示了 BLAST 2 Sequences 方法产生的一组结果示例，其中比较的是来自 H. sapiens 的转录因子 SOX-1 和来自栉水母 Mnemiopsis leidyi 的 SOX-1；栉水母是至少可追溯到 5 亿年前演化时间的最早分支动物物种（Ryan et al. 2013; Schnitzler et al. 2014）。这种输出与典型 BLAST 输出的主要差异在于，它包含比对的 dot matrix view，即 “dotplot”。Dotplot 旨在以图形方式表示两条被比较序列之间的相似程度，使用户能够快速识别局部比对区域、正向或反向重复、插入、缺失和低复杂度区域。图 3.12 中的 dotplot 指示出两个比对区域；图底部 Alignments 部分则提供了关于这两个比对区域的更多信息。与所有 BLAST 搜索一样，Alignments 部分向用户提供常规的一组分数、E 值，以及 identities、positives 和任何引入缺口的百分比。

图 3.11 执行 BLAST 2 Sequences 比对。点击 Enter Query Sequence 部分底部的复选框，会展开搜索页面，并生成新的 Enter Subject Sequence 部分。这里分别使用来自人类和栉水母 Mnemiopsis leidyi 的转录因子 SOX-1 序列作为 query 和 subject（Schnitzler et al. 2014）。由于已经指定一对一比对，因此 Program Selection 部分中只有 BLASTP 算法可用。常规的一组算法参数仍然可用，使用户能够根据需要微调比对。

图 3.12 BLAST 2 Sequences 比对的典型输出，基于图 3.11 中提交的查询。图上方显示标准图形视图；这里显示在人类和栉水母 Mnemiopsis leidyi 转录因子 SOX-1 序列比对中存在两个高评分片段对（HSP）。Dot matrix view 是比对的另一种视图，其中 query sequence 表示在横轴上，subject sequence 表示在纵轴上；对角线表示两个 HSP 中捕获的比对区域。详细比对结果显示在图底部，并列出每个 HSP 的 E 值和比对统计量。

022

MegaBLAST

PDF page 82 下半 - PDF page 84 上部；印刷页码 62-64

▶

MegaBLAST

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 82 下半 - PDF page 84 上部；印刷页码 62-64。

> 实际 PDF 小节名：MegaBLAST。

> 用途：

MegaBLAST 是 BLASTN 算法的一个变体，经过专门优化，用于比对较长的核苷酸序列，或高度相似（>95%）的核苷酸序列；在核苷酸数据库中寻找精确匹配时，它是一种首选方法。由于使用 greedy gapped alignment routine（贪婪式带缺口比对流程）（Zhang et al. 2000），MegaBLAST 处理较长核苷酸序列的速度大约可达到 BLASTN 的 10 倍。MegaBLAST 特别适合判断某条序列是否属于较大 contig 的一部分、检测潜在测序错误，以及在大型相似数据集之间进行比较。

MegaBLAST 之所以能够达到这样的运行速度，来自对传统 BLASTN 流程中两个方面的改变。第一，它使用更长的默认 word length；在 BLASTN 中，默认 word length 为 11，而 MegaBLAST 使用的默认 word length 为 28。第二，MegaBLAST 使用 non-affine gap penalty scheme，这意味着打开 gap 不会受到罚分；只有延长 gap 时才会受到罚分，并且 gap 中每个位置的罚分是恒定的。MegaBLAST 能够接受批量查询：用户只需将 FASTA 格式的多条序列，或一组 accession numbers，粘贴到 query window 中即可。

MegaBLAST 还有一个变体，称为 discontiguous MegaBLAST。该版本被设计用于比较来自不同生物体的差异较大的序列，也就是那些预期 sequence identity 较低的序列。该方法使用 discontiguous word approach，这与 BLAST suite 中其他程序采用的方法有很大不同。在这里，程序并不是寻找某一长度的连续 query words 来作为搜索种子，而是在较长的序列片段上检查非连续位置（Ma et al. 2002）。已有研究表明，即使序列之间的相似程度很低，这种方法也能够找到具有统计显著性的比对。

023

PSI-BLAST

PDF page 84 中部 - PDF page 89 跨页图注；印刷页码 64-69

▶

PSI-BLAST

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 84 中部 - PDF page 89 跨页图注；印刷页码 64-69。

> 实际 PDF 小节名：PSI-BLAST。

> 用途：

PSI-BLAST 是 BLAST 算法的一个变体，全称为 position-specific iterated BLAST。它特别适合识别远缘相关蛋白，也就是那些可能无法用传统 BLASTP 方法找到的蛋白（Altschul et al. 1997; Altschul and Koonin 1998）。PSI-BLAST 依赖 position-specific scoring matrices（PSSMs，位置特异性打分矩阵），这类矩阵也常被称为 hidden Markov models 或 profiles（Schneider et al. 1986; Gribskov et al. 1987; Staden 1988; Tatusov et al. 1994; Bücher et al. 1996）。简单地说，PSSM 是 multiple sequence alignment 的数值化表示；multiple sequence alignment 将在第 8 章讨论。Multiple sequence alignment 内嵌有序列信息，这些信息代表该组序列的共同特征，而这组序列通常对应一个蛋白家族。通过使用 PSSM，可以利用这些内嵌的共同特征，在几乎没有或完全没有绝对 sequence identity 的序列之间寻找相似性，从而识别和分析远缘相关蛋白。

PSSM 的构建方式是：取一个代表某个蛋白家族的 multiple sequence alignment，然后提出以下一系列问题。

在比对的每一个位置上可以看到哪些残基？
某一种特定残基在比对的每一个位置上出现的频率是多少？
是否存在显示绝对保守性的位置？
是否可以在比对中的任何位置引入 gaps？

一旦这些问题得到回答，PSSM 就被构建出来；表中的数字此时就代表该 multiple sequence alignment（图 3.13）。PSSM 中的数字反映任意给定氨基酸出现在每一个位置上的概率。PSSM 的数字还反映在比对中每一个位置发生保守替换或非保守替换的影响，这与 PAM 或 BLOSUM 矩阵的作用很相似。随后，这个 PSSM 可以用于与单条序列比较；也可以用于迭代方法，在该方法中新发现的序列可被并入原始 PSSM，以寻找更多可能感兴趣的序列。

The Method

以一条感兴趣的 query sequence 为起点，PSI-BLAST 的流程首先取一条 query protein sequence，并按前文所述执行一次标准 BLASTP 搜索。该搜索会产生一批 E values 优于某个设定阈值的 hits。这些 hits 连同最初的单条 query sequence 一起，被自动用于构建一个 PSSM。PSSM 构建完成后，它随即作为 query，对目标数据库执行新的搜索；这一次搜索利用已识别序列的集合特征来寻找新的相关序列。该过程逐轮继续，直到搜索收敛，或达到迭代次数上限为止。这里的收敛是指上一轮中没有发现新的序列。

Performing a PSI-BLAST Search

PSI-BLAST 搜索可以从 BLAST landing page（图 3.5）上的 Protein BLAST 链接启动。图 3.14 所示的搜索页面与本章前面 BLASTP 示例中展示的页面相同。这里将使用 UniProtKB/Swiss-Prot 中的人类 sex-determining protein SRY（Q05066）作为 query，使用 UniProtKB/Swiss-Prot 作为目标数据库，并将返回结果限制为人类序列。在 Program Selection 部分选择 PSI-BLAST，并且像前面一样，对默认参数作若干选择性修改（图 3.15）。Maximum number of target sequences 已从 500 提高到 1000，这是为了防止 UniProtKB/Swiss-Prot 中有大量序列与 query 匹配。同时，E value threshold 和 PSI-BLAST threshold 都被改为 0.001，并启用了对低复杂度区域的过滤。此时，用户可以像前面一样，点击页面底部的蓝色 “BLAST” 按钮提交 query。

第一轮搜索结果如图 3.16 所示；在写作本书时，第一轮找到了 31 条序列。Hit list table 的结构与前面完全相同，但现在包含两个 PSI-BLAST 特有的附加列。第一列显示一列复选框，并且这些复选框全部被选中；这会指示算法使用所有这些序列，为本次特定搜索构建第一个 PSSM。需要记住，任何 PSI-BLAST 搜索的第一轮本质上都只是一次 BLASTP 搜索，而且此时还没有构建 PSSM；因此，第二个附加列为空。若要运行 PSI-BLAST 的下一轮迭代，只需点击该部分底部的 “Go” 按钮。此时，第一个 PSSM 会根据被选中纳入的序列所形成的 multiple sequence alignment 构建出来，并且该矩阵现在被用作 query 来搜索 Swiss-Prot。第二轮结果如图 3.17 所示；最后两列显示哪些序列将用于构建下一轮搜索的新 PSSM，以及哪些序列曾用于构建当前这一轮的 PSSM。还应注意，许多序列以黄色高亮显示；这里有 26 条在第一轮中低于 PSI-BLAST threshold 的新增序列已经被纳入搜索结果。这很好地展示了 PSSM 如何在 PSI-BLAST 的每次迭代中发现新的关系，从而使研究者能够识别出使用标准 BLASTP 方法可能无法找到的其他同源物。当然，在把所有返回结果传递到下一轮之前，用户应始终检查这些结果的 E values 和 percent identities，并根据需要取消勾选 inclusion boxes。也可能存在这样的情况：根据已有生物学知识，某些已找到序列应当因其 descriptors 而被移除。与所有计算方法一样，在审查结果时始终把生物学放在心里是非常重要的。

图 3.13 构建 position-specific scoring matrix（PSSM）。图的上半部分是一段长度为 10 的 multiple sequence alignment。按照正文中描述的标准，与该 multiple sequence alignment 对应的 PSSM 显示在图的下半部分。PSSM 的每一行对应 multiple sequence alignment 中的一列。注意，比对的第 8 位始终含有一个 threonine residue（T），而第 10 位始终含有一个 glycine（G）。查看矩阵中的对应分数可见，在第 8 行中 threonine 得 150 分；在第 10 行中 glycine 也得 150 分。这些是所在行中的最高值，对应于 multiple sequence alignment 在这些位置显示绝对保守性这一事实。现在再看第 9 位，该位置上多数序列为 proline（P）。在 PSSM 第 9 行中，proline 得 89 分，仍然是该行中的最高值，但低于如果所有序列中 proline residue 都绝对保守时所会得到的分数。PSSM 的第一列给出推断出的 consensus sequence。

图 3.14 执行 PSI-BLAST 搜索。详见正文说明。

图 3.15 选择 PSI-BLAST 搜索的算法参数。详见正文说明。

图 3.16 PSI-BLAST 搜索第一轮的结果。对于每一条找到的序列，用户会看到来自相应 UniProtKB/Swiss-Prot 条目的 definition line、最佳 high-scoring segment pair（HSP）比对的 score value、所有 HSP 比对分数的总和、HSP 覆盖 query 的百分比，以及最佳 HSP 比对的 E value 和 percent identity。带超链接的 accession number 允许用户直接访问该 hit 在源数据库中的记录。那些 “Select for PSI blast” 框被勾选的序列，将用于计算 position-specific scoring matrix（PSSM）；随后该 PSSM 会作为下一轮的新 “query”，其结果见图 3.17。

图 3.17 PSI-BLAST 搜索第二轮的结果。通过使用基于图 3.16 所示结果计算出的 position-specific scoring matrix（PSSM）而识别出的新序列，以黄色高亮显示。最右侧列中的勾号表示哪些序列被用于构建产生这些结果的 PSSM。

024

BLAT

PDF page 86 下部 - PDF page 91 顶部跨页图注；印刷页码 66-71

▶

BLAT

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 86 下部 - PDF page 91 顶部跨页图注；印刷页码 66-71。

> 实际 PDF 小节名：BLAT。

> 用途：

BLAT 是为满足 Human Genome Project 的组装需求而引入的一种新的核苷酸序列比对程序（BLAST-Like Alignment Tool）（Kent 2002）。BLAT 与 BLAST 的 MegaBLAST 版本最为相似，因为它的设计目标是快速比对长度更长、相似度超过 95% 的核苷酸序列。不过，BLAT 算法采用了一种与 BLAST 略有不同的策略来实现更快的速度。在执行任何搜索之前，目标数据库都会先完成预索引，记录所有互不重叠的 11-mers；随后利用这个索引来寻找与 query sequence 相似的区域。BLAT 常用于确定某条感兴趣序列在基因组中的位置，或进行跨物种分析。

例如，假设某研究者希望将来自 Cancer Genome Anatomy Project（CGAP）的一个 cDNA clone 映射到大鼠基因组。图 3.18 显示了 BLAT query page，感兴趣的 clone 序列已粘贴到 sequence box 中。在 sequence box 上方，有若干 pull-down menus，可用于指定要搜索的是哪个基因组（organism）、使用哪个 assembly（通常是最新版本），以及 query type（DNA、protein、translated DNA 或 translated RNA）。完成相应选择后，点击 “Submit” 按钮即可开始搜索。查询结果显示在图 3.19 的上方面板中；这里，得分最高的 hit 排在列表顶部，是一个与 query sequence 具有 98.1% identity 的匹配。若要获取该 hit 的更多信息，可以点击该条目左侧的 “details” hyperlink。随后会返回一个较长的网页，其中提供原始 query、基因组序列，以及 query 与所找到的基因组序列之间的 alignment。

图 3.18 提交 BLAT 查询。这里的 query 是来自 Cancer Genome Anatomy Project Tumor Gene Index 的一个大鼠克隆（CB312815）。页面顶部的 pull-down menus 可用于指定要搜索的基因组（organism）、使用的 assembly（通常是最新版本），以及 query type（DNA、protein、translated DNA 或 translated RNA）。“I’m feeling lucky” 按钮只返回得分最高的 alignment，并直接进入 UCSC Genome Browser。

图 3.19 BLAT 查询的结果。根据图 3.18 中提交的 query，最高分的 hit 是大鼠基因组染色体 5 上的一段序列，其 sequence identity 为 98.1%。点击 “details” hyperlink 后，用户会看到关于该序列的更多信息，如下方面板所示。cDNA 与基因组序列中的匹配碱基以深蓝色显示，并以大写字母表示；较浅的蓝色大写字母标记了比对区域的边界，并且常常表示 splice sites。缺口用小写黑字表示。在 side-by-side alignment 中，精确匹配由两条序列之间的竖线表示。

025

FASTA

PDF page 90 下部 - PDF page 95；印刷页码 70-75

▶

FASTA

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 90 下部 - PDF page 95；印刷页码 70-75。

> 实际 PDF 小节名：FASTA。

> 用途：

虽然检测序列相似性最常用的技术是 BLAST，但它并不是唯一能够快速且准确地比较序列的 heuristic method。事实上，第一个被广泛用于数据库相似性搜索的程序是 FASTA（Lipman and Pearson 1985; Pearson and Lipman 1988; Pearson 2000）。与 BLAST 一样，FASTA 使用户能够快速地将一条 query sequence 与大型数据库进行比较，并且该程序有多个版本可用（表 3.3）。除主要实现之外，还有多种专门化的 FASTA 版本，详见 Pearson（2016）。一个有趣的历史细节是，用于表示核苷酸和蛋白质序列的 FASTA format，正是随着 FASTA 算法的发展而产生的。

表 3.3 主要 FASTA 算法。

Program	Query	Database	Corresponding BLAST Program
FASTA	Nucleotide	Nucleotide	BLASTN
FASTA	Protein	Protein	BLASTP
FASTX/FASTY	DNA	Protein	BLASTX
TFASTYX/TFASTY	Protein	Translated DNA	TBLASTN

The Method

FASTA 算法可以分为四个主要步骤。在第一步中，FASTA 会在 query sequence 和目标数据库中的每一条序列中，确定某一长度的所有 overlapping words，并在此过程中创建两个列表。这里的 word length 参数称为 ktup，相当于 BLAST 中的 W。随后，这些 overlapping words 列表会相互比较，以识别两个列表中共有的 words。接着，该方法寻找彼此距离很近的 word matches，并将它们相互连接起来，中间序列也包括在内，但不引入任何 gaps。这可以用 dotplot format 表示（图 3.20a）。完成这一轮初始连接后，会为每一个相似区域计算一个初始分数（init1）。

在第二步中，对于给定的一次 pairwise alignment，只有 10 个最佳区域会被纳入进一步分析（图 3.20b）。此时，FASTA 会尝试把 dotplot 中彼此接近、但不位于同一条对角线上的相似区域连接在一起，目的是延长 alignment 的整体长度（图 3.20c）。这意味着现在允许插入和缺失，但每连接一条对角线都要付出 joining penalty。任意两条已连接对角线的净分数，是原始对角线分数之和减去 joining penalty。这个新分数称为 initn。

在第三步中，FASTA 对所有得到的对角线进行排序，然后只进一步考虑列表中“最佳”的对角线。对于每一条最佳对角线，FASTA 使用 Smith-Waterman algorithm（1981）的一种改良形式，在正在考虑的两条序列之间得到最优 pairwise alignment。随后在这个 pairwise alignment 上计算最终的最优分数（opt）。

在第四步，也是最后一步中，FASTA 通过估计随机生成序列的预期分数分布来评估 alignment 的显著性；这些随机序列具有相同的总体组成，即相同的序列长度以及氨基酸或核苷酸分布。基于这一随机化过程和原始 query 的结果，FASTA 计算 expectation value E（类似于 BLAST E value）；与前文一样，它表示某个报告的 hit 纯粹由偶然产生的概率。

图 3.20 FASTA 搜索策略。（a）一旦 FASTA 确定了 query sequence 和 target sequence 中共有的长度为 ktup 的 words，它就会连接彼此接近的 words，这些连接由对角线表示。（b）经过一轮初始评分后，选择排名前 10 的对角线进行进一步分析。（c）应用 Smith-Waterman algorithm，在正在考虑的两条序列之间得到最优 pairwise alignment。详见正文说明。

Running a FASTA Search

University of Virginia 提供了一个用于提交 FASTA queries 的 web front-end。该页面提供多种蛋白质和核苷酸数据库，并且一次运行最多可以选择两个数据库。在这个页面上，用户还可以指定要使用的 scoring matrix、gap and extension penalties，以及 ktup 的取值。对于基于蛋白质的搜索，ktup 的默认值为 2；对于基于核苷酸的搜索，默认值为 6。降低 ktup 的取值会提高运行的 sensitivity，但代价是速度下降。用户还可以将返回结果限制在特定的 E values 范围内。

FASTA query 返回的结果格式与 BLAST 返回的格式明显不同。以高度再生的刺胞动物 Hydractinia 中 histone H2B.3 的序列为例，这是一种用于替代 protamines 来压缩精子 DNA 的四种新型 H2B variants 之一（KX622131.1; Török et al. 2016）。将该序列作为 query，使用 BLOSUM62 作为 scoring matrix，并以 Swiss-Prot 作为目标数据库，得到的 FASTA 输出第一部分如图 3.21 所示，它以 histogram 的形式汇总结果。该 histogram 旨在表示本次特定搜索过程中计算出的所有 similarity scores 的分布。第一列表示 similarity scores 的 bins，分数随着页面向下而增加。第二列给出实际观察到落入每个 bin 的序列数量。这个计数也由 histogram 中每一行的长度表示，其中每个等号表示一定数量的序列；在该图中，每个等号对应 UniProtKB/Swiss-Prot 中的 130 条序列。第三列数字表示预期会落入每个 bin 的序列数量；在 histogram 中，这由星号表示。Hit list 会紧随其后；图 3.22 显示了本次搜索 hit list 的一部分。这里给出了每个 hit 的 accession number 和 partial definition line，同时还给出了 optimal similarity score（opt）、normalized score（bit）、expectation value（E）、percent identity 和 percent similarity 数值，以及 aligned length。这里没有显示每个 hit 与原始 query sequence 的 individual alignments；这些内容需要在输出中继续向下滚动才能看到。在 pairwise alignments 中，精确匹配由冒号表示，而 conservative substitutions 由点表示。

图 3.21 一次 protein-protein FASTA 搜索的 search summary，该搜索使用来自 Hydractinia echinata 的 histone H2B.3 序列（KX622131.1; Török et al. 2016）作为 query，并使用 BLOSUM62 作为 scoring matrix。Header 表明 query 是针对 Swiss-Prot database 执行的。Histogram 显示本次搜索计算出的所有 similarity scores 的分布。最左侧一列给出 normalized similarity score，标记为 opt 的列给出具有该分数的序列数量。标记为 E() 的列给出预期会达到第一列中该分数的序列数量。在本例中，histogram 中每个等号表示 Swiss-Prot 中的 130 条序列。每一行中的星号表示预期的随机 hits 分布。插图是该区域 histogram 的放大版本。

图 3.22 图 3.21 所述 protein-protein FASTA 搜索的 hit list。这里只显示前 18 个 hits。对于每个 hit，图中提供其 accession number 和 partial definition line。标记为 opt 的列给出 raw similarity score；标记为 bits 的列给出 normalized bit score，即两条序列之间相似性的一种度量；标记为 E 的列给出 expectation value。百分比列分别表示 percent identity 和 percent similarity。alen 列给出每个 hit 的 total aligned length。某些行开头显示的 +- 字符表示 query 和 subject 之间发现了不止一个 alignment；在第一个 hit（Q7Z5P9）的情况下，返回了四个 alignments。每行末尾的 align link 会把用户带到该 hit 的 alignment（图中未显示）。

Statistical Significance of Results

与前文一样，FASTA 搜索中的 E values 表示某个 hit 纯粹由偶然产生的概率。Pearson（2016）提出了以下从基于蛋白质的搜索中推断 homology 的指导原则，这些原则与前面为 BLAST 描述的原则略有不同：E value < 10^-6 几乎必然意味着 homology。当 E < 10^-3 时，query 与找到的 sequences 几乎总是 homologous，但用户应确保得分最高的非相关序列的 E value 接近 1。

Comparing FASTA and BLAST

由于 FASTA 和 BLAST 都采用严谨的算法来寻找在统计上，并且希望在生物学上，相关的序列，因此很自然会问哪一种方法是更好的选择。实际上，这个问题并没有一个很好的答案，因为两种方法都各有重要优势。下面总结了一些区分两种方法的细节。

FASTA 在搜索开始时寻找 words 的 exact matches，而 BLAST 在第一步中允许 conservative substitutions。
BLAST 允许自动 masking sequences，而 FASTA 不允许。
对 hit list 中的一条序列，FASTA 只会返回一个且仅一个 alignment；而 BLAST 可以为同一条序列返回多个结果，每个结果代表一个不同的 HSP。
由于 FASTA 使用了更严格的 Smith-Waterman alignment method 的一个版本，它通常会产生更好的最终 alignments，并且比 BLAST 更容易找到远缘相关序列。对于高度相似的序列，二者的性能相当接近。
当比较 translated DNA sequences 与 protein sequences，或反向比较时，FASTA 允许 frameshifts；具体而言，FASTX/FASTY 用于 translated DNA -> protein，TFASTX/TFASTY 用于 protein -> translated DNA。
BLAST 运行速度快于 FASTA，因为 FASTA 的计算量更大。

已有多项研究试图通过使用测试数据集进行系统分析，回答“哪种方法更好”这个问题（Pearson 1995; Agarawal and States 1998; Chen 2003）。在其中一项研究中，Brenner et al.（1998）使用一个来自 Structural Classification of Proteins database（SCOP；第 12 章）的数据集进行测试，该数据集基于其中记录的已知 homologies。他们发现，在寻找 sequence identity >30% 的蛋白质之间关系时，FASTA 的表现优于 BLAST，而所有方法在低于 30% 时性能都会下降。重要的是，虽然在寻找已知关系时，BLAST 报告的统计值略微低估了真实错误程度，但他们发现 BLAST 和 FASTA（ktup = 2）都能够检测到大多数已知关系，并称二者都“适合快速初始搜索”。

026

Summary

PDF page 96；印刷页码 76

▶

Summary

> 来源：Bioinformatics: A Practical Guide to the Analysis of Sequences and Genomes, 4th ed.

> 范围：PDF page 96；印刷页码 76。

> 实际 PDF 小节名：Summary。

> 用途：

执行 pairwise sequence alignments 并解释这类分析结果的能力，已经成为几乎所有生物学家的常规技能，不再只是 bioinformaticians 才会使用的技术。随着时间推移，这些方法一直在持续演化，以跟上数据类型和数据规模的变化；这些数据既来自单个实验室，也来自系统性的生物体测序项目。

与所有计算技术一样，读者应当牢固掌握其底层 algorithm，并始终牢记该 algorithm 的能力和局限。合理使用本章介绍的工具，可以带来有力而有趣的生物学发现；但也已有许多案例表明，不当使用这些工具会导致错误的生物学结论。理解这些方法后，用户就能够以最佳方式使用它们，并获得比把这些方法简单视为 “black box” 时更好的结果。

随着生物学越来越多地以 sequence-based 的方式开展，即使用序列数据来支撑实验设计和实验结果解释，对计算结果进行交叉检查也变得越来越重要。例如，由 BLAST 和 FASTA 生成的结果，应当在实验室中、依据文献，并结合额外的计算分析来核查，以确保由此得出的任何结论不仅在生物学上合理，而且实际上也是正确的。

---

Internet Resources

> 范围：PDF page 96；印刷页码 76。

> 实际 PDF 小节名：Internet Resources。

BLAST

European Bioinformatics Institute（EBI）

www.ebi.ac.uk/blastall

National Center for Biotechnology Information（NCBI）

blast.ncbi.nlm.nih.gov

BLAST-Like Alignment Tool（BLAT）

genome.ucsc.edu/cgi-bin/hgBlat

NCBI Conserved Domain Database（CDD）

ncbi.nlm.nih.gov/cdd

Cancer Genome Anatomy Project（CGAP）

ocg.cancer.gov/programs/cgap

FASTA

EBI

www.ebi.ac.uk/Tools/sss/fasta

University of Virginia

fasta.bioch.virginia.edu

RefSeq

ncbi.nlm.nih.gov/refseq

Structural Classification of Proteins（SCOP）

scop.berkeley.edu

Swiss-Prot

www.uniprot.org

027

译文：Further Reading and References

章节：Ch3 Assessing Pairwise Sequence Similarity: BLAST and FASTA

小节：Further Reading & References

PDF 页码：96-98 | 印刷页码：76-78

---

延伸阅读

Altschul, S.F., Boguski, M.S., Gish, W., and Wootton, J.C. (1994). Issues in searching molecular sequence databases. Nat. Genet. 6: 119–129. 一篇关于使用序列相似性搜索程序时重要问题的综述，其中包括潜在陷阱。

Fitch, W. (2000). Homology: a personal view on some of the problems. Trends Genet. 16: 227–231. 一篇经典论述，讨论在描述生物序列之间关系时使用精确术语的重要性。

Henikoff, S. and Henikoff, J.G. (2000). Amino acid substitution matrices. Adv. Protein Chem. 54: 73–97. 一篇全面综述，涵盖构建蛋白质评分矩阵时至关重要的因素。

Koonin, E. (2005). Orthologs, paralogs, and evolutionary genomics. Annu. Rev. Genet. 39: 309–338. 对直系同源基因、旁系同源基因及其亚型的深入阐释，并讨论它们的进化起源以及检测策略。

Pearson, W.R. (2016). Finding protein and nucleotide similarities with FASTA. Curr. Protoc. Bioinf. 53: 3.9.1–3.9.23. 对 FASTA 算法的深入讨论，包括示例演示，以及关于运行选项和使用场景的补充信息。

Wheeler, D.G. (2003). Selecting the right protein scoring matrix. Curr. Protoc. Bioinf. 1: 3.5.1–3.5.6. 对 PAM、BLOSUM 和专用评分矩阵的讨论，并就特定类型蛋白质分析中如何正确选择矩阵提供指导。

---

参考文献

Agarawal, P. and States, D.J. (1998). Comparative accuracy of methods for protein similarity search. Bioinformatics. 14: 40–47.

Altschul, S.F. (1991). Amino acid substitution matrices from an information theoretic perspective. J. Mol. Biol. 219: 555–565.

Altschul, S.F. and Koonin, E.V. (1998). Iterated profile searches with PSI-BLAST: a tool for discovery in protein databases. Trends Biochem. Sci. 23: 444–447.

Altschul, S.F., Gish, W., Miller, W. et al. (1991). Basic local alignment search tool. J. Mol. Biol. 215: 403–410.

Altschul, S.F., Madden, T.L., Schäffer, A.A. et al. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25: 3389–3402.

Brenner, S.E., Chothia, C., and Hubbard, T.J.P. (1998). Assessing sequence comparison methods with reliable structurally identified evolutionary relationships. Proc. Natl. Acad. Sci. USA. 95: 6073–6078.

Bücher, P., Karplus, K., Moeri, N., and Hofmann, K. (1996). A flexible motif search technique based on generalized profiles. Comput. Chem. 20: 3–23.

Chen, Z. (2003). Assessing sequence comparison methods with the average precision criterion. Bioinformatics. 19: 2456–2460.

Dayhoff, M.O., Schwartz, R.M., and Orcutt, B.C. (1978). A model of evolutionary change in proteins. In: Atlas of Protein Sequence and Structure, vol. 5 (ed. M.O. Dayhoff), 345–352. Washington, DC: National Biomedical Research Foundation.

Doolittle, R.F. (1981). Similar amino acid sequences: chance or common ancestry. Science 214: 149–159.

Doolittle, R.F. (1989). Similar amino acid sequences revisited. Trends Biochem. Sci. 14: 244–245.

Gonnet, G.H., Cohen, M.A., and Benner, S.A. (1992). Exhaustive matching of the entire protein sequence database. Proteins. 256: 1443–1445.

Gribskov, M., McLachlan, A.D., and Eisenberg, D. (1987). Profile analysis: detection of distantly-related proteins. Proc. Natl. Acad. Sci. USA. 84: 4355–4358.

Henikoff, S. and Henikoff, J.G. (1991). Automated assembly of protein blocks for database searching. Nucleic Acids Res. 19: 6565–6572.

Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA. 89: 10915–10919.

Henikoff, S. and Henikoff, J.G. (1993). Performance evaluation of amino acid substitution matrices. Proteins Struct. Funct. Genet. 17: 49–61.

Henikoff, S. and Henikoff, J.G. (2000). Amino acid substitution matrices. Adv. Protein Chem. 54: 73–97.

Jones, D.T., Taylor, W.R., and Thornton, J.M. (1992). The rapid generation of mutation data matrices from protein sequences. Comput. Appl. Biosci. 8: 275–282.

Karlin, S. and Altschul, S.F. (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. USA. 87: 2264–2268.

Kent, W.J. (2002). BLAT: the BLAST-like alignment tool. Genome Res. 12: 656–664.

Lipman, D.J. and Pearson, W.R. (1985). Rapid and sensitive protein similarity searches. Science. 227: 1435–1441.

Ma, B., Tromp, J., and Li, M. (2002). PatternHunter: faster and more sensitive homology search. Bioinformatics. 18: 440–445.

Pearson, W.R. (1995). Comparison of methods for searching protein sequence databases. Protein Sci. 4: 1145–1160.

Pearson, W.R. (2000). Flexible sequence similarity searching with the FASTA3 program package. Methods Mol. Biol. 132: 185–219.

Pearson, W.R. (2016). Finding protein and nucleotide similarities with FASTA. Curr. Protoc. Bioinf. 53: 3.9.1–3.9.23.

Pearson, W.R. and Lipman, D.J. (1988). Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA. 85: 2444–2448.

Rost, B. (1999). Twilight zone of protein sequence alignments. Protein Eng. 12: 85–94.

Ryan, J.F., Pang, K., Schnitzler, C.E. et al., and NISC Comparative Sequencing Program. (2013). The genome of the ctenophore Mnemiopsis leidyi. Science. 346: 436–439.

Schneider, T.D., Stormo, G.D., Gold, L., and Ehrenfeucht, A. (1986). Information content of binding sites on nucleotide sequences. J. Mol. Biol. 188: 415–431.

Schnitzler, C.E., Simmons, D.K., Pang, K. et al. (2014). Expression of multiple Sox genes through embryonic development in the ctenophore Mnemiopsis leidyi is spatially restricted to zones of cell proliferation. J. Exp. Zool. (Mol. Dev. Evol.) 322B: 423–433.

Smith, T.F. and Waterman, M.S. (1981). Identification of common molecular subsequences. J. Mol. Biol. 147: 195–197.

Staden, R. (1988). Methods to define and locate patterns of motifs in sequences. Comput. Appl. Biosci. 4: 53–60.

Tatusov, R.L., Altschul, S.F., and Koonin, E.V. (1994). Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks. Proc. Natl. Acad. Sci. USA. 91: 12091–12095.

Tatusova, T.A. and Madden, T.L. (1999). BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences. FEMS Microbiol. Lett. 174: 247–250.

Török, A., Schiffer, P.H., Schintzler, C.E. et al. (2016). The cnidarian Hydractinia echinata employs canonical and highly adapted histones to pack its DNA. Epigenet. Chromatin. 9: 36.

Vogt, G., Etzold, T., and Argos, P. (1995). An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. J. Mol. Biol. 249: 816–831.

Wheeler, D.G. (2003). Selecting the right protein scoring matrix. Curr. Protoc. Bioinf. 1: 3.5.1–3.5.6.

Wootton, J.C. and Federhen, S. (1993). Statistics of local complexity in amino acid sequences and sequence databases. Comput. Chem. 17: 149–163.

Zhang, Z., Schwartz, S., Wagner, L., and Miller, W. (2000). A greedy algorithm for aligning DNA sequences. J. Comput. Biol. 7: 203–214.

---

作者声明

本章由 Andreas D. Baxevanis 博士以个人身份撰写。不应暗示或推断其获得了美国国立卫生研究院（National Institutes of Health）或美国卫生与公众服务部（United States Department of Health and Human Services）的官方支持或认可。

Chapter 4

Genome Browsers

028

Introduction

PDF page 99-101 顶部；印刷页码 79-81

▶

第4章基因组浏览器

作者：Tyra G. Wolfsberg

引言

第一个真核生物基因组完整序列——酿酒酵母（Saccharomyces cerevisiae）基因组——发表于 1996 年（Goffeau et al. 1996）。该生物的染色体大小范围为 270–1500 kb，这立刻带来了数据管理上的挑战，因为当时 GenBank 单条数据库记录的上限只有 350 kb。为了更好地管理酵母基因组序列，以及当时陆续提交到 GenBank 的其他染色体级和基因组级序列，美国国立卫生研究院（NIH）下属的美国国家生物技术信息中心（NCBI）建立了 Entrez 的 Genomes 分部（Benson et al. 1997）。这一分部中的记录围绕参考序列（reference sequence）组织，并将该物种的其他序列比对到该参考序列上。由于这些参考序列没有长度上限，因此可以把较短的 GenBank 序列拼装成大型基因组或整条染色体的“虚拟”参考序列。对于仅完成部分测序的染色体，NCBI 还开发了将遗传图谱、物理图谱和细胞遗传学图谱整合到整条染色体框架中的方法。由此，Entrez Genomes 成为了最早能够提供大尺度基因组序列数据图形化视图的系统之一。

2001 年 2 月完成的人类基因组工作草图（Lander et al. 2001）为每条人类染色体生成了一个虚拟参考序列，其长度范围为 46–246 Mb。为了显示这些更长的序列，NCBI 很快建立了第一版人类 Map Viewer（Wheeler et al. 2001）。大约在同一时期，加州大学圣克鲁兹分校（UCSC）Genome Bioinformatics Group 也在开发自己的人类基因组浏览器，它最初基于一个用于展示更小的秀丽隐杆线虫（Caenorhabditis elegans）基因组的软件框架（Kent and Zahler 2000）。与此同时，欧洲分子生物学实验室欧洲生物信息学研究所（EMBL-EBI）的 Ensembl 项目，也在构建一个能够自动注释人类基因组序列、并对数据进行存储与可视化的系统（Hubbard et al. 2002）。这三个基因组浏览器几乎在同一时期上线，研究人员也开始利用它们来导航人类基因组（Wolfsberg et al. 2002）。如今，这些站点不仅免费提供人类序列数据，还提供大量其他已组装的基因组序列，从常用模式生物如小鼠，到较新发布的家养火鸡基因组装版本。虽然 NCBI 的 Map Viewer 已不再继续开发，并将由新的 Genome Data Viewer 取代（Sayers et al. 2019），但 UCSC 和 Ensembl Genome Browser 仍然是生物信息学与基因组学群体中最常使用、最受欢迎的资源。本章将主要聚焦于后两者。

参考人类基因组采用 clone-by-clone shotgun sequencing strategy（逐克隆鸟枪法测序策略）完成测序，并于 2003 年 4 月被宣布完成，尽管某些特定区域的测序工作至今仍在继续。这一策略包括：先为每条人类染色体构建细菌人工染色体（bacterial artificial chromosome, BAC）铺瓦图（tiling map），然后再使用 shotgun sequencing approach（鸟枪法测序方法）对每个 BAC 进行测序（综述见 Green 2001）。

单个 BAC 的序列在获得后会被提交到 GenBank 的 High Throughput Genomic（HTG）分部。UCSC 自 2000 年 5 月起开始将这些 BAC 序列组装成更长的 contig（Kent and Haussler 2001），随后 NCBI 也开展了相应的组装工作（Kitts 2003）。这些 contig 含有缺口以及排列顺序尚不确定的区域，正是它们构成了基因组浏览器开发的基础。随着基因组测序逐步完成，人类基因组组装版本每隔几个月就会更新一次。UCSC 在 2001 年 8 月停止自行生成人类基因组组装版本后，NCBI 为生物信息学社区构建了 8 个参考人类基因组组装，最终以 2006 年 3 月的最后一个版本收尾。此后，Wellcome Trust Sanger Institute（WTSI）、华盛顿大学基因组研究所、EBI 和 NCBI 等机构组成了国际协作组织 Genome Reference Consortium（GRC），接管了后续人类基因组组装的维护工作。该联盟随后发布了两个主要的人类基因组组装版本：2009 年 2 月的 GRCh37 和 2013 年 12 月的 GRCh38。

正如人们所预期的那样，每一次新的基因组组装都会引起已注释特征（annotated features）序列坐标的变化。在主要组装版本发布之间，GRC 还会发布 patch（补丁），用于纠正组装错误或加入 alternate loci（替代位点）。所谓替代位点，是对那些变异过于丰富、无法由单一参考序列充分表示的区域给出的多种表示方式，例如 19 号染色体上的 killer cell immunoglobulin-like receptor（KIR）基因簇，以及 6 号染色体上的 major histocompatibility complex（MHC）位点。与新的基因组组装不同，patch 不会改变已注释特征的染色体坐标。GRCh38.p10 共包含 282 个替代位点或补丁。

虽然 GRC 也负责组装小鼠、斑马鱼和鸡的基因组，但其他物种的基因组通常由专门的测序联盟完成测序与组装。2009 年发表的大熊猫基因组，是第一个放弃人类和小鼠所用克隆式测序策略、完全依赖 next generation sequencing（下一代测序）方法完成的哺乳动物基因组（Li et al. 2010）。随着测序技术不断进步，完整基因组序列的数量也迅速增加。写作本章时，UCSC Genome Browser 和 Ensembl 主站都已收录超过 100 个物种的基因组组装。无论显示的是哪一种物种，这些基因组浏览器在整体界面风格和使用方式上基本一致；但由于不同物种可获得的数据不同，其注释内容和注释种类也会有所差异。

每个浏览器的骨架都是一个已经组装完成的基因组序列。尽管在极少数例外之外，两种浏览器所依托的基因组底层序列是相同的，但两支团队分别独立计算各自的注释结果。因此，针对不同类型的分析任务，用户可能会发现某一个浏览器提供的信息比另一个更相关。已知基因和预测基因的位置，都是两个浏览器共同关注的核心内容。就当前的人类基因组而言，这两个浏览器都整合了 GENCODE 基因预测结果，这是一项旨在提供稳健、基于证据的参考基因集的工作（Harrow et al. 2012）。此外，其他类型的基因组数据也会被映射到基因组组装上，包括 NCBI 参考序列、单核苷酸多态性（single-nucleotide polymorphisms, SNPs）及其他变异、基因调控区域、基因表达数据，以及来自其他物种的同源序列。用户既可以通过网页界面，以图形化方式浏览基因组；也可以在需要自行计算时，以文本格式提取序列和注释信息。每个浏览器还都提供序列搜索工具——BLAT（Kent 2002）或 BLAST（Camacho et al. 2009）——用于以核酸或蛋白质序列作为查询，对数据进行检索。（有关 BLAT 和 BLAST 的更多信息，见第 3 章。）

为了保持结果稳定，并确保旧分析可重复，两个基因组浏览器不仅提供当前版本的基因组组装，也保留旧版本。此外，诸如 GENCODE gene track 和 SNP track 之类的 annotation track（注释轨道），也可能基于不同版本的底层数据构建。因此，当用户在 UCSC 与 Ensembl Genome Browser 之间比较某一感兴趣区域时，应核对所有相关数据的版本，包括基因组组装版本和注释版本。

本章将给出使用 UCSC 和 Ensembl Genome Browser 访问基因组序列及注释信息的一般性指导。虽然许多类似的分析在两个浏览器中都可以完成，但本章刻意在两个站点分别选用不同示例，以展示研究者可能提出的不同类型问题。最后，本章还将简要介绍 JBrowse（Buels et al. 2016）——这是一种基于 Web 的基因组浏览器，用户可以部署在自己的服务器上，用于共享自定义基因组组装和注释。第 4 章所讨论的所有资源均可免费使用。

029

The UCSC Genome Browser

PDF page 101-114 前；印刷页码 81-94

▶

Ch4 Genome Browsers / The UCSC Genome Browser

UCSC 基因组浏览器

本章介绍使用 UCSC 与 Ensembl 基因组浏览器访问基因组序列和注释的一般指南。虽然两种浏览器都可以进行类似的分析，但我们在两个站点采用了不同的示例，以展示研究者可能提出的不同类型的问题。最后，我们简要介绍 JBrowse（Buels et al. 2016），这是一种基于 Web 的基因组浏览器，用户可在自己的服务器上部署，用于共享自定义的基因组组装和注释。本章讨论的所有资源均可免费获取。

UCSC 基因组浏览器

UCSC 基因组浏览器始于 2000 年，最初只显示人类基因组组装的早期草稿。如今，它已提供对 100 多个物种的组装和注释的访问（Haeussler et al. 2019）。大多数组属于哺乳动物基因组，但也包括其他脊椎动物、昆虫、线虫、后口动物以及埃博拉病毒。某些物种（包括人和小鼠）的组装有多个版本。新物种和新版本会定期添加。

UCSC 浏览器以轨道（track）的形式呈现基因组注释。每条轨道提供一种不同类型的特征，从基因到 SNP、预测的基因调控区域以及表达数据。每个物种都有自己的一组轨道，部分由 UCSC 基因组生物信息学团队创建，部分由生物信息学社区的成员提供。人类基因组 GRCh37 版本有 200 多条可用轨道。较新的人类基因组组装 GRCh38 轨道较少，因为并非所有数据都已从旧组装重新映射。其他基因组的注释程度不如人类；例如，海兔只有不到 20 条轨道。某些轨道（例如从 NCBI 转录本数据创建的轨道）可在多个物种中使用；其他轨道则仅适用于一个或少数几个物种。

本章首先介绍如何从 UCSC 主页（Figure 4.1）的 Gateway 链接访问 UCSC 基因组浏览器。默认组装为最新的人类组装（当前为 GRCh38）。也可以在主页上选择其他基因组和组装版本。

开始搜索基因的方式有两种。第一，在浏览器窗口顶部附近的搜索框中输入搜索词（Figure 4.1），浏览器默认会在当前基因组中搜索匹配的基因。第二，使用 BLAT 搜索功能（见下文）。我们将在示例中搜索人类低氧诱导因子 1α 亚基（HIF1A）基因（Figure 4.1），点击 go 后将显示 Figure 4.2 中的视图。

导航控件位于显示区域顶部。箭头用于在染色体上向左或向右移动。缩放控制用于放大或缩小显示区域。点击 zoom out 1.5× 或 zoom out 3× 将使视图从基因扩展到更大范围——不仅显示 HIF1A 本身，还显示其侧翼区域。点击 zoom in 1.5× 或 zoom in 3× 则放大到更小的区域，使单核苷酸级别的细节变得可见。chr position 字段显示当前在浏览器中查看的基因组坐标的范围。可以在该框中手动输入坐标或基因名称并按回车键，而非使用搜索功能。

Figure 4.1 UCSC 基因组浏览器主页，显示在人类 GRCh38 基因组组装上查询 HIF1A 基因。

Source: Reproduced with permission of UCSC Genome Browser, https://genome.ucsc.edu.

在 Figure 4.2 所示的浏览器窗口下方，可以看到一组轨道，按功能逻辑分组。默认情况下，许多轨道处于隐藏状态。要显示隐藏的轨道，可将轨道标签左侧的按钮从 hide 改为 dense、pack 或 full。dense 模式将所有特征压缩为单行显示；pack 模式以节省空间的方式显示轨道，通常使用多行；full 模式显示关于每个特征的最详细信息。

Figure 4.2 UCSC 基因组浏览器的默认视图，显示人类 HIF1A 基因的基因组上下文。

位于浏览器图形窗口（Figure 4.2）下方，是按功能分组的轨道列表。Genes and Gene Predictions 部分包含基因注释轨道。ENCODE Regulation 和 ENCODE Combined 部分包含添加了实验数据的轨道。Variation and Repeats 部分包含 dbSNP 常见 SNP 轨道，以及重复序列轨道。轨道的颜色、注释细节等设置也可以在 Track Settings 页面中配置。

每条轨道显示为水平条带，轨道上方有标题，轨道内部有标签。某些轨道还包含轨道项目的描述或显示控制（Figure 4.2）。轨道以 densen 模式显示为单行，例如默认显示在 UCSC 浏览器中的 RefSeq 和 GENCODE 轨道。

修改轨道显示

点击轨道标题行的任意位置或轨道最左侧的按钮（Figure 4.2），可进入 Track Settings 页面。这里，用户可以设置轨道可见性——dense、pack、full 或 hide。还可以配置特定于该轨道的设置，例如用于显示轨道项的颜色或数据子集。

当前视图以 full 模式显示参考基因和 GENCODE 注释 V41，以 dense 模式显示 RefSeq 注释。GENCODE 和 RefSeq 轨道在 pack 模式下显示为一个紧凑的概览，每行展开多个转录本。

点击 zoom out 3× 三次，视图将从单个基因扩展约 27 倍，显示 HIF1A 的上游和下游区域（Figure 4.3）。另一个 HIF1A 反义转录本（HIF1A-AS1）变得可见。请注意，在 dense 模式下，外显子显示为块状，而 full 模式则会显示带有内含子/外显子边界和外显子编号的整个转录本（Figure 4.2）。

Figure 4.3 点击 zoom out 3× 后人类 HIF1A 基因的基因组上下文。HIF1A 上游紧邻的基因（FLJ22447）和下游紧邻的基因（HIF1A-AS2 和 HIF1A-AS1）现在可见。

Source: Reproduced with permission of UCSC Genome Browser, https://genome.ucsc.edu.

在 Genes and Gene Predictions 部分中，将 UCSC Genes 轨道设置为 hide，将 RefSeq Curated 轨道的标签左侧按钮改为 full，点击 Track Settings 页面底部的 submit 按钮。产生的 Track Settings 页面（Figure 4.4）允许用户选择要显示哪种类型的 RefSeq，包括 curated RefSeq mRNAs（NM_ 前缀）、RefSeq predicted mRNAs（XM_ 前缀）等。选择 NM_ 后点击 submit，并将 RefSeq Curated 轨道的显示模式从 dense 改为 full，得到 Figure 4.5 的图形视图。

Figure 4.4 RefSeq Track Settings 页面。Track Settings 页面用于配置注释轨道的显示。默认情况下，所有 RefSeq curated mRNAs（NM_ 前缀）都会显示。

Figure 4.5 在 full 模式下显示 RefSeq Curated 基因后人类 HIF1A 基因的基因组上下文。每条 RefSeq 转录本都显示在一个独立的行上，带有外显子-内含子结构显示。这与 Figure 4.2 形成对比，后者所有 RefSeq 转录本都被压缩为单行。

Figure 4.6 Get Genomic Sequence 页面，为用户提供检索感兴趣特征序列的界面。点击某个转录本的外显子可访问此页面。

检索序列

向下滚动至 Figure 4.3 图形视图的底部，可以找到 Display 按钮附近的 DNA 链接。点击该链接会显示 Get Genomic Sequence 页面（Figure 4.6）。用户可以选择提取整个浏览器窗口对应的区域序列，也可以选择连接到单个转录本的序列。通过下拉菜单（Figure 4.6），用户可以选择外显子、编码区、5′ UTR 或 3′ UTR 的序列。输出的格式可以是以 FASTA 格式显示序列，选择小写字母表示重复序列，或字母中包含内含子——这有助于查看可变剪接模式。

添加注释轨道

在 Figure 4.3 所示的图形视图下方，可以看到来自 ENCODE（Encyclopedia of DNA Elements）项目的轨道。这些轨道提供了跨多种细胞类型的转录组和表观基因组数据。为了显示与 HIF1A 基因座相关的 H3K4Me3 组蛋白修饰数据，找到 ENCODE Regulation 超轨道，并通过下拉菜单将 H3K4Me3 标志的显示从 hide 改为 full。SNAPC1 等基因的 H3K4Me3 峰在 Figure 4.7 中可见。

添加 SNP 数据可以使研究者将基因组特征与已知变异联系起来。滚动至 Variation and Repeats 部分，将 Common SNPs(150) 轨道从 hide 改为 full。打开此轨道的 Track Settings 以修改其显示（Figure 4.8）。在 Coloring Options 部分，将所有选项设为黑色，except missense 设为黑色，except synonymous 设为黑色。将 5′ UTR 和 3′ UTR SNP 设置为蓝色。设置如图 Figure 4.8 所示。点击 submit 后，synonymous 和 untranslated SNP 将以蓝色清晰可见（Figure 4.9）。

Figure 4.7 将 H3K4Me3 峰从 hide 改为 full 显示后人类 HIF1A 基因的基因组上下文。H3K4Me3 轨道是 ENCODE Regulation 超轨道的一部分。

Figure 4.8 配置 Common SNPs(150) 轨道的 Track Settings。将 Coloring Options 设置为所有 SNP 均为黑色，除错义 SNP（也设为黑色）和同义 SNP（设为黑色）外，5′ 和 3′ UTR 区域的 SNP 设为蓝色。

Figure 4.9 按 Figure 4.8 所示更改 Common SNPs(150) 轨道的颜色和显示模式后的人类 HIF1A 基因基因组上下文。HIF1A GENCODE 转录本的 5′ 和 3′ UTR 中的 SNP 现在显示为蓝色，而非同义 SNP 仍然为黑色。

比较基因轨道

在 Genes and Gene Predictions 部分下方，将 GENCODE V41 轨道设置为 pack 模式。hide MANE Select 和 MANE Plus Clinical 轨道。Figure 4.10 以 pack 模式显示了 Gene 轨道，以及 Figure 4.2 中使用的 full 模式 RefSeq Curated 轨道的对比。在 pack 模式下，转录本被分组以减少重叠，全部显示在节省空间的视图中。该视图提供了一个很好的概览，显示哪些转录本是 GENCODE、RefSeq 或两者共有的。例如，HIF1A-204 同时属于 GENCODE V41 和 RefSeq Curated 轨道（Figure 4.10）。GTEx Transcript 轨道类似，但展示的是来自基因型-组织表达（GTEx）项目的表达数据（Figure 4.10 插图）。

Figure 4.10 以 pack 模式显示的 Gene 轨道与 full 模式显示的 RefSeq Curated 轨道的对比。两个轨道的共享转录本清晰可见（如 HIF1A-204）。

使用 BLAT

BLAST-Like Alignment Tool（BLAT）工具（Kent 2002）可用于将查询序列比对到基因组。BLAT 可以从 UCSC 基因组浏览器主页或 Tools 下拉菜单访问。BLAT 支持 DNA、RNA 或蛋白质序列的比对，可针对一个或多个基因组进行。Figure 4.11 显示了对人类 HIF1A 编码序列进行 BLAT 搜索的结果。结果以得分递减排序，与查询序列完美匹配的结果排在首位。点击 browser 链接可以直接跳转到基因在基因组上下文中的位置。

Figure 4.11 BLAT 搜索结果显示人类 HIF1A 编码序列的比对结果。得分最高的匹配排在最前面。

使用 UCSC Table Browser 进行数据检索

Table Browser（Karolchik et al. 2004）可以通过 UCSC 基因组浏览器主页的 Tools 下拉菜单访问。首先，点击 Table Browser 设置部分底部的 click here 链接可重置所有用户 cart 设置。然后在 GRCh38 基因组组装上选择 NCBI RefSeq 轨道（Figure 4.12a）。创建过滤器，将搜索范围限定为 NM_ 编号系列的 curated mRNA 参考序列（Box 1.2；Figure 4.12b）。接下来，将 RefSeq 轨道与来自 GWAS Catalog 的变异取交集（Figure 4.12c）。最后，在 Table Browser 表单中，将输出格式更改为 Genome Browser 的超链接，然后点击 get output。输出是一个包含 3,000 多个 RefSeq mRNA 的列表，这些 mRNA 与 GWAS Catalog 中的某个变异有重叠（Figure 4.12d）。可以通过点击结果列表中的第一个链接，查看来自 arginine–glutamic acid dipeptide (RE) repeats（RERE）基因的一个转录本以及与其重叠的六个 GWAS Catalog SNP 在基因组浏览器中的视图，如 Figure 4.12e 所示。

Figure 4.12 (a) 在 GRCh38 上选择 NCBI RefSeq 轨道。(b) 创建 NM_ 限定过滤器。(c) 与 GWAS Catalog 变异取交集。(d) 输出 3,000+ 匹配的 RefSeq mRNA。(e) 查看 RERE 基因位点与 GWAS Catalog SNP 的 Genome Browser 视图。

030

UCSC Table Browser

PDF page 114-116 前；印刷页码 94-96

▶

Ch4 Genome Browsers / UCSC Table Browser

UCSC Table Browser

Table Browser 工具为用户提供基于文本的界面，用于查询、取交集、过滤和下载基因组浏览器中以图形方式显示的数据。这些数据可以保存为电子表格以供进一步分析，或作为输入用于其他程序。通过基于 Web 的界面，用户选择基因组组装、轨道和位置，然后选择如何处理轨道数据以及返回哪些字段。

以下示例演示如何检索所有与全基因组关联研究（GWAS）Catalog 轨道中的 SNP 重叠的 NCBI mRNA 参考序列列表。GWAS Catalog 识别与常见疾病或性状相关的遗传位点，是已发表的全基因组关联研究（至少检测 100,000 个 SNP）的人工策划集合，其中所有 SNP-性状关联的 p 值均小于 1 × 10⁻⁵（Buniello et al. 2019）。

Table Browser 的起始页面可以从 UCSC 基因组浏览器主页或 Tools 下拉菜单访问。首先，点击 Table Browser 设置部分底部的 click here 链接，重置所有用户 cart 设置。

然后，在 GRCh38 基因组组装上选择 NCBI RefSeq 轨道（Figure 4.12a）。创建过滤器，将搜索范围限定为 NM_ 编号系列的 curated mRNA 参考序列（Box 1.2；Figure 4.12b）。接下来，将 RefSeq 轨道与来自 GWAS Catalog 的变异取交集（Figure 4.12c）。最后，在 Table Browser 表单中，将输出格式更改为 Genome Browser 的超链接，然后点击 get output。输出是一个包含 3,000 多个 RefSeq mRNA 的列表，这些 mRNA 与 GWAS Catalog 中的某个变异有重叠（Figure 4.12d）。点击结果列表中的第一个链接，可查看来自 arginine–glutamic acid dipeptide (RE) repeats（RERE）基因的一个转录本及其重叠的六个 GWAS Catalog SNP 在 Genome Browser 中的视图，如 Figure 4.12e 所示。

*Figure 4.12 配置 UCSC Table Browser。Table Browser 的链接在每个页面顶部的 Tools 菜单中。(a) 在 Table Browser 主页上，首先点击窗口底部的 reset 按钮重置所有之前的设置。接着，在人类 GRCh38 基因组组装上，从 Genes and Gene Predictions 组中选择名为 NCBI RefSeq 的轨道。区域应设置为 genome，输出格式设置为 hyperlinks to Genome Browser。(b) 创建过滤器，将搜索限定为 NM_ 编号系列的 curated mRNA 参考序列（见 Box 1.2）。点击 Figure 4.12a 中所示的 filter 按钮，在 name 字段中输入 NM_。——是匹配任意文本的通配符。因此，此设置将结果限定为名称中包含 NM_ 的 curated RefSeq。(c) 在 RefSeq 轨道与 GWAS Catalog 变异之间创建交集。点击 Figure 4.12a 中所示的 intersection 按钮，选择相应轨道。组为 Phenotype and Literature，轨道为 GWAS Catalog。其他选项保持默认。(d) 点击 Figure 4.12a 中所示的 get output 按钮。输出是一个包含 3,000 多个与 GWAS Catalog 变异重叠的 RefSeq mRNA 的列表。每个 RefSeq 都有指向 Genome Browser 的超链接。(e) 第一个链接指向 NM_001042682.1，即 arginine–glutamic acid dipeptide (RE) repeats（RERE）基因的一个转录本。RERE 的基因组上下文显示了与其重叠的八个 GWAS Catalog SNP。*

Data Integrator

UCSC 还提供了一个名为 Data Integrator 的相关工具。Data Integrator 的交集功能比 Table Browser 更为复杂，它可以对多达五个独立轨道的数据取交集，并输出选定轨道和相关表中的字段。例如，Data Integrator 的输出可以包括基因符号、RefSeq 轨道上每个转录本的登录号以及 GWAS Catalog 中变异的 dbSNP 标识符。但是，Data Integrator 不支持过滤功能，因此无法将输出限制为仅 RefSeq mRNA 基因。

031

ENSEMBL Genome Browser

PDF page 116-128 前；印刷页码 96-108

▶

Ch4 Genome Browsers / ENSEMBL Genome Browser

ENSEMBL 基因组浏览器

Ensembl 基因组浏览器（Cunningham et al. 2019）始于 1999 年（Hubbard et al. 2002），最初用于显示人类基因组组装。与 UCSC 基因组浏览器一样，它在多年来取得了巨大发展。Main Ensembl 站点专注于脊椎动物，涵盖近 90 个物种的组装。Ensembl 还为其他生物类群创建了专门的兄弟数据库，包括 EnsemblPlants（近 50 个物种）、EnsemblMetazoa（近 70 个物种）、EnsemblProtist（100 多个物种）和 EnsemblFungi（800 多个物种），以及非常庞大的 EnsemblBacteria（约 44,000 个物种）。可用基因组数据和注释的数量因物种而异，但浏览器的通用导航原则对所有物种均相同。另一个资源是 Pre!Ensembl，用于显示正在注释过程中的基因组。该站点的基因组具有组装和 BLAST 界面，但大多数情况下没有基因预测。

与 UCSC 基因组浏览器类似，Ensembl 浏览器提供多个版本的基因组组装。组装中可能整合了基因、基因组变异、基因调控和比较基因组学注释。注释被组织为轨道集合。Ensembl 整合了来自多种公共来源的数据，包括 NCBI、UCSC、模式生物数据库等，并通过正式的发布流程更新数据和软件，可通过版本号追踪。重要的是，之前的 Ensembl 版本会被归档并在网站上保留展示。因此，即使基因组组装或注释集已被更新，仍可使用 Ensembl 网站的所有常规功能查看旧数据。这一归档机制使 Ensembl 区别于 UCSC——后者的组装保持稳定，但注释可能每周都会变化。每个 Ensembl 页面底部都有一个名为 View in archive site 的链接，可提供指向该页面旧版本的链接，包括同一基因组组装上的旧注释集以及旧的基因组组装。

Ensembl 浏览器提供许多与 UCSC 基因组浏览器同类型的资源和工具。可以使用 BLAT 或 BLAST 将序列比对到已组装的基因组上。Ensembl 的 BLAST 服务特别适合在含有不易直接通过 BLAT 比对的远缘物种的数据库中进行搜索。对于基因、变异和基因组调控，Ensembl 都有相应的 Tab 来显示相关信息。

Location Tab

Location tab（位置选项卡）是 Ensembl 中最重要的页面。当在搜索框中搜索一个基因时，浏览器会自动重定向到该页面。Figure 4.13 显示了人类 EPAS1 基因的 Location tab。Configuration 面板使您可以选择在页面上显示哪些注释。页面由上至下包括：染色体概览、详细信息面板、基因分布、每个转录本的详细视图以及基因组变异。点击 Configure this page 按钮可以添加或删除轨道。

Figure 4.13 Ensembl Location tab，显示人类 EPAS1 基因。用户可以禁用某些功能以简化页面显示。

Gene Tab

Gene tab（基因选项卡）整合了基因的所有转录本信息（Figure 4.14）。页面顶部显示了与基因相关的表型、变异和文献的总结信息，下方列出了该基因的所有已知转录本。

点击某个转录本右侧的 Show transcript table 可显示更详细的信息，包括外显子坐标、编码区和翻译后修饰。点击 Export data 可下载序列或注释。Orthologues 部分列出了该基因在其他物种中的直系同源物，并带有连锁图标。每个 Ensembl 页面中都有一个 Share 按钮，用于生成指向当前视图的稳定链接。

Figure 4.14 Ensembl Gene tab，显示人类 EPAS1 基因及其多个转录本。

Variant Tab

Variant tab（变异选项卡）（Figure 4.15）用于显示特定变异，例如 dbSNP 中的 rsID、COSMIC 中的突变标识符，或一个 VCF 标识符。它也接受不使用 rs 或 COS 前缀的基因组坐标。该页面总结了已知的表型关联、变异的临床显著性、同义或非同义氨基酸替换、SIFT 和 PolyPhen 预测、等位基因频率以及来自 1000 Genomes Project 和 gnomAD 等源的基因型数据。页面还包括该变异的基因组上下文概览。

Figure 4.15 Ensembl Variant tab，显示 dbSNP rs148731451。页面包括表型关联、临床显著性、SIFT/PolyPhen 预测、等位基因频率等信息。

使用 BLAT 在 Ensembl 中比对序列

Ensembl BLAT（Figure 4.16）可用于将查询序列与一个选定的基因组进行比对。结果会返回匹配的基因组坐标、得分和 identity。Figure 4.16a 显示了人类 EPAS1 编码序列的 BLAT 搜索结果。结果按得分排序，与查询序列完美匹配的结果列于首位。要查看比对的详细信息，包括基因组上下文，点击结果中的 Location 链接（Figure 4.16b），即可打开 Location tab，显示查询序列在基因组中的对应位置，与 UCSC 中的操作类似。

Figure 4.16 (a) Ensembl BLAT 搜索结果，显示人类 EPAS1 编码序列的比对。(b) 点击 Location 链接可查看比对的基因组上下文。

查看共线性（Synteny）

Ensembl 可以计算并展示跨物种的高度保守共线性区域。例如，Figure 4.17 显示了人类 2 号染色体与小鼠 1 号染色体之间的共线性。共线性块使用不同颜色编码，并显示基因组坐标。比较基因组学注释还包括直系同源列表、基因树以及基于蛋白质家族的基因分类。

Figure 4.17 人类 2 号染色体与小鼠 1 号染色体之间的共线性。共线性块使用不同的颜色表示。

使用 BLAST 在 Ensembl 中比对序列

Ensembl 中的 BLAST 搜索同样可以从 Tools 菜单访问。Figure 4.18 显示了人类 ADAM18 蛋白质序列（NP_055035.1）在与斑马鱼翻译基因组数据库比对时的 BLAST 结果。注意，结果按 E-value 排序。点击结果条目可查看该蛋白质在斑马鱼基因组上下文中的视图。Figure 4.18a 显示了 ADAM18 与斑马鱼翻译基因组之间比对的详细视图，查询序列位于上方，斑马鱼翻译序列位于下方。两条序列仅共享约 46% 的序列 identity。

Figure 4.18 Ensembl BLAST 搜索结果，显示人类 ADAM18 蛋白质序列与斑马鱼基因组的比对。(a) 比对的详细视图。

另见：BLAST 与 BLAT 的对比

当被查询的数据库只包含一个目标物种时，BLAT 和 BLAST 能够很好地工作。但如果数据库包含许多物种，特别是包含进化距离很远的物种时，BLAST 明显更强大。Figure 4.19 显示了将相同的 ADAM18 蛋白质序列（NP_055035.1）与蜥蜴翻译基因组数据库进行 BLAST 比对的结果。在此搜索中，斑马鱼（先前 BLAST 搜索的目标）的结果也出现了，但匹配得分较高的结果是蜥蜴基因组。两条序列只有 32% 的 sequence identity，但比对覆盖了 650 个氨基酸，并且某些关键序列特征得以保留；注意几乎每个半胱氨酸残基都对齐了。因此，这条蜥蜴基因组序列确实是人类 ADAM18 的同源物。BLAST 算法虽然比 BLAT 慢约两个数量级，但能够找到人类蛋白质的蜥蜴直系同源物。

Figure 4.19 Ensembl BLAST 结果，显示将相同的人类 ADAM18 蛋白质序列与蜥蜴基因组数据库比对的结果。BLAST 能够识别出进化距离较远的直系同源物。

在 Ensembl 中使用 Variation 数据

Ensembl 的 Region in detail 页面包含来自 dbSNP 的变异数据，类似于 UCSC 浏览器。Figure 4.20 展示了 EPAS1 区域的一个典型视图，其中变异轨道被设置为显示状态。编码变异以不同颜色显示——例如，编码同义变异以绿色渲染。点击变异可显示一个包含相关信息（如等位基因频率和 SIFT/PolyPhen 预测）的弹出窗口。

Figure 4.20 Ensembl Region in detail 页面，显示人类 EPAS1 区域的变异轨道。编码变异以不同颜色显示——深绿色为同义变异，浅绿色为非编码转录本外显子变异。

在 Ensembl 中查看调控数据

Ensembl 也提供调控注释。Figure 4.21 展示了 EPAS1 基因区域的 H3K4Me3 标记峰。用户可以通过 Configure page 面板选择按细胞类型显示数据。在 Regulation 部分下选择相应的细胞类型，即可在页面上添加调控轨道。

Figure 4.21 Ensembl 调控注释显示 EPAS1 区域的 H3K4Me3 组蛋白标记峰。

032

Ensembl Biomart

PDF page 128-130 前；印刷页码 108-110

▶

Ch4 Genome Browsers / Ensembl Biomart

Ensembl Biomart

BioMart 是一个功能强大的数据检索工具，可用于获取 Ensembl 基因组注释中存储的各种信息。通过在菜单中选择选项，用户可以构建所需的输出——类似于在线购物车。尽管 BioMart 也可以从 Ensembl 主页上的 Tools 菜单访问，但 BioMart 本身是一个独立的网站（Smedley et al. 2015），并作为许多模型生物数据库的数据查询界面。

此示例将展示如何在 Ensembl Biomart 中检索人类 RefSeq 基因 ID（NM_ 编号）与对应小鼠直系同源基因 ID 的映射列表。首先，选择 Ensembl Genes 数据库，然后选择人类 GRCh38 基因组。在过滤器面板中，将 Gene type 过滤为 Protein coding。在 Attributes 面板中，选择 Stable ID 为输出。然后点击 Results 按钮，将结果表下载为 CSV 文件。

Figure 4.22 Ensembl BioMart 界面。(a) 概述：选择数据库和数据集。(b) 过滤器面板：将 Gene type 设为 Protein coding。(c) Attributes 面板：选择要输出的属性，包括外部参考序列 ID。(d) 结果表：列出人类 RefSeq 稳定 ID。

如果需要跨物种数据，点击 Attributes 面板中的 Orthologs，然后选择小鼠直系同源基因数据类型。再次点击 Results 按钮，将获得一个同时包含人类和小鼠基因的表格。此数据表可用作序列文件中的标识符映射表，或用于差异表达数据等其他目的的转换表。

Figure 4.23 Ensembl BioMart 结果表，显示人类 RefSeq 基因稳定 ID 映射列表。

BioMart 的一个强大功能是，在得到结果表后，用户可以点击右上角的齿轮图标，选择 Unique results only 和 Unique results。这可以快速过滤掉重复的结果行。

BioMart 也允许用户使用 Ensembl 的 Variant Effect Predictor（VEP）工具进行变体效应预测。VEP 可以注释变异的相关信息，如基因和转录本、蛋白质位置、SIFT 和 PolyPhen 评分等。Ensembl 网站上也提供了 VEP 的交互式界面。

033

JBrowse

PDF page 130-132 前；印刷页码 110-112

▶

Ch4 Genome Browsers / JBrowse

JBrowse

JBrowse 是一个现代化、高性能的基因组浏览器，可用于可视化任何已测序基因组的注释。它支持自定义数据集，尤其适合物种特异性数据。JBrowse 由 Grand Central Station（GCS）项目支持，该项目为多个物种提供预加载的 JBrowse 实例（Vincent et al. 2019）。

Figure 4.24 Grand Central Station (GCS) 主页，提供多个 JH Build 物种。

要开始使用 JBrowse，用户可以在 GCS 网站上选择一个物种，点击后浏览器将显示该物种的基因组范围的注释。在顶部搜索栏中输入基因名或坐标，即可导航到目标区域。

Figure 4.25 Grand Central Station (GCS) JBrowse 显示 250-Mb 全基因组范围的基因表达峰值。顶部是典型的查看器控件。

Figure 4.26 搜索 "GAPDH" 后，JBrowse 在向导下的视图。

JBrowse 的核心优势之一是其流畅的浏览体验，协以及轻量级结构。与 UCSC Genome Browser 相比，JBrowse 更适合物种特异性的基因组数据探索。用户可以在 GCS 网站上找到多个物种的 JBrowse 实例，并将其应用于 RNA-seq 或 ChIP-seq 数据的可视化。

034

Summary + Internet Resources + Further Reading + References

PDF page 132-136；印刷页码 112-116

▶

Ch4 Genome Browsers / Summary + Internet Resources + Further Reading + References

Figure 4.24（续）JBrowse 显示 Mnemiopsis（栉水母）基因组项目门户（美国国家人类基因组研究所）预测的 Mnemiopsis 基因（ML05372a）的显示视图。此显示界面包含七个轨道：SCF（拼接后的基因组区域为黑色实线，间歇性 gap 为亮粉色）；2.2（共有 Mnemiopsis 基因模型）；PFAM2.2（由 Pfam 导出的非冗余 Mnemiopsis 蛋白结构域）；CL2（来自 Mnemiopsis胚胎的 RNA-seq 读段，使用 Cufflinks（Trapnell et al. 2010）组装为转录本）；MASK（经 VMatch 重复掩蔽的基因组区域，浅蓝色阴影）；EST（来自 GenBank 的 Mnemiopsis 表达序列标签）；GBNT（来自 GenBank 的 Mnemiopsis mRNA 和其他非 EST RNA）。

Summary（本章总结）

UCSC 和 Ensembl 基因组浏览器是成熟的工具，免费提供基于 Web 的基因组组装与注释访问。本章以人类基因组及其可用注释轨道的子集为例，展示了如何通过将轨道添加到默认视图来查看注释基因、序列变异、基因调控区域、基因表达数据等。这些显示高度可定制，用户可以选择显示哪些数据、显示风格，甚至更改注释特征的颜色。两种浏览器不仅支持基于文本的查询（如基因符号或染色体位置），还支持使用核苷酸或蛋白质序列进行搜索。UCSC Genome Browser 支持 BLAT 搜索引擎，而 Ensembl 根据分析类型同时支持 BLAT 和 BLAST。此外，UCSC Table Browser 和 Ensembl 的 BioMart 提供了进入底层数据的替代入口，用户可以利用基于 Web 的界面构建查询，数据以文本形式返回并可下载及进一步处理。

本章中的示例均来自人类基因组的 GRCh38 组装，但 UCSC 和 Ensembl 都托管了许多其他物种的基因组组装。这些基因组的组装可能是较短的支架而非染色体，注释类型也可能少得多，但基因组浏览器的基本外观和功能在不同物种间保持一致。

随着测序技术的发展，即使是较小的实验室现在也能生成全基因组测序数据，包括 ChIP-Seq、RNA-seq、外显子和基因组测序，甚至全新的基因组组装。自 2015 年起，基因组数据共享政策要求所有由 NIH 资助的大规模基因组数据研究必须及时提交至公共数据库。人类数据必须提交到 NIH 指定的数据存储库，而截至本书写作时，非人类数据可以通过任何广泛使用的数据存储库提供。将这些数据展示并与生物学界共享的最佳方式可能是使用基因组浏览器。UCSC 和 Ensembl 基因组浏览器都提供用户上传自定义注释的选项，并可在公共基因组数据的背景下查看。通过 Sessions 或 Track Hubs，用户可以与他人共享这些数据。UCSC 的 Assembly Hubs 功能允许用户利用 Genome Browser 框架共享新测序组装的基因组。此外，UCSC Genome Browser 的源代码是公开的，其他人可以自行搭建浏览器来托管自己的注释甚至自己的基因组。或者，希望托管自己基因组浏览器的研究人员应考虑使用 JBrowse。这款免费软件可以轻松安装到 Web 服务器上，用于托管自定义基因组和注释。

UCSC 和 Ensembl 的团队从相同的数据源（基因组组装，通常由 GRC 提供）入手，然后各自添加来自不同来源的注释，包括来自 GENCODE、RefSeq 及其他基因预测流程的基因位置，以及来自 NCBI dbSNP 的变异。两种浏览器还包括实验确定的表观遗传标记的位置，包括组蛋白修饰和 DNaseI 高敏位点，这些都可以为基因调控区域的预测提供依据。UCSC 的调控轨道来自 ENCODE 项目，而 Ensembl 则提供了 Regulatory Build，其中包含来自 ENCODE 及其他来源的数据。虽然个别研究人员可能对哪个界面更容易使用、哪个站点提供的更符合其研究问题的信息有个人的偏好，但大多数生物信息学从业者在其研究生涯中的某个阶段无疑都会使用基因组浏览器。

Internet Resources（网络资源）

UCSC Genome Browser

主页 — genome.ucsc.edu

-%20Genome%20Browser%20%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97%20%E2%80%94%20genome.ucsc.edu/goldenPath/help/hgTracksHelp.html

-%20Table%20Browser%20%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97%20%E2%80%94%20genome.ucsc.edu/goldenPath/help/hgTablesHelp.html

-%20%E8%87%AA%E5%AE%9A%E4%B9%89%E6%B3%A8%E9%87%8A%E6%95%B0%E6%8D%AE%E6%98%BE%E7%A4%BA%20%E2%80%94%20genome.ucsc.edu/goldenPath/help/customTrack.html

-%20%E8%87%AA%E5%AE%9A%E4%B9%89%E6%B3%A8%E9%87%8A%E6%95%B0%E6%8D%AE%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%20%E2%80%94%20genome.ucsc.edu/FAQ/FAQformat.html

-%20Sessions%20%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97%20%E2%80%94%20genome.ucsc.edu/goldenPath/help/hgSessionHelp.html

-%20UCSC%20Genome%20Browser%20Track%20Hubs%20%E4%BD%BF%E7%94%A8%20%E2%80%94%20genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html

Assembly Hubs 维基 — genomewiki.ucsc.edu/index.php/Assembly_Hubs

-%20%E8%81%94%E7%B3%BB%E6%96%B9%E5%BC%8F%20%E2%80%94%20genome.ucsc.edu/contacts.html

Ensembl Genome Browser

主页 — www.ensembl.org
Ensembl 稳定 ID — www.ensembl.org/info/genome/stable_ids
Ensembl Archives — www.ensembl.org/info/website/archives
BioMart — www.ensembl.org/biomart/martview
pre!Ensembl — pre.ensembl.org
帮助与文档 — www.ensembl.org/info
BioMart 文档 — www.ensembl.org/info/data/biomart
自定义注释数据显示 — www.ensembl.org/info/website/upload
自定义注释数据文件格式 — www.ensembl.org/info/website/upload/index.html#formats
联系方式 — www.ensembl.org/info/about/contact

JBrowse

JBrowse Genome Browser — jbrowse.org
COSMIC Genome Browser — cancer.sanger.ac.uk/cosmic/browse/genome
Mnemiopsis Genome Project Portal (MGAP) — research.nhgri.nih.gov/mnemiopsis
Phytozome — phytozome.jgi.doe.gov
Rat Genome Database — rgd.mcw.edu

其他基因组资源

GENCODE — www.gencodegenes.org
Genome Reference Consortium — www.ncbi.nlm.nih.gov/grc
GWAS Catalog — www.ebi.ac.uk/gwas
NCBI Genome Data Viewer — www.ncbi.nlm.nih.gov/genome/gdv
NIH 基因组数据共享政策 — osp.od.nih.gov/scientific-sharing/policies
NIH GTEx Portal — www.gtexportal.org
Track Hub Registry — www.trackhubregistry.org

References（参考文献）

> 参考文献部分以英文原文保留，按字母顺序排列。

Aken, B.L., Ayling, S., Barrell, D. et al. (2016). The Ensembl gene annotation system. Database (Oxford) 2016, pii: baw093.

Benson, D.A., Boguski, M.S., Lipman, D.J., and Ostell, J. (1997). GenBank. Nucleic Acids Res. 25 (1): 1–6.

Buels, R., Yao, E., Diesh, C.M. et al. (2016). JBrowse: a dynamic web platform for genome visualization and analysis. Genome Biol. 17: 66.

Buniello, A., MacArthur, J.A.L., Cerezo, M. et al. (2019). The NHGRI-EBI GWAS Catalog of published genome-wide association studies, targeted arrays and summary statistics. Nucleic Acids Res. 47 (D1): D1005–D1012.

Camacho, C., Coulouris, G., Avagyan, V. et al. (2009). BLAST+: architecture and applications. BMC Bioinformatics 10: 421.

Cunningham, F., Achuthan, P., Akanni, W. et al. (2019). Ensembl 2019. Nucleic Acids Res 47 (D1): D745–D751.

ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature 489 (7414): 57–74.

Frankish, A., Uszczynska, B., Ritchie, G.R. et al. (2015). Comparison of GENCODE and RefSeq gene annotation and the impact of reference geneset on variant effect prediction. BMC Genomics 16 (Suppl 8): S2.

Goffeau, A., Barrell, B.G., Bussey, H. et al. (1996). Life with 6000 genes. Science 274 (5287): 546, 563–567.

Green, E.D. (2001). Strategies for the systematic sequencing of complex genomes. Nat. Rev. Genet. 2 (8): 573–583.

GTEx Consortium (2015). Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science 348 (6235): 648–660.

Haeussler, M., Zweig, A.S., Tyner, C. et al. (2019). The UCSC Genome Browser database: 2019 update. Nucleic Acids Res 47 (D1): D853–D858.

Harrow, J., Frankish, A., Gonzalez, J.M. et al. (2012). GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22 (9): 1760–1774.

Herrero, J., Muffato, M., Beal, K. et al. (2016). Ensembl comparative genomics resources. Database (Oxford) 2016: bav096.

Howald, C., Tanzer, A., Chrast, J. et al. (2012). Combining RT-PCR-seq and RNA-seq to catalog all genic elements encoded in the human genome. Genome Res. 22 (9): 1698–1710.

Hubbard, T., Barker, D., Birney, E. et al. (2002). The Ensembl genome database project. Nucleic Acids Res. 30 (1): 38–41.

Kent, W.J. (2002). BLAT–the BLAST-like alignment tool. Genome Res. 12 (4): 656–664.

Kent, W.J. and Haussler, D. (2001). Assembly of the working draft of the human genome with GigAssembler. Genome Res. 11 (9): 1541–1548.

Kent, W.J. and Zahler, A.M. (2000). The intronerator: exploring introns and alternative splicing in Caenorhabditis elegans. Nucleic Acids Res. 28 (1): 91–93.

Kinsella, R.J., Kähäri, A., Haider, S. et al. (2011). Ensembl BioMarts: a hub for data retrieval across taxonomic space. Database (Oxford) 2011: bar030.

Kitts, P. (2003). Genome assembly and annotation process. In: The NCBI Handbook (eds. J. McEntyre and J. Ostell) ch. 14. Bethesda, MD: National Center for Biotechnology Information.

Lander, E.S., Linton, L.M., Birren, B. et al., and International Human Genome Sequencing Consortium (2001). Initial sequencing and analysis of the human genome. Nature 409 (6822): 860–921.

Lawrence, M., Daujat, S., and Schneider, R. (2016). Lateral thinking: how histone modifications regulate gene expression. Trends Genet. 32 (1): 42–56.

Li, R., Fan, W., Tian, G. et al. (2010). The sequence and de novo assembly of the giant panda genome. Nature 463 (7279): 311–317.

McLaren, W., Gil, L., Hunt, S.E. et al. (2016). The Ensembl variant effect predictor. Genome Biol. 17 (1): 122.

Moreland, R.T., Nguyen, A.D., Ryan, J.F. et al. (2014). A customized Web portal for the genome of the ctenophore Mnemiopsis leidyi. BMC Genomics 15: 316.

Mudge, J.M. and Harrow, J. (2015). Creating reference gene annotation for the mouse C57BL6/J genome assembly. Mamm. Genome 26 (9–10): 366–378.

Ryan, J.F., Pang, K., Schnitzler, C.E. et al. (2013). The genome of the ctenophore Mnemiopsis leidyi and its implications for cell type evolution. Science 342 (6164): 1242592.

Sayers, E.W., Agarwala, R., Bolton, E.E. et al. (2019). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res 47 (D1): D23–D28.

Skinner, M.E. and Holmes, I.H. (2010). Setting up the JBrowse genome browser. Curr. Protoc. Bioinformatics. Chapter 9: Unit 9.13. https://doi.org/10.1002/0471250953.bi0913s32.

Trapnell, C., Williams, B.A., Pertea, G. et al. (2010). Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28 (5): 511–515.

Wheeler, D.L., Church, D.M., Lash, A.E. et al. (2001). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 29 (1): 11–16.

Wolfsberg, T.G., Wetterstrand, K.A., Guyer, M.S. et al. (2002). A user's guide to the human genome. Nat. Genet. 32 (Suppl): 1–79.

Wu, P.Y., Phan, J.H., and Wang, M.D. (2013). Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics 14 (Suppl 11): S8.

Zerbino, D.R., Johnson, N., Juetteman, T. et al. (2016). Ensembl regulation resources. Database (Oxford) 2016, pii: bav119.

> 本章由 Tyra G. Wolfsberg 博士以个人身份撰写。文中内容不代表美国国立卫生研究院或美国卫生与公众服务部的官方支持或认可。

Chapter 5

Genome Annotation

035

Introduction

PDF page 137 - PDF page 138 上部；印刷页码 117-118

▶

译文：Ch5 Genome Annotation / Introduction

章节：Ch5 Genome Annotation

Canonical 小节：Introduction

范围：PDF page 137 - PDF page 138 上部；印刷页码 117-118

---

5 基因组注释

David S. Wishart

引言

得益于 DNA 测序技术和 DNA 分析软件的快速进步，过去需要数年时间、耗费数百万美元才能完成的基因组项目，如今只需数周、花费几千美元即可完成。现代基因组测序项目的典型工作流程包括：使用新一代 DNA 测序仪对选定生物进行全基因组 DNA 测序；运行多种程序组装参考基因组；并利用软件在基因组序列中定位和识别所有编码蛋白质的基因、核糖体 RNA（ribosomal RNA, rRNA）基因和转运 RNA（transfer RNA, tRNA）基因。最后这一过程称为基因组注释（genome annotation），也是本章的主要主题。严格地说，基因组注释并不等同于基因组预测。基因预测或基因组预测是基因组注释的一个分支。具体而言，基因预测使用数学模型或概率模型分析 DNA 序列，并识别基因边界和基因结构。另一方面，基因组注释则利用基因（以及基因组）预测结果，并结合其他证据来源，例如基因表达数据、蛋白质表达数据、与其他已注释基因组的序列同源性，甚至文献评估，来生成一组基因组注释。这些注释不仅包括每条染色体上基因的位置，还包括基因名称（基于同源性）、计算得到的性质（例如序列长度、氨基酸组成和分子量）、表达水平（如果可获得），以及可能的功能。

基因组注释任务的难易程度取决于所测序生物的类型。原核生物（包括细菌和古菌）的基因组相对较小，通常不超过 500 万个碱基对，由一条或两条环状染色体以及可能存在的一两个小质粒组成。原核生物的基因结构非常简单，每个基因都是一个连续的开放阅读框（open reading frame, ORF）。此外，原核生物的编码密度很高，其 DNA 中至少有 85%–90% 编码蛋白质、tRNA 和 rRNA（Hou and Lin 2009）。这使得原核生物中的基因识别相对简单。相反，真核生物的基因识别往往相当困难。这是因为真核生物通常具有非常大的基因组（常常达到数十亿个碱基对），而编码密度却很低（通常低于 2%）（Hou and Lin 2009）。真核基因结构也比原核基因结构复杂得多。尤其是，真核基因被分割为外显子和内含子，而且大多数真核基因之间隔着很长的非编码 DNA 区段（称为基因间区）。

尽管真核细胞中的细胞机器能够以惊人的准确性和精确度识别并处理基因信号，但我们对真核序列信号如何被识别和处理的分子机制仍未完全理解。因此，目前可用的真核基因预测方法准确性并不很高。所以，在缺乏额外实验信息或外源性信息（例如基因表达数据）的情况下，应当认为真核基因预测只是近似结果。即使手头已有相当多的实验数据，要完整注释研究最充分的真核基因组仍然十分困难。例如，人类基因组的 DNA 序列自 2001 年以来已经为人所知，但我们自身基因组中实际编码的基因数量至今仍未完全确定（Pennisi 2003; Ezkurdia et al. 2014）。

本章将简要回顾支撑原核生物和真核生物计算基因预测的一些计算方法和算法。本章还将说明如何把实验证据和数据库比较整合进这些基因预测工具，以提升基因预测性能，并确保更完整的基因组注释。同时，本章还会介绍评估计算基因查找程序性能的方法。最后，本章将重点介绍若干基因组注释流水线，以及用于可视化所得注释结果的几种工具。

基因预测方法

由于原核生物和真核生物在整体基因组织方式上存在重要差异，针对二者的基因预测方法是分别发展起来的。无论用于原核生物还是真核生物，基因查找程序大体可分为两类：内源性（intrinsic，或 ab initio）基因预测器，以及外源性（extrinsic，或 evidence based）基因查找器（Borodovsky et al. 1994）。

Ab initio 基因预测方法试图仅以 DNA 序列数据作为输入来预测和注释基因，而不直接与其他序列或序列数据库进行比较。Ab initio 方法包括搜索可能参与基因界定的序列信号，和/或寻找表现出组成偏倚且这种偏倚与编码区相关的区域。这种基因查找的综合方法称为按信号搜索（searching by signal）和按内容搜索（searching by content）。GeneMark（Borodovsky and McIninch 1993）、GLIMMER（Delcher et al. 1999, 2007）、EasyGene（Larsen and Krogh 2003）和 GENSCAN（Burge and Karlin 1997）是内源性或 ab initio 基因查找程序的知名实例。相比之下，外源性基因查找方法包括基于同源性的策略和比较基因组学策略；在这些方法中，基因结构是通过与特征已知的其他序列进行比较来确定的。BLASTX 是一种外源性基因查找程序的例子，它常被用于原核基因组中的基因识别（Borodovsky et al. 1994）。外源性基因预测方法依赖实验证据（例如信使 RNA（messenger RNA, mRNA）或 RNA-seq 数据）和/或大量既有实验测序数据，以进行序列比较和基因识别。本章稍后将进一步讨论这些外源性方法及其在基因组注释中的作用。首先，我们将聚焦于内源性或 ab initio 基因预测方法。

036

Gene Prediction Methods

PDF page 138 - PDF page 147 上部；印刷页码 118-127

▶

译文：Ch5 Genome Annotation / Gene Prediction Methods

章节：Ch5 Genome Annotation

Canonical 小节：Gene Prediction Methods

范围：PDF page 138 - PDF page 147 上部；印刷页码 118-127

---

原核基因组中的 Ab Initio 基因预测

原核基因通常以起始密码子（例如 ATG）开始，以三种终止密码子之一（例如 TAG、TAA 或 TGA）结束，并且通常至少有 100 个碱基长（图 5.1）。这些编码蛋白质的基因称为开放阅读框（open reading frame, ORF）。原核基因组中的大多数基因组织成操纵子（operon），即由多个 ORF 组成、并受一组共同调控序列控制的基因簇。这些调控序列可以包括增强子、沉默子、终止子、操纵基因或启动子。调控序列通常构成原核基因组中不编码蛋白质序列的 10%–15%。原核基因启动子是一小段 DNA，它启动某个特定基因的转录。启动子位于基因转录起始位点（transcription start site, TSS）附近，与基因或 ORF 位于同一条链上，并处于其上游。在原核生物中，启动子包含两个短序列元件，分别位于 TSS 上游约 10 个碱基和 35 个核苷酸处。位于上游 10 个碱基处的元件在古菌中称为 TATA box，在细菌中称为 Pribnow（TATAAT）box（Pribnow 1975）。这些缩写或字母实际上表示在这些区域中观察到的共有 DNA 序列。

ATGACAGATTACAGA......TGCAGTTACAGGATAG
TATA box
Start codon
Stop codon
ORF

图 5.1 原核基因或开放阅读框（ORF）的简化示意图，其中包括起始密码子（或翻译起始位点）、终止密码子（TAG），以及 TATA box 或 Pribnow box。

除 TSS 外，几乎所有原核基因都有一个核糖体结合位点（ribosome binding site, RBS），位于起始（ATG）密码子上游 8–10 个碱基处。起始密码子也称为翻译起始位点（translation initiation site, TIS）。RBS 呈现出一种特定的核苷酸模式（AGGAGG），称为 Shine–Dalgarno（SD）共有序列（Shine and Dalgarno 1975）。SD 序列使 mRNA 能够与细胞的翻译机器发生相互作用。在细菌和古菌中，通常认为翻译起始是通过 30S 核糖体亚基中 16S rRNA 的 3′ 末端，与携带 SD 共有序列的 mRNA 5′ 非翻译区（5′ untranslated region, UTR）中的位点发生碱基配对相互作用而完成的。

共有序列虽然可以作为有用的提示或记忆辅助，但在现代基因信号或基因位点（即 TIS、RBS、TSS 和终止子）识别中并不会真正直接使用。相反，大多数基因信号可以通过位置权重矩阵（positional weight matrix, PWM）或位置特异性评分矩阵（position-specific scoring matrix, PSSM；另见第 3 章）来识别。这些评分矩阵是通过仔细比对一组已知功能信号，并确定特定碱基在某些位置出现的校正频率而计算得到的。Box 5.1 给出了如何计算 PSSM 的示例。一旦针对某一给定信号完成计算，信号特异性的 PSSM 就可用于沿着目标序列快速计算所选基因信号的位置及其可能性。一个简化的原核生物基因预测流程包括以下步骤。

从某一条 DNA 链 5′ 端的基因组序列开头开始，寻找能够形成最长 ORF（最小 150 个碱基）的 ATG 起始密码子；然后移动到此前已识别 ORF 下游的下一个 ATG，并对基因组序列的其余部分重复这一过程。
对相反方向的 DNA 链重复上述过程。
对所有识别出的 ORF，使用位点特异性 PSSM 对 TSS 和 RBS 信号的质量进行评分，以细化 ORF 预测并生成最终基因列表。

Box 5.1 位置特异性评分矩阵

位置特异性评分矩阵（position-specific scoring matrix, PSSM）也称为位置权重矩阵（positional weight matrix, PWM）或位置特异性权重矩阵（positional specific weight matrix, PSWM），通常由一组被认为在功能上相关的比对序列推导而来。在本例中，将 5 条各由 10 个碱基组成、并被认为在功能上相关（作为启动子区域）的不同 DNA 序列进行比对。

A T T T A G T A T C
G T T C T G T A A C
A T T T T G T A G C
A A G C T G T A A C
C A T T T G T A C A

由这个比对可以生成一个简单的位置频率矩阵（positional frequency matrix, PFM）。在该矩阵中，A、C、G 和 T 的频率会根据上述比对，针对 10 个碱基位置中的每一个位置进行制表。因此，在第一个位置上有 3 个 A、1 个 C、1 个 G 和 0 个 T（见第 1 列）。上述比对对应的 PFM 如下：

A 3 2 0 0 1 0 0 5 2 1
C 1 0 0 2 0 0 0 0 1 4
G 1 0 1 0 0 5 0 0 1 0
T 0 3 4 3 4 0 5 0 1 0

PFM 现在可以转换为位置概率矩阵（positional probability matrix, PPM）。PPM 是由一组十进制数值构成的矩阵，这些数值基于序列比对中每个位置上各碱基出现的百分比或频率。换句话说，我们必须通过将每个位置上的核苷酸计数除以比对中的序列数量来归一化频率。因此，如果比对中有 5 条序列，并且第一个位置上有 3 个 A，那么第一个位置上 A 的位置概率就是 3/5 = 0.6。同样，如果第一个位置上有 1 个 C，则其位置概率为 1/5 = 0.2。1 个 G 对应的位置概率为 0.2，而没有 T 则对应位置概率为 0（见第 1 列）。对比对的全部 10 个位置执行同样计算后，完整的 PPM 如下：

A .6 .4 0 0 .2 0 0 1 .4 .2
C .2 0 0 .4 0 0 0 0 .2 .8
G .2 0 .2 0 0 1 0 0 .2 0
T 0 .6 .8 .6 .8 0 1 0 .2 0

可以将上述 PPM 中的概率相乘，以计算给定 DNA 序列与原始 5 条序列密切相关的概率。例如，如果我们想知道新序列 ATTTTGTATA 是否密切相关，就可以将每个序列位置对应的数值相乘来计算该序列的概率：

p = 0.6 × 0.6 × 0.8 × 0.6 × 0.8 × 1 × 1 × 1 × 0.2 × 0.2 = 0.0055

请注意，如果我们对一个几乎相同的序列（例如 ACTTTGTATA，仅相差一个碱基）执行相同计算，会得到 p = 0。之所以得到 0 概率，是因为在训练集中第二个位置没有观察到 C。仅用 5 条序列构建 PPM，意味着你很可能低估（或高估）每个碱基真实的分数频率，从而在计算概率时产生类似刚才看到的问题。为了解决多序列比对（multiple sequence alignment, MSA）规模较小的问题，我们应当引入伪计数（pseudocount）。伪计数用于避免矩阵项取值为 0 所导致的问题。使用伪计数等价于将 PPM 的每一列乘以一个 Dirichlet 分布，从而允许为“未观察到”或未使用过的序列计算概率。一种简单做法是把数据归一化，使其匹配所考虑基因组的总体碱基组成，并加入一个随 MSA 中序列数量平方根而变化的校正因子。因此，可以用以下公式对 PPM 中每个碱基位置重新评分：

score (Xi) = (Qx + Px)/(N + B)

其中，Qx 是位置 i 上 X 类型碱基的计数；Px 是 X 类型碱基的伪计数，等于 B × X 类型碱基的频率；N 是 MSA 中序列的总数；B 是伪计数的数量（假定为 √N）。对于目标基因组，A 的频率为 0.32，T 的频率为 0.32，C 的频率为 0.18，G 的频率为 0.18。利用这些信息，第一个位置上 A 的值为 (3 + (√5 × 0.32))/(5 + √5) = 0.51。第二个位置上 C 的值为 (1 + (√5 × 0.18))/(5 + √5) = 0.19，依此类推。经过伪计数校正后的 PPM 如下：

A .51 .38 .09 .09 .24 .09 .09 .79 .38 .24
C .19 .06 .06 .33 .06 .06 .06 .06 .19 .61
G .19 .06 .19 .06 .06 .75 .06 .06 .19 .06
T .09 .51 .65 .51 .65 .09 .79 .09 .24 .09

理想情况下，每一列的总和应为 1；但由于四舍五入，本例中的列和有时会略高于或略低于 1。使用这个重新评分后的矩阵，你会注意到现在已经没有零项。然而，通过乘法计算概率既繁琐（考虑到有效数字的数量），也较为困难。更简单的方法是通过取 PPM 中每个数值的负 log10，将 PPM 转换为另一种矩阵。这会把两位小数转换为一位小数，同时也允许通过加法而不是乘法来计算概率。如果对上述 PPM 取 −log10，可得到：

A 0.3 0.4 1.0 1.0 0.6 1.0 1.0 0.1 0.4 0.6
C 0.7 1.2 1.2 0.5 1.2 1.2 1.2 1.2 0.7 0.2
G 0.7 1.2 0.7 1.2 1.2 0.1 1.2 1.2 0.7 1.2
T 1.1 0.3 0.2 0.3 0.2 1.0 0.1 1.0 0.6 1.0

这个修改后的矩阵称为对数似然评分矩阵，或 PSSM。利用上述 PSSM，我们现在可以计算查询序列 ATTTTGTATA 的得分（或对数似然）：

0.3 + 0.3 + 0.2 + 0.3 + 0.2 + 0.1 + 0.1 + 0.1 + 0.6 + 0.6 = 2.8

序列得分提示该序列与随机序列有多大差异。得分越高，该序列越可能是启动子/功能位点，而不是随机序列。2.8 是一个很高的得分。序列得分也可以从该序列结合能的角度来解释。

然而，这样一个简化算法的正确率可能只有 75%–80%（Besemer et al. 2001）。这是因为原核基因并不总是那么容易识别。例如，并非所有细菌基因都使用 ATG 起始密码子。在大肠杆菌（Escherichia coli）中识别出的 4284 个基因里，83% 使用 ATG，14% 使用 GTG，3% 使用 TTG 起始密码子（Blattner et al. 1997）。同样，如果使用只识别长 ORF 的简单规则，可能会漏掉许多短 ORF，或错误识别具有异常密码子偏倚的 ORF（这提示它们不太可能编码基因）。事实上，已知编码蛋白质的 ORF 与偶然出现的 ORF 在长度分布上差异相当显著。更具体地说，编码 ORF 的长度分布类似 gamma 分布（见术语表），而非编码 ORF 的长度分布类似简单指数函数（Lukashin and Borodovsky 1998）。除这些复杂因素外，近来还发现某些原核基因由于一种称为无前导序列转录（leaderless transcription）的现象而具有非常异常的基因起始信号（Slupska et al. 2001）。在无前导序列转录中，RNA 转录本具有非常短的 5′ UTR，长度小于 6 个碱基。这些区域太短，无法容纳 RBS。这使 TSS 位于 TIS 处或非常接近 TIS。在这些情况下，必须使用启动子信号来更准确地识别 TIS。

鉴于许多原核基因信号在长度和特征上存在变化，PSSM 并不是最有效的信号识别工具。还有更高级的基因信号识别方法，例如 Markov 模型（Box 5.2）、隐 Markov 模型或 HMM（Box 5.3）、人工神经网络和支持向量机。这些机器学习方法在处理可变长度和条件性序列依赖关系方面表现好得多，而这些特征是简单 PSSM 无法捕捉的。

Box 5.2 Markov 模型

Markov 链、模型或过程指一系列观测，其中某一观测的概率取决于若干先前观测。观测数量定义了链的“阶数”。例如，在一阶 Markov 模型中，某一观测的概率只取决于前一个观测。在 5 阶 Markov 链中，某一观测的概率取决于前 5 个观测。DNA 序列可以被视为 Markov 模型的一个例子，因为在给定位置观察到某个特定碱基的可能性可能取决于它前面的碱基。特别是在编码区中，众所周知，某一给定碱基的概率取决于前 5 个碱基，这反映了观察到的密码子偏倚以及相邻密码子之间的依赖关系。在非编码区中，则观察不到这种依赖性。当扫描一个未知的基因组区域时，可以计算局部核苷酸序列在多大程度上符合编码区中观察到的 5 阶依赖关系，并赋予适当的编码可能性得分。

Box 5.3 基因预测中的隐 Markov 模型

隐 Markov 模型（hidden Markov model, HMM）用于为真实生物过程提供统计表示。它们已被广泛用于生物信息学的许多领域，包括多序列比对、蛋白质家族的表征和分类、蛋白质结构比较，以及基因结构预测。

在本章中，所描述的所有基因查找方法都有两个共同点：它们以原始核苷酸序列作为输入，并且对于序列中的每一个位置，尝试预测某个给定碱基最可能位于内含子、外显子还是基因间区。在进行这些预测时，所应用的算法（无论是否为 HMM）必须考虑基因结构的已知信息；图 5.2 以简化方式展示了这一结构。

从基因的 5′ 端到 3′ 端，该方法必须考虑启动子区域、转录起始位点、5′ UTR、起始密码子、外显子、剪接供体、内含子、剪接受体、终止密码子、3′ UTR 和 polyA 尾的独特特征。除每个区域可能具有的保守序列或组成偏倚外（Box 5.1），该方法还需要考虑这些元件均按受控语法出现；例如，启动子（及其 TATA box）必须出现在起始密码子之前，初始外显子必须跟在起始密码子之后，内含子必须跟在外显子之后，内含子之后只能是内部外显子或末端外显子，终止密码子不能打断编码区，而 polyA 信号必须出现在终止密码子之后。最后，在整个过程中必须维持一个 ORF，以便在一切完成后产生蛋白质。

这些元件——外显子、内含子等——称为状态（states）。上述序列特征和语法约束允许为其分配转移概率，用来表示沿着基因结构移动时发生状态变化的可能性。

Transcribed region
Exon 1    Exon 2    Exon 3
Intron 1  Intron 2
Start codon
5′ UTR
3′ UTR
Stop codon
Downstream intergenic region
Upstream intergenic region

图 5.2 真核基因的简化示意图，展示了多内含子/外显子结构、起始和终止密码子的位置、非翻译区（UTR），以及围绕转录基因的基因间区。

真核基因组中的 Ab Initio 基因预测

图 5.2 展示了真核基因的组织方式。从该图可以看出，真核基因比原核基因复杂一些。特别是，真核基因组（尤其是脊椎动物基因组）中编码蛋白质区域的密度比原核基因组低 90–100 倍。这些稀疏的蛋白质编码区域被很长的基因间 DNA 区段隔开，而它们的编码序列（即外显子）又被很大的非编码内含子打断。真核 RNA 聚合酶识别并转录基因，随后由多种小核核糖核蛋白（small ribonuclear proteins, snRNPs）切割产生的长 RNA 转录本，以去除内含子（Will and Lührmann 2011）。剩余的外显子随后被剪接在一起，形成小得多的蛋白质编码转录本。snRNPs 能够识别外显子/内含子连接处的特定切割位点，以确保剪接总是精确进行。

在人类基因组中，只有 1.1% 由外显子组成，24% 由内含子组成，而 75% 的基因组由基因间 DNA 构成。平均而言，每个基因有 5.48 个外显子，每个外显子编码 30–36 个氨基酸的肽段（Sakharkar et al. 2002）。人类基因组中最长的外显子有 11 555 个碱基，而最短的外显子只有 2 个碱基（Sakharkar et al. 2002）。外显子不仅“稀少”，其长度差异也极大。更重要的是，它们可以通过可变剪接产生非常不同的最终基因（转录本）产物。这使得真核生物中的基因预测明显比原核生物更加困难。

真核生物的计算基因预测，本质上是在模拟生物学中的转录和剪接过程。在生物学过程中，细胞内的多种蛋白质和蛋白质复合体扫描 DNA 序列，识别并结合特定 DNA 位点，转录基因，然后切割并剪接转录本，形成最终基因产物。在计算过程中，这些蛋白质被各种算法替代，这些算法会：

沿查询序列识别合适的剪接位点以及起始和终止信号，并对其评分；
通过检测这些信号推断候选外显子的位置；
根据用于检测外显子的信号，以及根据假定外显子序列本身计算出的编码统计量，对最佳外显子进行评分和识别；
将这些候选外显子的一个子集组装（或“剪接”）成预测的基因结构。该组装过程会以最大化某个特定评分函数的方式产生，而该评分函数依赖于每个候选外显子的得分。

这些任务的具体实现方式因程序而异。这里不逐一详细讨论每个程序，而是描述几乎所有 ab initio 真核基因预测程序共有的三大主要过程：预测外显子界定信号、预测并评分外显子，最后进行外显子组装。

预测外显子界定信号

正如原核基因具有 DNA 信号一样，真核基因也具有独特的 DNA 信号。其中一些元件与原核生物相似，另一些则差异很大（图 5.3）。例如，许多真核基因具有启动子元件，这些元件也与原核基因中的序列表现出一定相似性。真核生物中研究最充分的核心启动子元件称为 TATA box，或 Goldberg–Hogness box（Lifton et al. 1978），位于 TSS 上游 25–30 个碱基对处。TATA box 也存在于古菌和细菌中，似乎是一种非常古老的 DNA 信号。真核生物中的 TATA box 共有序列为 TATA(A/T)A(A/T)，并且常常与另一种称为 CCAAT box 的调控序列偶联；CCAAT box 的共有序列为 GGCCAATCT，位于 TATA box 上游约 150 个碱基对处。只有约 25%–35% 的哺乳动物基因含有 TATA box，其余基因则含有其他类型的核心启动子元件。真核基因还含有核心启动子之外的调控序列，包括增强子、沉默子和绝缘子。这些调控序列可以分布在很大的基因组距离范围内，常常距离核心启动子数百千碱基。除了具有多种启动子或增强子信号外，真核基因还具有非常特异的 DNA 信号，用于界定外显子和内含子的位置。

更具体地说，参与界定外显子的基本 DNA 信号有四类：TIS、5′（或供体）剪接位点、3′（或受体）剪接位点，以及翻译终止密码子。在真核生物中，TIS 由 Kozak 共有序列界定，常写作 ACCATGG（Kozak 1987），其中中央的 ATG 是起始密码子。5′ 供体剪接位点通常由 GG/GT 这一共有序列界定，而 3′ 受体剪接位点的共有序列为 CAG/G，其中斜线表示剪接切割位点（图 5.4）。翻译终止密码子包括通常的 TAG、TAA 或 TGA。

GC box        ~200 bp
CCAAT box     ~100 bp
TATA box      ~30 bp
Gene
Transcription start site
Exon
Exon
Intron

图 5.3 真核基因上游区域的示意图，其中 GC box 位于转录起始位点上游约 200 bp，CCAAT box 位于上游约 100 bp，TATA box 位于上游约 30 bp。

Exon 1
Exon 2
Intron 1
Intron 2
Branchpoint site
5′ site
3′ site
AG/GT
CAG/NT

图 5.4 外显子和内含子周围剪接位点区域的示意图，包括 5′ 和 3′ 剪接位点及其共有序列。

最早用于识别外显子界定信号的方法是简单的 PWM 或 PSSM。事实证明，这些方法在识别短 DNA 信号（如剪接位点）方面表现较差。因此，这些简单模型后来被更先进的模式识别技术所取代，例如 HMM（Box 5.3）。这些强大的模式识别方法能够从由已知或充分注释的外显子界定信号组成的大型数据集中“学习”非常复杂的序列模式。HMM 是一种统计 Markov 模型，在该模型中，被建模系统被假定为具有未观测（即隐藏）状态的 Markov 过程。HMM 广泛用于许多现实应用，例如语音识别、手写识别和手势识别。HMM 在生物信息学中的应用始于 20 世纪 90 年代初（Krogh et al. 1994），并显著提高了基因预测准确性。HMM 使定义长度可变的高度复杂模式成为可能，这些模式包括许多外显子界定信号，如蛋白质编码区（见下文）、供体位点、受体位点、套索位点，以及翻译起始和终止位点。

预测并评分外显子

除了识别外显子界定信号之外，准确预测外显子还依赖基于内容的特征。外显子可分为三种基本类型：

初始外显子：由起始位点和供体位点界定的 ORF；
内部外显子：由 5′（供体）位点和 3′（受体）位点界定的 ORF；
末端外显子：由 3′（受体）位点和终止密码子界定的 ORF。

大多数被转录的基因由一个初始外显子、多个内部外显子和一个末端外显子组成。Zhang（2002）对这些真核外显子类型作了更全面的讨论。

按定义，外显子是蛋白质编码区域。与非编码区域相比，已知蛋白质编码区域表现出特征性的组成偏倚。这些偏倚包括略高的 GC 含量，以及明显非随机的密码子（三联体）频率偏好。观察到的密码子偏倚源于蛋白质中氨基酸分布不均、同义密码子使用不均，以及编码区中针对翻译优化的自然选择。为了区分蛋白质编码区和非编码区，20 世纪 90 年代发展出了许多基于 DNA 内容的度量方法（Fickett and Tung 1992; Gelfand 1995; Guigó 1999）。这些内容度量也称为编码统计量，反映给定 DNA 序列编码某种蛋白质或蛋白质片段的可能性。多年来，已经发表了许多计算基于内容度量的方法。最早的一些方法测量密码子三联体频率中出现的模式。然而，人们发现三联体对（即六聚体）的频率中包含更多信息。因此，六聚体频率通常以依赖密码子位置的五阶 Markov 模型形式表示（Box 5.2；Borodovsky and McIninch 1993），似乎能为识别外显子中的蛋白质编码区提供最佳判别能力。目前，这些六聚体频率处于所有现代真核基因预测器的核心位置。

外显子组装

一旦外显子被预测出来（使用六聚体频率和 HMM 的组合来识别关键基因信号以及外显子/内含子边界），就需要将它们组装成某种多外显子基因结构。外显子组装的主要困难在于简单的组合数学：对于任何给定基因，可能的外显子组装数量会随着预测外显子数量呈指数增长。为了解决这个问题，人们发展出了多种动态规划技术。动态规划是一种优化技术，它允许把复杂问题拆解为一组较简单的子问题来求解。每个子问题只求解一次，并保存其解。下次遇到相同子问题时，不再重新计算解，而是直接查找此前计算过的解（Bellman 1957；详见附录 6.A）。

对于最优外显子组装问题，已有研究表明，动态规划能够相当高效地找到解，而不必枚举或考虑每一种可能的外显子组合（Gelfand and Roytberg 1993）。几乎所有现代真核基因预测工具现在都使用某种动态规划方法（Markov 模型研究者称之为 Viterbi 算法，而大多数从事序列比对的人则称之为 Needleman–Wunsch 算法）。通过将基于 HMM 的外显子信号识别、不同的 HMM 派生外显子得分以及用于组装外显子的动态规划结合起来，就可以生成稳健的真核基因预测结果。使用动态规划的早期 HMM 基因预测方法包括 GENIE（Kulp et al. 1996）和 HMMgene（Krogh 1997）。也许最流行的基于 HMM 的真核基因预测器是 GENSCAN（Burge and Karlin 1997），这是一种 ab initio 基因预测器，已被广泛用于注释数百个真核基因组。

鉴于 GENSCAN 的流行，较为详细地解释该程序的工作方式并提供一个使用示例是有价值的。对于任意给定查询序列，GENSCAN 会在底层 HMM 的基础上确定最可能的基因结构。为了建模供体剪接位点，GENSCAN 引入了一种称为最大依赖分解（maximal dependence decomposition）的方法。在这种方法中，使用一系列权重矩阵（而不是仅使用一个矩阵）来捕捉这些剪接位点中不同位置之间的依赖关系。此外，GENSCAN 还使用一些参数来解释基因组序列的许多高阶性质（例如典型基因密度、每个基因的典型外显子数量，以及不同类型外显子的大小分布）。可以使用不同的基因模型参数集来校正不同基因组之间在基因密度和 G + C 组成方面的差异。也已经开发出用于玉米和拟南芥序列的模型。这样会使与已知蛋白质相似的外显子获得更高得分，而使与已知蛋白质几乎没有或完全没有相似性的预测外显子得分降低。

图 5.5 展示了一个典型的 GENSCAN 输出，使用人尿卟啉原脱羧酶（uroporphyrinogen decarboxylase, URO-D）基因（U30787）作为查询。预测中的每个外显子各占一行。从左到右，各列分别表示基因和外显子编号（Gn.Ex）、预测类型（Type，即外显子类型或识别出的 polyA 信号）、作出预测的链（+ 或 –）、预测的起点和终点、预测外显子的长度、其阅读框、若干评分列，以及概率值（P）。如果 GENSCAN 外显子具有很高的概率值（p > 0.99），并且该预测与真实注释外显子相匹配，那么其准确率为 97.7%。这些高概率预测可用于聚合酶链式反应引物的合理设计，以扩增互补 DNA（complementary DNA, cDNA），也可用于其他需要极高置信度的目的。GENSCAN 中概率位于 0.50–0.99 范围内的外显子通常被认为在多数情况下是正确的。对于 p 值高于 0.90 的预测，其最佳情况下的准确率大约为 88%。任何 p < 0.50 的预测都应视为不可靠，这些数据不会出现在数据表中。预测的氨基酸序列列在基因预测结果下方。在此处所示示例中，GENSCAN 正确预测了 URO-D 中 10 个外显子中的 9 个；只有初始外显子被漏掉了。

图 5.5 对尿卟啉原脱羧酶基因进行 GENSCAN 分析的示例输出。关于该输出的更详细说明见正文。

037

How Well Do Gene Predictors Work?

PDF page 147 中部 - PDF page 153 顶部；印刷页码 127-133

▶

译文：Ch5 Genome Annotation / How Well Do Gene Predictors Work?

章节：Ch5 Genome Annotation

Canonical 小节：How Well Do Gene Predictors Work?

范围：PDF page 147 中部 - PDF page 153 顶部；印刷页码 127-133

---

第5章基因组注释

基因预测程序的效果如何？

基因预测程序的准确性通常用受控且界定清楚的数据集来测定；在这些数据集中，真实的基因结构已经通过实验确定。准确性可以在核苷酸、外显子或基因三个层面计算，每一种层面都能从不同角度反映预测方法的准确程度。在原核基因预测领域，结果几乎总是在基因层面报告，并以百分比表示，也就是用正确预测的基因数除以测试集中已知或经验证的基因总数。在某些情况下，也会报告过度预测基因（假阳性）的数量或百分比。

在真核基因预测领域，性能报告往往更复杂一些。这是因为评价问题本身更复杂，而且总体性能通常也差得多。一般来说，常用两个基本度量：敏感性（sensitivity，Sn），定义为被正确预测出来的编码核苷酸、外显子或基因所占比例；特异性（specificity，Sp），定义为被正确预测出来的编码与非编码核苷酸、外显子或基因所占比例（也就是预测结果中正确部分的总体比例）。Box 5.4 对敏感性、特异性以及基因预测（和蛋白质结构预测）中使用的若干其他评价指标作了更详细说明。该框还介绍了真阳性（true positives，TP）、真阴性（true negatives，TN）、假阳性（false positives，FP）和假阴性（false negatives，FN）这些概念。

图 5.6 给出了一个真核基因预测例子，其中展示了四种可能的预测结果。该图用示意方式说明了基因预测结果与已知（或观测到的）基因结构之间的差异。单独使用敏感性或特异性都不能完美衡量全局准确性，因为高敏感性可能以很低的特异性为代价获得，反之亦然。一个更容易理解、同时结合敏感性和特异性数值的度量称为 Matthews 相关系数（Matthews correlation coefficient，MCC，也简称 CC），Box 5.4 对它作了更正式的说明。MCC 的取值范围为 -1 到 1；其中 1 表示完美预测，-1 表示所有编码区都被预测为非编码区，反之亦然。有时也会使用其他准确性度量；不过，上述指标是在真核基因组预测大型评估项目中最常用的指标，例如人类 ENCODE 基因组注释评估项目（ENCODE Genome Annotation Assessment Project，EGASP；Guigó and Reese 2005）、RNA-seq 基因组注释评估项目（RNA-seq Genome Annotation Assessment Project，RGASP；Steijger et al. 2013）以及线虫基因组注释评估项目（Nematode Genome Annotation Assessment Project，nGASP；Coghlan et al. 2008）。

图 5.6

图 5.6 核苷酸层面基因预测准确性度量的示意图。上方给出真实基因结构，其中经确认的外显子用浅蓝色条表示，经确认的内含子用黑线表示。下方给出预测基因结构，其中预测外显子用红色条表示，预测内含子用黑线表示。图中展示了预测可能出现的四种结果：真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）。图中还用 TP、TN、FP 和 FN 的相应组合给出了敏感性和特异性的公式：

Sn = TP / (TP + FN)
Sp = TN / (TN + FP)

版面证据：../03_layout/page_148_render.png

Box 5.4 生物信息学中二分类或二项预测的评价

生物信息学中的许多预测本质上都涉及二分类或二项（即真/假）分类问题。例如，原核基因预测可以表述为一个二分类问题：尝试区分开放阅读框（open reading frames，ORFs）和非 ORF。类似地，真核基因预测也可以表述为预测外显子与非外显子（内含子），或预测基因与基因间区域的二分类问题。蛋白质膜螺旋预测（第7章讨论）同样可以放在类似的二分类框架中，即区分膜螺旋与非螺旋（或非膜区）。二分类问题也存在于医学中，例如预测或诊断患病者与健康者；也存在于高通量制造的质量控制任务中，例如合格与不合格（pass versus fail）。

二分类器或预测器的评价通常遵循一套非常标准的实践，并使用一组共同的指标和定义。遗憾的是，当生物信息学研究者评价自己的预测器或预测结果时，这套实践并不总是得到遵守。这就是本书加入这个非常重要的信息框的原因；本书后续会频繁引用它。

如下方示意表所示，一个二分类器或预测器可以产生四种结果组合：真阳性（TP，或正确的阳性判定）、真阴性（TN，或正确的阴性判定）、假阳性（FP，或错误的阳性判定）和假阴性（FN，或错误的阴性判定）。在统计学中，假阳性称为 I 型错误，假阴性称为 II 型错误（见第18章）。

预测状态 / 观测状态	观测为阳性	观测为阴性
预测为阳性	真阳性（TP）	假阳性（FP）
预测为阴性	假阴性（FN）	真阴性（TN）

当一个二分类器已经在一组数据上运行后，就可以用上述 2 × 2 列联表为这四类结果分别计算出具体数值。举例来说，如果某个基因预测器在一个实际只有 900 个基因的基因组中预测出了 1000 个基因，它可能得到 850 个 TP、200 个 TN、60 个 FP 和 40 个 FN。根据这四类结果，可以计算出 8 个比率。这些比率可以通过将 TP、TN、FP、FN 四个数中的每一个，除以其在 2 × 2 列联表中所在行或所在列的总和来获得。下面列出最重要的比率及其名称或缩写（并给出公式）。此外，还列出了一些在生物信息学或统计学某些子领域中使用的其他二分类器评价指标。

名称	公式
敏感性（Sn）；召回率（Recall）；真阳性率（TPR）	TP / (TP + FN)
特异性（Sp）；真阴性率（TNR）	TN / (TN + FP)
精确率（Precision）；阳性预测值（PPV）	TP / (TP + FP)
假阳性率（FPR）	FP / (FP + TN)
错误发现率（FDR）	FP / (FP + TP)
阴性预测值（NPV）	TN / (TN + FN)
准确率（ACC），Q2	(TP + TN) / (TP + FP + TN + FN)
F1 score；F score；F measure	2TP / (2TP + FP + FN)
Matthews 相关系数（MCC）	(TP × TN - FP × FN) / sqrt((TP + FP)(TP + FN)(TN + FP)(TN + FN))

敏感性（Sn、召回率或 TPR）衡量实际阳性中被正确识别为阳性的比例，而特异性（Sp 或 TNR）衡量实际阴性中被正确识别为阴性的比例。精确率（PPV）是阳性结果中真正为阳性的比例，而 NPV 是阴性结果中真正为阴性的比例。FDR 在这里指二分类意义上的度量，即假阳性除以所有阳性预测；不是多重检验中的 FDR。准确率或 ACC（用于二分类）定义为正确预测数除以预测总数。ACC 是评价二分类测试或预测器准确性的最佳方式之一。F1 score 是另一种测试准确性度量，定义为精确率（PPV）和召回率（Sn）的调和平均数。MCC 是一种常用的测试或预测器准确性度量。它本质上是标准 2 × 2 列联表的卡方统计量。实际上，MCC 是观测二分类结果与预测二分类结果之间的相关系数。

由于不同传统或不同目标，不同科学领域会偏好不同指标。在医学和大多数生物学领域（包括生物信息学）中，敏感性和特异性最常用于评价二分类器；而在机器学习和信息检索中，精确率和召回率通常更受偏好。同样，生物信息学内部不同预测任务也倾向于用不同度量报告性能。基因预测器通常报告 Sn、Sp 和 ACC，而蛋白质结构预测器通常报告 ACC 和 MCC。蛋白质二级结构预测中的准确率（ACC）也称为 Qn，其中 n 是二级结构类别数（通常 n = 3）。在基因预测中，ACC 分数记作 Q2，因为只识别两个类别（外显子/内含子，或 ORF/非 ORF）。除 MCC 外，上述每一个比率的取值都可以从 0 到 1。对于完美预测，Sn = 1、Sp = 1、PPV = 1、NPV = 1、ACC = 1、F1 = 1、MCC = 1、FPR = 0 或 FDR = 0；而完全错误的预测会得到 Sn = 0、Sp = 0、PPV = 0、NPV = 0、ACC = 0、F1 = 0、MCC = -1、FPR = 1 或 FDR = 1。

任何二分类预测器的性能，都必须结合不同类别中已有的数量偏倚（即类别分布不均衡）来评价。例如，ACC 为 0.95 看起来可能很优秀；但如果数据集中 95% 都属于同一类别，那么只要把所有对象都预测为这个类别，也很容易得到同样的 ACC。这正是许多哺乳动物基因组中的情况，因为它们拥有大片基因间区域。因此，如果把每一个核苷酸都预测为“基因间”，很容易得到一个在核苷酸层面准确率 >95% 的基因预测器。当然，这样的预测器完全没有用。

评价基因预测方法的准确性，需要使用一组可靠注释的基因；这些基因要由来自互补信息来源的实验或计算证据加以验证。实验依据可以来自基于质谱的蛋白质组学，或来自核磁共振波谱、X 射线晶体学（第12章）等结构生物学方法；这些方法可以对蛋白质序列提供直接、可视化的确认。计算依据可以表现为：由预测基因推导出的蛋白质序列，与功能已被实验验证的蛋白质一级结构具有相似性。针对原核生物和真核生物的基因预测评估都已经开展了大量工作。

评估原核基因预测程序

多年来，原核基因预测程序的评价一直在持续进行；每一篇描述新程序（或已有程序新版本）的论文，通常都会提供详细的性能评估（Larsen and Krogh 2003；Delcher et al. 2007；Hyatt et al. 2010；Borodovsky and Lomsadze 2011）。最近且最全面的原核基因预测程序评估之一，是 Hyatt 等人在 2010 年完成的。在这篇论文中，作者在两个不同任务上比较了五个程序：Prodigal 1.20（Hyatt et al. 2010）、GeneMarkHMM 2.6（Borodovsky and Lomsadze 2011）、GLIMMER 3.02（Delcher et al. 2007）、EasyGene 1.2（Larsen and Krogh 2003）和 MED 2.0（Zhu et al. 2007）。

第一个任务涉及从 10 个不同细菌和古菌基因组中，预测具有实验验证翻译起始位点（translation initiation sites，TISs）的实验验证基因。在这种情况下，只有 2443 个基因（总可能数量超过 35 000 个）被认为是实验验证基因。Hyatt 等人发现，五个程序在这些经验证基因 3′ 端的预测上都能达到 98-99.8% 的准确率（基因层面）；对于完整基因（5′ 端和 3′ 端都被正确预测）的预测，准确率为 87-96.7%（基因层面）。

第二个任务涉及预测七个不同细菌基因组中 GenBank 注释的基因（大多为人工注释）。在这种情况下，共评估了 23 648 个基因。所有程序在这些基因 3′ 端的预测上都能达到 95-99% 的准确率（基因层面）。然而，它们在完整基因预测任务（5′ 端和 3′ 端都被正确预测）上的表现差异要大得多，准确率从 69% 到 91% 不等。五个程序在第二个任务所有基因上的总体预测平均值约为 80%。还值得注意的是，五个程序通常都会比 GenBank 注释多预测约 4-5% 的基因，其中一些程序（MED 2.0）的过度预测幅度高达 40%。

根据 Hyatt 等人（2010）提供的数据，表现最好的两个原核基因预测程序是 Prodigal 和 GeneMark，其他三个程序仅略差一些。他们的结果还表明，预测原核基因 3′ 端的任务基本上已经解决，而预测原核基因 5′ 端的挑战仍需进一步研究。显然，一些原核基因组比另一些更难预测：在大肠杆菌（E. coli）基因组上，完整基因预测性能常常徘徊在约 90%；而在研究较少的基因组（如 Halobacterium salinarum）上，性能通常约为 70%。这些结果反映了这样一个事实：ab initio 基因预测器（无论原核还是真核）都需要基于大量高质量基因模型进行非常充分的训练。一旦完成训练，这些工具可以有非常出色的表现，尤其是在研究充分、可获得充足训练数据的基因组中。不过，对于新组装的细菌基因组，要达到很高准确率所需的训练水平往往很难实现。

评估真核基因预测程序

真核基因预测程序的评估已经持续了 20 多年。在早期，大多数真核基因预测评价是在单个基因上进行的；这些基因的外显子/内含子结构已经得到充分表征。这反映出当时很少有（如果有的话）真核基因组被完整测序，而且只有少数真核基因的外显子/内含子结构得到完整确定。这也使基因预测任务简单得多，因为这些测试序列中的编码区（外显子）密度很高（25-50%），远高于整个基因组中的编码区密度（通常 <2%）。这也导致了过于乐观的性能评价。近年来，该领域已经发展到在整个基因组范围内评估基因预测性能。

Burset 和 Guigó（1996）发表了最早的真核基因预测程序系统评价之一。他们的研究使用 570 条脊椎动物单基因序列，对七个程序进行了评价。这些程序在核苷酸层面的平均 CC 从 0.65 到 0.80 不等。随后，Rogic 等人（2001）使用 195 条来自人类和啮齿类物种的单基因序列，对七个基因预测程序进行了类似分析。Rogic 等人研究中测试的程序，准确性显著高于 Burset 和 Guigó 研究报告的结果，其核苷酸层面的平均 CC 从 0.66 到 0.91 不等。该范围上端的提高说明，在相对较短的一段时间内，基因预测方法的发展取得了显著进步。

Burset 和 Guigó（1996）、Rogic 等人（2001）以及其他早期评价都有同样的局限：这些基因查找程序是在受控数据集上测试的，而这些数据集由短基因组序列组成，每条序列编码一个结构简单的单个基因。显然，这些数据集并不能代表整体基因组序列。完整基因组序列包含大片编码密度低的区域，包含编码多个基因或不完整基因（或二者兼有）的区域，也包含具有非常复杂或可变基因结构的区域。

因此，人们开展了两项大规模研究，以评估 ab initio 真核基因预测程序在真实世界哺乳动物基因组数据上的性能。第一项基于人类 22 号染色体的分析（Parra et al. 2003），第二项基于人类 ENCODE 区域的分析（Guigó et al. 2006），覆盖约 1% 的人类基因组。

在人类 22 号染色体完成测序时，许多专家对其进行了非常广泛的人工分析、实验确认和详细注释（Dunham et al. 1999）。这样做的目的是为评价基因组预测和基因组注释工具提供一个有用的“金标准”（在当时）。因此，Parra 等人使用 22 号染色体的人工注释数据，从核苷酸、外显子以及完整基因/转录本层面评估了 GENSCAN（Burge and Karlin 1997）、GenomeScan（Yeh et al. 2001）、TBLASTX（Gish and States 1993）、GeneID（Blanco et al. 2002）和 SGP-2（Parra et al. 2003）的性能。结果相当令人失望。在核苷酸层面，这些程序的平均敏感性/特异性（[Sp + Sn]/2）值为 0.62 到 0.75，CC 值为 0.54 到 0.73。在外显子层面，这些程序的平均敏感性/特异性值为 0.54 到 0.62；而在基因/转录本层面，平均敏感性/特异性值为 0.05 到 0.11。最后一组数值最值得关注，因为它们反映了基因预测性能的真实水平。有趣的是，GENSCAN 和 GenomeScan 的表现略差于 GeneID 和 SGP-2。事实上，SGP-2 的表现始终优于所有“纯”ab initio 预测器，因为它还利用了来自小鼠 22 号染色体的比较基因组数据。从技术上说，纳入实验序列数据使 SGP-2 成为一种外源性基因查找程序，而不是纯粹的 ab initio 基因预测程序。

2005-2006 年，DNA 元件百科全书（Encyclopedia of DNA Elements，ENCODE）项目第一阶段也实现了类似水平的高质量人工注释。ENCODE 是一个长期、多阶段项目，始于 2003 年，目标是识别人类基因组序列中的所有功能元件。在其试点阶段，研究者选择了人类基因组中的若干区域（约占 1%）进行详细研究。这个“金标准”数据集的可用性促成了第二项规模大得多的评价，该评价考察了纯 ab initio 预测器的预测性能，也考察了使用额外外源性数据（如序列同源性和实验测序数据）的基因查找程序的预测性能（Guigó et al. 2006）。在 Guigó 等人的研究中，测试了四个 ab initio 预测器：AUGUSTUS（Hoff and Stanke 2013）、GeneMark-A（Besemer and Borodovsky 2005）、GeneMark-B（Besemer and Borodovsky 2005）和 GeneZilla（Allen et al. 2006）。结果再次相当令人失望。在核苷酸层面，这些程序的 CC 值为 0.53 到 0.76。在外显子层面，这些程序的平均敏感性/特异性值为 0.40 到 0.57；在基因或转录本层面，平均敏感性/特异性值为 0.05 到 0.14。总体而言，AUGUSTUS 的表现显著优于其他 ab initio 程序，但仍未达到可以用它自动注释真核基因组的水平。然而，这项研究最重要的发现是：如果在预测过程中使用比较基因组数据或其他实验/外源性证据，真核基因注释质量可以显著提高（外显子层面最高可提高 2 倍，基因层面最高可提高 4 倍）。

正是因为这些研究，基因预测领域发生了重大变化。特别是，基因预测程序开发者从勉强使用实验或外源性数据，转变为积极拥抱实验数据。换言之，基因预测开始转变为基因查找，基因组预测也开始向基因组注释演化。在这一过程中，基因组分析成为一种更整体化、以证据为基础的过程，将 ab initio 基因预测与外源性基因查找方法结合起来。这些外源性基因查找方法整合了许多其他计算工具和其他证据线索，包括基因表达数据、蛋白质组数据、与其他已注释基因组的序列同源性，甚至来自文献的数据。

038

Evidence Generation for Genome Annotation

PDF page 153 中部 - PDF page 161 上部；印刷页码 133-141

▶

译文：Ch5 Genome Annotation / Evidence Generation for Genome Annotation

章节：Ch5 Genome Annotation

Canonical 小节：Evidence Generation for Genome Annotation

范围：PDF page 153 中部 - PDF page 161 上部；印刷页码 133-141

---

第5章基因组注释

基因组注释的证据生成

基因组证据是指任何可用于识别或说明某一生物体中基因结构的信息，无论该生物体是原核生物还是真核生物。一些最有用的证据来自实验工作，例如转录数据（mRNA，或来自 RNA-seq 实验的 DNA 数据），或来自目标生物体及其近缘生物体的蛋白质序列数据。其他类型的证据可以通过运行各种生物信息学程序来获得；这些程序能够识别基因组特征，例如序列重复、tRNA 和 rRNA 基因、假基因、转录因子结合位点、逆转录病毒、前噬菌体，等等。在下面几节中，我们将简要回顾一些用于外源性基因查找和基因组注释的证据生成方法。

第5章基因组注释

使用 RNA-seq 数据进行基因注释和证据生成

RNA 测序（RNA sequencing，RNA-seq）是一种下一代 DNA 测序（next-generation DNA sequencing，NGS）技术。它先将 RNA（mRNA、tRNA 和 rRNA）转录本转化为双链 cDNA 片段，然后使用低成本 NGS 测序方法对其进行测序（Wang et al. 2009）。在过去十年中，RNA-seq 帮助革新了真核生物和原核生物的基因组注释方法（Trapnell et al. 2009；Sallet et al. 2014）。

一个典型的 RNA-seq 实验会生成成千上万条短 DNA 序列读段，这些读段对应于基因编码区域（也称为编码序列，coding sequence，CDS 片段）。随后，可以使用带缺口的短读段比对程序将这些序列比对到参考基因组序列上，以确定哪些基因组区域正在被转录。较常用的带缺口短读段比对程序包括 TopHat2（Kim et al. 2013）、Stampy（Lunter and Goodson 2011）和 GSNAP（Wu et al. 2016）。这些比对结果还可以使用 Cufflinks（Trapnell et al. 2012）、StringTie（Pertea et al. 2015）或 Trinity（Grabherr et al. 2011）等工具进一步处理为候选转录本。通过这种方式，RNA-seq 可以提供关于基因编码区域位置的实验依据（通过 DNA 测序获得）。

当使用 RNA-seq 数据时，基因查找性能和基因注释质量的提高相当显著。在 RGASP（Steijger et al. 2013）中，研究者比较了 14 种不同的基因组注释方法（包括内源性/ab initio 方法、外源性方法以及外源性/内源性混合方法）。用于比较的金标准是 GENCODE 项目提供的人类参考基因组注释，其中包含由计算、人工和实验方式确定的基因注释（Harrow et al. 2012）。结果表明，在识别蛋白质编码基因这一任务中，表现最好的程序是使用 RNA-seq 数据的基因注释工具。将 RNA-seq 数据纳入基因查找过程的基因注释程序包括 AUGUSTUS（Hoff and Stanke 2013）、mGENE（Schweikert et al. 2009）、Trembly 和 Transomics（Sperisen et al. 2004）。

如前所述，在为基因组注释处理 RNA-seq 数据时，可以将原始读段与基因组进行剪接比对；或者，也可以先从头组装转录本片段，再通过 BLASTN 将其比对到基因组上。RGASP 评估显示，这种“先比对”（mapping-first）方法可以产生更准确的注释，因此强烈推荐使用。剪接比对可以用 GSNAP（Wu et al. 2016）、Stampy（Lunter and Goodson 2011）、TopHat2（Kim et al. 2013）或 STAR（Dobin et al. 2013）等工具完成。将 RNA-seq 数据中的覆盖度信息整合到基因注释工具中，通常可以通过提高被 RNA-seq 覆盖的候选外显子的得分来实现；提高幅度取决于每个被覆盖外显子区域的局部覆盖度。对于 HMM 来说，奖励由 RNA-seq 证据支持的单个剪接位点相对容易。一些基因注释工具还会整合来自 RNA-seq 数据的完整内含子证据（即剪接位点对）。

与短读段（100-400 个碱基）相比，能够产生更长 RNA-seq 读段（10 000+ 个碱基）的新技术，极大提高了预测可变剪接转录本的能力；短读段主要有助于发现局部可变剪接变体。长读段往往接近完整转录本，每一次剪接比对都能给出一个转录本结构，尽管由于测序错误率相对较高，这种结构通常只是近似的。AUGUSTUS 等基因查找程序可以整合来自长读段比对的证据，从而进一步提高其性能。

虽然 RNA-seq 极大改善了许多真核基因查找程序的表现，但仍然还有很长的路要走。根据 RGASP 评估（Steijger et al. 2013），表现最好的方法从秀丽隐杆线虫（Caenorhabditis elegans）基因组中识别出约 59% 的蛋白质编码转录本（AUGUSTUS、mGene 和 Transomics），从黑腹果蝇（Drosophila melanogaster）基因组中识别出 43%（AUGUSTUS），而从人类（Homo sapiens）基因组中仅识别出 21%（Trembly）。因此，RNA-seq 数据还没有（至少目前还没有）成为“解决”真核基因组准确自动注释问题的关键。仍然存在一些重要问题，包括：相当一部分基因或剪接形式可能不会在任何 RNA-seq 样本中表达；被转录的序列可能并不编码蛋白质；即使它们编码蛋白质，正确的蛋白质编码 ORF 仍需识别；转录本组装以及将转录本映射回基因组的过程也出了名地容易出错。这些错误通常出现在外显子边界附近，组装结果常常会延伸进内含子，有时还会漏掉整个外显子。

已经开发出若干程序来帮助解决这些映射问题，包括 Exonerate（Slater and Birney 2005）和 GeneWise（Birney et al. 2004）。这两个程序都是“剪接感知”（splice-aware）工具，可用于修正 BLAST 比对。修正后的比对随后可用于改进对外显子、内含子、剪接位点以及 5′ 和 3′ UTR 的注释。

第5章基因组注释

使用蛋白质序列数据库进行基因注释和证据生成

正如 RNA-seq 数据可以作为基因存在的证据一样，序列同源性也可以用于在新测序生物中定位或识别新基因。在基于同源性的基因查找中，新测序生物的 DNA 序列会被翻译成候选蛋白质序列，然后将这些候选序列与已知蛋白质数据库进行比较。蛋白质层面的同源匹配随后可用于在 DNA 层面对基因进行注释、识别和定位。与 ab initio 基因预测相比，基于同源性的基因查找有一个关键优势：同源性方法不仅能提供识别和定位信息（这一点 ab initio 方法也能做到），还可以根据新识别基因与蛋白质序列数据库中既有注释蛋白之间的序列相似性，推断出可能的基因名称和可能的基因功能。

翻译核苷酸搜索，例如 BLASTX 搜索（Gish and States 1993），是最简单的基于同源性的基因预测方法之一。在比较原核基因组中的 ORF 时，这些搜索尤其有用。然而，当处理真核基因的分裂结构时，类似 BLASTX 的搜索并不能很好地解析外显子剪接边界。一种有用的方法是同时使用翻译核苷酸搜索结果和 ab initio 方法产生的结果。这类混合方法的例子包括 GenomeScan（Yeh et al. 2001）、GeneID（Blanco et al. 2002）和 AUGUSTUS（Hoff and Stanke 2013）等程序。GenomeScan 是 GENSCAN 的扩展版本，它利用 BLASTX 纳入了与已知蛋白质的序列相似性。

通过序列同源性进行真核基因预测时，一种更复杂的方法是将基因组查询序列与一个蛋白质目标序列进行比对；该目标序列被认为与正在注释的基因组序列所编码的蛋白质同源。在这些通常称为剪接比对（spliced alignments）的比对中，查询序列中对应于内含子的大缺口只允许出现在“合法”的剪接连接处。使用这种方法的程序包括 PROCRUSTES（Gelfand et al. 1996）、GeneWise（Birney and Durbin 1997）、Exonerate（Slater and Birney 2005）、BLAT（Kent 2002）和 GenomeThreader（Gremme et al. 2005）。

剪接比对方法并没有利用基于同源性的基因预测中通常可获得的全部信息。事实上，对于任意给定蛋白质，往往可以获得一整个相关蛋白家族。这样一组序列所携带的信息多于单个蛋白质。例如，一个构建良好的多序列比对（multiple sequence alignment，MSA）可以显示哪些区域高度保守，哪些区域容易发生插入或缺失。利用 MSA，可以计算某个氨基酸出现在某个位点的概率。利用这些数据，可以计算 PWM 或 PSSM，并创建所谓的 MSA profile。虽然为原核基因组创建 MSA 的任务相对容易，但由于重复序列以及大规模基因组重排、重复和缺失的存在，为真核基因组创建 MSA 尤其具有挑战性。

因此，与其尝试用一组单独的蛋白质序列来查找基因或外显子，不如使用已比对蛋白质家族的 MSA 来完成这项工作。这些 MSA 可以在 OrthoDB 等直系同源数据库中找到（Waterhouse et al. 2013）。已经开发出若干优秀软件工具，可以在给定某个蛋白质家族的 MSA profile 表示后，搜索该家族成员的基因结构。这些工具包括 GeneWise（Birney and Durbin 1997）和 AUGUSTUS-PPX（Keller et al. 2011），其中 PPX 代表 Protein Profile eXtension。已有研究显示，与剪接比对方法相比，AUGUSTUS-PPX 可以提高基因预测准确性，尤其是在处理含有大量外显子的基因时。不过，MSA 方法受限于是否存在同源家族以及序列相似性的程度。因此，MSA 基因查找最适合用于中等到高度序列相似性的情况。

近来，随着 BUSCO（Simão et al. 2015）的开发，这一 MSA 概念被扩展到覆盖序列相似性更远的情况。BUSCO 是 Benchmarking Universal Single-Copy Orthologs（通用单拷贝直系同源基准）的缩写。这些单拷贝直系同源物对应于一组数量相对较少、但高度保守的蛋白质；它们在生命树中许多不同门类里都以单拷贝基因形式存在。目前，BUSCO 数据集包括脊椎动物 3023 个基因、节肢动物 2675 个基因、后生动物 843 个基因、真菌 1438 个基因、真核生物 429 个基因，以及原核生物 40 个通用标记基因。使用 HMMER（Eddy 2009），可以将 BUSCO 基因集快速搜索到任何给定查询基因组中。某一生物中这些 BUSCO 基因的存在或缺失，可以很好地衡量基因组组装的完整性。它也可以很好地衡量给定基因组注释或给定基因组预测的完整性。

第5章基因组注释

使用比较基因预测进行基因注释和证据生成

另一种基于同源性的基因预测方法利用了这样一个事实：目前已经有大量且数量仍在增长的完整测序、注释良好的基因组可用。这催生了一种称为比较基因预测（comparative gene prediction）的技术。比较基因预测背后的基本理由是，功能区域（即蛋白质编码区域）往往比非蛋白质编码区域更加保守。这个观察为在新测序基因组中识别蛋白质编码区域提供了基础。

比较基因预测方法利用序列同源性，但其尺度比前面描述的蛋白质序列相似性方法要全局得多。在比较基因预测中，“已知”基因组和“未知”基因组来自不同物种，但这些物种被假定为亲缘关系足够近，以至于它们的整个基因组可以相互比对。由于这些基因组非常长（从数百万到数十亿个碱基不等），成对比对或 MSA 通常会被分解成许多共线性（同源）区域的局部比对。

早期的比较基因查找方法通常只使用两条基因组序列作为输入，例如 DOUBLESCAN（Meyer and Durbin 2002）、TWINSCAN（Korf et al. 2001）、SLAM（Alexandersson et al. 2003）或 SGP-2（Parra et al. 2003）。SLAM 是一种基于 HMM 的方法，在这种方法中，基因预测和序列比对同时进行。TWINSCAN 和 DOUBLESCAN 是 GENSCAN 的扩展版本，而 SGP-2 是 GeneID 的扩展版本。

后来，人们开发出了可以使用两条以上基因组序列来预测新基因组中基因的比较基因查找方法，不过这些方法当时仍只针对单个目标基因组进行预测。这些方法包括 N-SCAN（Gross and Brent 2006）、CONTRAST（Gross et al. 2007）和 Mugsy-Annotator（Angiuoli et al. 2011）等程序。近来，一种称为进化枝注释（clade annotation）的方法被开发出来，并被实现到 AUGUSTUS 的一个版本中，即“comparative AUGUSTUS”（König et al. 2016）。进化枝注释允许对多个目标基因组进行同步比对和注释。例如，comparative AUGUSTUS 可用于同时注释多个（最多 20 个）不同小鼠品系的基因组。

第5章基因组注释

非蛋白质编码、非编码或外源基因的证据生成

确定蛋白质编码基因位置的最佳方法之一，是确定它不在什么地方。换句话说，如果知道某个 DNA 片段不可能编码蛋白质，就可以将其从基因/蛋白质查找过程中排除。原核基因组包含许多不编码蛋白质的基因。这些基因包括 tRNA 和 rRNA 基因，也包括许多外源性前噬菌体基因；这些前噬菌体基因可能编码真实的噬菌体蛋白，也可能不编码。类似地，真核基因组中充满了重复区域、假基因、反转座子和逆转录病毒基因，也包含各种 tRNA 和 rRNA 基因。这些非蛋白质编码或非编码元件可占某一原核基因组的 20-30%（Casjens 2003），并可占真核基因组的 90% 以上（Li et al. 2004）。

第五章基因组注释

tRNA and rRNA Gene Finding（tRNA 和 rRNA 基因寻找）

原核生物和真核生物的基因组中都有相当大的一部分被 tRNA 和 rRNA 基因所占据。细菌和古菌通常各自含有 70–80 个 tRNA 基因拷贝，以及 3–45 个 rRNA 基因拷贝。tRNA 分子是 L 形的 adaptor RNA 分子，长度通常为 76–90 个核苷酸，是翻译过程中必不可少的分子（如图 5.7 所示）。从原理上讲，翻译所有 61 个编码（正义）密码子共需要 61 个 tRNA 基因。然而，由于一种名为"碱基摆动"（base wobble）的现象，许多生物能够用一个 tRNA 来识别两个或更多的密码子。因此，大多数原核生物拥有 35–40 个不同的 tRNA 基因，但每个基因只有一或两个拷贝。

rRNA 分子是核糖体（所有细胞的翻译引擎）的主要成分（按质量计 >60%）。在原核生物中，核糖体由两个亚基——小亚基和大亚基——配对组成。原核生物中的 rRNA 包括大亚基中的 5S 和 23S rRNA，以及小亚基中的 16S rRNA。编码这些 rRNA 的基因通常排列成操纵子（即 rrn operon），在 16S 和 23S rRNA 基因之间有一个内部转录间隔区。原核生物中 rrn operon 的数量因基因组而异，从 1 个到 15 个不等。

真核生物的 tRNA 和 rRNA 基因与原核生物有许多相似之处（结构和大小均相似）。然而也存在一些细微差异。例如，真核生物通常拥有比原核生物多得多拷贝的 tRNA 基因。酿酒酵母（Saccharomyces cerevisiae）有 275 个 tRNA 基因，秀丽隐杆线虫（C. elegans）有 620 个 tRNA 基因拷贝，人类则有 497 个 tRNA 基因拷贝。所有真核生物都拥有 22 个线粒体 tRNA 基因。与原核生物类似，真核生物的 rRNA 基因也按其在核糖体大亚基或小亚基中的位置进行分类。然而，真核生物的大亚基中有三种 rRNA（而非原核的两种）：5S、5.8S 和 28S。与原核生物相同，真核生物在小核糖体亚基中有一个 rRNA 基因（18S rRNA），但同时也为线粒体核糖体编码 rRNA 基因（12S 和 16S rRNA 基因）。与原核生物不同，真核生物的 rRNA 基因通常以串联重复的形式存在大量拷贝。在人类中，约有 300–400 个 rRNA 重复单元，分布在五条不同染色体的五个簇中。与原核生物的 tRNA 基因不同，真核生物的部分 tRNA 基因含有内含子。

tRNA 的结构在所有主要生物界中高度保守，针对原核生物和真核生物已知的 tRNA 序列也数量庞大。因此，大多数 tRNA 基因鉴定方法都利用共同的序列模体（可通过 HMM 识别）并采用某种形式的序列同源性或数据库比对来鉴定 tRNA 基因。目前性能最佳且最流行的方法是 RNAmmer（Lagesen et al. 2007）、tRNAfinder（Kinouchi and Kogawa 2006）和 tRNAscan-SE（Lowe and Eddy 1997）。这些程序能够以非常高的准确率（>95%）在原核生物和真核生物中鉴定 tRNA 基因。除这些程序外，还有若干专用的 tRNA 序列数据库可辅助比较 tRNA 鉴定方法，包括 tRNAdb 和 tRNA-DB-CE（Jühling et al. 2009; Abe et al. 2014）。目前，tRNA 基因的鉴定被认为是一个"已解决"的问题。

与 tRNA 基因一样，rRNA 基因也表现出非常高的序列保守性，有许多 rRNA 模体可用 HMM 来描述。这些 HMM 已被整合到一个名为 RNAmmer 的程序（及网络服务器）中（Lagesen et al. 2007）。RNAmmer 能够鉴定来自原核生物和真核生物的所有 rRNA，但 5.8S rRNA 除外。由于 rRNA 基因的复杂性、长度以及相对较少的已有注释，rRNA 预测的性能尚未达到与 tRNA 预测相同的水平。除 RNAmmer 预测工具外，还有一个名为 Rfam 的 RNA 数据库（Kalvari et al. 2018），其中包含 >2600 个 RNA 家族（包括 rRNA 和 tRNA 序列家族）。Rfam 中的每个序列家族由一个 MSA、一个共识二级结构和一个协方差模型来表示。Rfam 可通过序列比对或 MSA 来进行 rRNA（及其他 RNA 基因）的鉴定。无论这些工具目前有何不足，使用 tRNA 和 rRNA 基因鉴定工具总能提高任何蛋白质编码基因发现或基因预测工作的准确性，同时也能提升整体基因组注释的质量。

第五章基因组注释

Prophage Finding in Prokaryotes（原核生物中的前噬菌体识别）

原核生物不断受到称为 bacteriophages（噬菌体）的细菌病毒攻击，这些病毒能够杀死或削弱易感细菌。噬菌体是地球上数量最多的生物实体，在细菌生态系统中发挥着重要作用，并且是推动微生物遗传变异或遗传多样性的重要力量。这种遗传多样性主要通过噬菌体生活史中一个非常独特的阶段——lysogeny（溶原化）——而产生。溶原化是指噬菌体基因组（通常由 10–20 个基因组成）在明确的插入位点整合进宿主细菌染色体的过程。完成遗传整合后的噬菌体称为 prophages（前噬菌体）。在某些情况下，前噬菌体会永久嵌入细菌基因组，成为 cryptic prophages（隐匿前噬菌体）（Little 2005）。这些隐匿前噬菌体常常作为宿主微生物未来进化变化的遗传“素材”或“储备”（Bobay et al. 2014）。此外，前噬菌体和隐匿前噬菌体往往会引入致病相关元件或致病岛，而这些区域的碱基组成通常与宿主基因组存在明显差异。在某些细菌基因组中，前噬菌体和隐匿前噬菌体可占全部遗传物质的 20% 之多（Casjens 2003）；其中某些前噬菌体基因编码可表达蛋白，而另一些则不编码。

鉴于这类噬菌体特异性遗传元件数量很多，对其进行识别具有相当重要的意义，尤其是在细菌基因组注释中。前噬菌体和隐匿前噬菌体序列表现出某些特征性序列特征，例如整合酶（integrases）和转座酶（transposases）的存在、attachment sites（附着位点）以及异常的碱基组成；这些特征可用于将其与“正常”的细菌基因区分开来。若再结合 HMM 来增强这些序列特征的识别任务，就能够以相对较高的准确性识别前噬菌体和隐匿前噬菌体序列。若进一步将待分析基因组与已知噬菌体序列数据库进行比较基因组分析，则识别准确率还可进一步提升。在过去十年里，已经开发并部署了若干细菌前噬菌体识别程序，包括 Phage_Finder（Fouts 2006）和 ProphageFinder（Bose and Barber 2006）。近些年来，噬菌体识别已经从独立程序逐步转向 web server。特别是，已有两个新的 web server 发布，与现有工具相比，它们在前噬菌体识别中提供了更快的速度和更高的准确率，即 PHAST（Zhou et al. 2011）和 PHASTER（Arndt et al. 2016）。这两个 web server 的准确率都在 85%–95% 之间（取决于所进行的测试），并且都能提供丰富的图形化输出，以及对前噬菌体序列及其周围细菌基因组序列的详细注释（图 5.8）。

无论采用哪一种方法，对前噬菌体和隐匿前噬菌体基因进行注释都无疑会提升原核基因组注释的整体质量，而且通常还会提高原核基因预测的准确性。

第五章基因组注释

Repetitive Sequence Finding/Masking in Eukaryotes（真核生物中的重复序列寻找/遮蔽）

与原核生物不同，真核生物基因组含有大量 repetitive DNA（重复 DNA）。这些重复序列包括 retrotransposons（逆转座子）和 DNA transposons（DNA 转座子），二者都称为 dispersed repeats（分散重复）；此外还包括高度重复的序列，通常称为 tandem repeats（串联重复）。真核生物中最丰富的重复序列是逆转座子。逆转座子是一类遗传元件，能够通过类似逆转录病毒所用的“复制-粘贴”机制来扩增自身。为了复制和扩增，它们首先被转录为 RNA，随后通过 reverse transcription（逆转录）转换回相同的 DNA 序列，再插入基因组的特定靶位点。与逆转座子不同，DNA 转座子在复制和粘贴时不经过 RNA 中间体，而是使用一种称为 transposase（转座酶）的蛋白质。人类基因组约 52% 由逆转座子构成，而 DNA 转座子又占另外 3%（Lander et al. 2001; Wheeler et al. 2013）。在植物中，逆转座子更加丰富，可占任一植物基因组 DNA 的 60%–90%（Li et al. 2004）。

逆转座子家族包含两个亚家族：long terminal repeat retrotransposons（长末端重复逆转座子，LTR retrotransposons）和 non-LTR retrotransposons（非 LTR 逆转座子）。LTR retrotransposons 是一类类似逆转录病毒的序列，含有长度从约 100 bp 到超过 5 kb 不等的 LTR。事实上，只要使某些支持病毒在细胞间传播的基因（例如 envelope protein，包膜蛋白）失活或缺失，逆转录病毒就可以转变为 LTR retrotransposon。大多数 LTR retrotransposons 是无功能的 endogenous retroviruses（内源性逆转录病毒），也称为 proviruses（前病毒）。从这个意义上说，真核生物的 LTR retrotransposons 可被视为原核生物 prophages（前噬菌体）或 cryptic prophages（隐匿前噬菌体）的对应物。人类内源性逆转录病毒序列似乎全部存在缺陷或不能复制，约占人类基因组的 8%（Taruscio and Mantovani 2004）。

Non-LTR retrotransposons 包含两个亚型：long interspersed nuclear elements（长散在核元件，LINEs）和 short interspersed nuclear elements（短散在核元件，SINEs）。LINEs 通常长约 7000 bp，并编码若干基因，以覆盖逆转座所需的全部功能。这些基因包括 reverse transcriptase（逆转录酶）和 endonuclease（内切核酸酶）基因，以及若干形成 ribonucleoprotein particle（核糖核蛋白颗粒）所需的基因。人类基因组中存在超过 850000 个 LINE 拷贝，覆盖全部人类 DNA 的 21%（Cordaux and Batzer 2009）。然而，超过 99% 的 LINE 在遗传上已经“死亡”，失去了逆转座功能。与 LINEs 相比，SINEs 小得多，通常只是长度为 80–500 bp 的 DNA 片段。SINEs 数量极多（可达数百万拷贝），约占人类基因组 DNA 的 10%。人类中最常见的 SINE 是 Alu repeats（Alu 重复）（Häsler and Strub 2006）。Alu repeats 长约 300 bp，在灵长类动物中高度保守，并经常发生 DNA methylation（DNA 甲基化）事件。

除 transposable elements（转座元件，或 dispersed repeats）外，真核生物还含有大量 tandem repeats，包括 minisatellite DNA（小卫星 DNA）、microsatellite DNA（微卫星 DNA，也称为 short tandem repeats，STRs，短串联重复；或 simple sequence repeats，SSRs，简单序列重复）以及 telomere repeats（端粒重复）。Minisatellite DNA 由长度为 10–60 bp 的重复单元组成，整体可延伸约 2 kb，并散布于整个基因组中。Microsatellite DNA 由 1–6 bp 的重复单元构成，可延伸数百 kb，尤其常见于着丝粒周围。Telomere repeats 由高度保守的 6 bp 序列（TTAGGG）组成，该序列重复 250–1000 次，并且只存在于真核染色体末端。Mini- 和 microsatellite DNA 合计约占人类基因组 DNA 的 5%（Subramanian et al. 2003）。

真核生物拥有如此多的重复序列，而且这些重复序列又占其基因组很大比例（通常 >50%），这促使基因组注释人员集中精力去识别、移除或遮蔽这些序列。原因在于，重复序列会严重阻碍基因识别和基因组注释工作。例如，ab initio gene predictors（从头基因预测器）很容易把逆转座子和 DNA 转座子误判为外显子。同样，在基因寻找中使用比较基因组学方法时，STRs 也可能导致虚假的比对。STRs（也称为 low-complexity regions，低复杂度区域）通常可通过两种技术处理：soft masking（软遮蔽）或 hard masking（硬遮蔽）。软遮蔽是将序列文件中的字母大小写从大写改为小写；而硬遮蔽则把有问题的序列改为 N，从而将其完全排除在考虑之外。软遮蔽可防止被遮蔽区域作为比对种子，同时保留序列身份信息，从而尽量减少非目标比对。软遮蔽通常由 SEG 和 DUST 程序完成（Wootton and Federhen 1993），这两个程序存在于大多数版本的 BLAST 序列比对套件中。

虽然 tandem repeats 相对容易处理，但重复性 transposable elements（如 retrotransposons）要困难得多。这是因为这些序列大得多，也复杂得多。Repbase 数据库（Jurka et al. 2005）收录了来自广泛物种的重复序列和转座元件的综合集合。该资源常用于通过比较序列分析识别重复元件。然而，如果转座子序列与 RepBase 中的序列高度分化，就可能需要使用其他方法或其他数据库。Dfam（Wheeler et al. 2013）是一个更高级的重复元件数据库示例。在 Dfam 中，原始 Repbase 序列被转换为 HMM。使用这些 HMM 后，可识别出更多转座元件（在人类中最高可达 54.5%，而非 44%），并且准确性大幅提高（Wheeler et al. 2013）。

除 Dfam（既可作为 server 使用，也可下载为资源）外，还开发了若干独立程序和 web server，用于专门识别 retrotransposons，包括 RECON（Bao and Eddy 2002）、RepeatScout（Price et al. 2005）、RetroPred（Naik et al. 2008）、LTR_FINDER（Xu and Wang 2007）、LTRharvest（Ellinghaus et al. 2008）和 MITE-Hunter（Han and Wessler 2010）。这些程序能够识别并标记 LTR 或 non-LTR retrotransposons。虽然这类信息对某些研究者有用，但许多基因组注释人员只是希望把 retrotransposons 从分析考虑中移除。在这一方面，RepeatMasker（Tarailo-Graovac and Chen 2009）已经成为首选工具，因为它会直接 hard mask（即移除）目标基因组中所有可检测到的 retrotransposon 序列。

一般而言，对 transposable elements 进行 hard masking 通常是真核基因组注释的第一步。使用 Dfam 这类工具或 RepeatMasker 这类程序进行 hard masking，不仅可以移除“无关紧要”的遗传数据，还能加快基因识别过程并提高注释准确性。由于编码外显子通常不会与重复元件重叠，也不倾向于包含重复元件，因此在使用 hard-masked sequences 时，ab initio gene prediction programs 往往会预测出更少的假阳性外显子。例如，当使用不同的 ab initio gene predictors 分析 22 号染色体时，研究者发现假阳性基因预测显著减少（Parra et al. 2003）。具体而言，在不使用序列遮蔽时，GENSCAN 最初预测了 1128 个蛋白质编码基因；而使用序列遮蔽后，预测基因数降至 789。使用 GeneID 时，预测数量从 1119 降至 730。根据最新的 GENCODE 注释，22 号染色体中实际的蛋白质编码基因数量为 489。

第五章基因组注释

Finding and Removing Pseudogenes in Eukaryotes（真核生物中假基因的寻找与去除）

真核基因组注释中的一个特殊挑战，是区分那些识别出“真实”基因的预测结果，以及那些实际上对应 non-functional pseudogenes（无功能假基因）的预测结果。数据库搜索未必能让情况变得更清楚，因为许多假基因与有功能的 paralogous genes（旁系同源基因）相似。RNA-seq 实验中没有检测到 RNA transcript（RNA 转录本）也不能作为判断标准，因为真正的基因并不总是在所有条件下都有 RNA 转录本，这可能受到组织表达差异或发育阶段差异的影响。一般来说，如果某个无内含子的基因预测在同一基因组中存在多外显子旁系同源基因，那么它就值得怀疑，因为这可能提示该序列是通过 retrotransposition（逆转座）产生的。

然而，多外显子预测也可能对应由近期 gene duplication event（基因重复事件）产生的假基因。如果在另一种生物中存在 homologs（同源基因），一种解决办法是计算 synonymous versus non-synonymous substitution rate（同义替换率与非同义替换率之比，Ka/Ks；Fay and Wu 2003）。Ka/Ks 值接近 1 通常提示 neutral evolution（中性进化），从而暗示该序列可能是假基因。对多外显子基因预测的支持证据可以来自对近缘同源基因中整体基因结构保守性的评估。例如，在两个亲缘关系适中的生物（如小鼠和人类）中预测或识别到同源基因，通常提示该基因是真实基因，而不是假基因（Guigó et al. 2003）。

039

Genome Annotation Pipelines

PDF page 161 下部 - PDF page 165 上部；印刷页码 141-145

▶

译文：Ch5 Genome Annotation / Genome Annotation Pipelines

章节：Ch5 Genome Annotation

Canonical 小节：Genome Annotation Pipelines

范围：PDF page 161 下部 - PDF page 165 上部；印刷页码 141-145

---

第五章基因组注释

Genome Annotation Pipelines（基因组注释流水线）

在基因组注释的早期，仅测序一个生物体通常就需要数年时间。研究人员和生物信息学人员会聚集在一起，协作数月甚至数年，完成基因组组装、初始的 ab initio gene predictions（从头基因预测）、手工汇总实验或文献来源的证据、进行比较序列分析，然后将这些数据综合为一个 consensus genome annotation（一致性基因组注释）。这种做法过去常规用于细菌和真核基因组（Lander et al. 2001; Winsor et al. 2005; Riley et al. 2006）。事实上，GENCODE 项目仍在这样做；该项目自 2003 年以来一直在制备并更新人类参考基因组注释（Harrow et al. 2012）。然而，这些工作过去需要、现在也仍然需要大量资源和时间。随着 very high-throughput NGSs（超高通量下一代测序技术）的出现，以及如今能够在几天内常规完成整个基因组测序，基因组注释的这些手工方法已经变得不可持续。现在，大多数基因组注释都通过 automated pipelines（自动化流水线）完成，这些流水线帮助用户综合多种证据和数据，生成一致性基因组注释。

pipeline 工具的选择取决于生物类型（真核生物还是原核生物）、可用计算资源、可用证据（是否有 RNA-seq 数据），以及该生物与已有注释生物之间的相似程度。例如，如果要注释的基因组有一个亲缘关系很近且已经注释过的物种，那么简单的比较分析或序列投射通常就足够了。如果目标生物没有近缘的已注释物种，那么使用 RNA-seq 或实验获得的蛋白质序列数据的 pipeline 会生成更准确的注释。最先进的基因组注释流水线需要调用许多程序并执行复杂分析，因此需要超级计算机级资源，例如大型多核机器或大规模计算集群（可本地维护，也可通过 Cloud 获得）。例如，注释火炬松（loblolly pine）基因组需要 8640 个 central processing units（CPUs）运行 14.6 小时；该基因组包含 220 亿个碱基，是人类基因组的 7 倍（Wegrzyn et al. 2014）。在以下几节中，我们将简要介绍一些常用的原核和真核生物注释流水线。

第五章基因组注释

Prokaryotic Genome Annotation Pipelines（原核基因组注释流水线）

原核生物的注释流水线通常不需要像真核生物注释那样多的计算资源。事实上，大多数细菌基因组无论是在 web server 上还是在台式计算机上，都可以在 30 分钟以内完成注释。不过，近来向 metagenomics（宏基因组学）或 community bacterial genomics（群落细菌基因组学）的转变，正在带来显著更高的计算需求；这一点将在第 16 章中更详细讨论。一些较受欢迎且公开可用的原核基因组注释流水线包括 Prokka（Seemann 2014）、Rapid Annotation using Subsystem Technology（RAST；Overbeek et al. 2014）和 Bacterial Annotation System（BASys；Van Domselaar et al. 2005）。Prokka 是一个开源 Perl 程序，在 UNIX 上以 command-line interface（命令行界面）运行。Prokka 可用于注释已经组装好的细菌、古菌和病毒序列。使用 Prokka 时，一个典型的 400 万碱基对细菌基因组可以在四核计算机上于 10 分钟内完成完整注释。Prokka 还能生成符合标准的输出文件，供后续分析或查看。Prokka 的吸引力在于速度快，并且能够在本地计算机上执行“私有”注释。

与 Prokka 不同，RAST 和 BASys 是基因组注释 web server。Web server 通常更易使用，但不能提供本地安装程序所具有的隐私性。RAST 是一个需要注册的 web server，它接受标准的、已组装的 DNA 序列文件，然后识别 protein-encoding genes（蛋白质编码基因）、rRNA 和 tRNA 基因，为这些基因分配功能，最后利用这些信息重建该生物的 metabolic network（代谢网络）。与 RAST 不同，BASys 是一个开放访问的 web server。BASys 接受来自细菌、古菌和病毒的、已组装的 FASTA 格式 DNA 或蛋白质文件，并执行许多与 RAST 相同的注释功能。不过，BASys 提供的注释深度要大得多（覆盖 50 多种可计算属性），并使用名为 CGView 的程序生成色彩丰富、易于查看的基因组图谱（图 5.9）（Stothard and Wishart 2005）。

图 5.9 BASys 对细菌 Salmonella enterica 进行基因组注释后输出结果的截图。BASys 图像可以交互式放大，从而显示基因组中所有基因的丰富注释信息。

第五章基因组注释

Eukaryotic Genome Annotation Pipelines（真核基因组注释流水线）

鉴于真核基因组的复杂性，其对应的注释流水线必须比原核生物使用的流水线做得更多。具体而言，真核基因组注释流水线不仅需要整合 ab initio gene predictions（从头基因预测）或来自多个来源的多个基因预测结果，还需要整合许多其他类型的证据，包括实验数据。因此，几乎所有现代真核基因组注释流水线都采用一种称为"evidence clustering"（证据聚类）的技术来识别基因区域，然后利用对齐的 RNA（来自 RNA-seq）和蛋白质证据来提高基因预测器的准确性。部分流水线更进一步，使用"combiner" algorithm（组合算法）来选择证据支持度最好的外显子组合。在这方面尤为出色的两个组合程序分别是 JIGSAW（Allen and Salzberg 2005）和 EVidence Modeler，即 EVM（Haas et al. 2008）。这些程序根据已知的错误特征和各种用户输入来评估不同类型的证据，然后选择最佳的外显子组合以使误差最小化。具体而言，EVM 将对齐的蛋白质和 RNA 转录本证据与从头预测整合为加权 consensus gene models（一致性基因模型），而 JIGSAW 则使用非线性模型或加权线性组合器来选择单一最佳一致性基因模型。

在最为广泛使用的真核基因组注释流水线中（它们都使用某种组合算法）包括 MAKER2（Holt and Yandell 2010）、Ensembl（Fernández-Suárez and Schuster 2010）、美国国家生物技术信息中心（NCBI）真核注释流水线（Thibaud-Nissen et al. 2016）、PASA（Haas et al. 2008）和 BRAKER1（Hoff et al. 2016）。MAKER2 注释流水线是一个高度可并行化的独立程序，使用 BLAST 来对齐和优化蛋白质序列及转录组（RNA-seq）数据；它还向各种基因预测器提供基于证据的提示，并为每个注释创建带有各种质量指标 evidence trail（证据链）。MAKER2 的一些质量指标包括：RNA-seq 证据确认的剪接位点数量、RNA-seq 数据确认的外显子数量，以及 5' 和 3' UTR 的长度。MAKER2 还使用一种称为 Annotation Edit Distance（AED，注释编辑距离）的质量指标（Eilbeck et al. 2009）。AED 值介于 0 和 1 之间，质量越高的注释对应的 AED 值越低。MAKER2 利用这些 AED 值来选择最佳基因预测结果，并以此构建最终注释。与 MAKER2 流水线类似，Ensembl 基因组注释流水线也是从对齐和优化的蛋白质序列及 RNA-seq 衍生的转录组数据来构建基因模型。注释过程完成后，Ensembl 会合并相同的转录本，并为每个基因报告一套非冗余的转录本。MAKER2 和 Ensembl 都利用蛋白质和 RNA-seq 比对结果向其内部基因预测器提供内含子/外显子边界提示。这有助于生成能更好代表比对证据的基因模型。这种方法也有助于提高对训练不足（或不充分训练）的基因寻找器的基因预测准确性。与 Ensembl 和 MAKER2 流水线类似，NCBI 注释流水线也对齐和优化蛋白质及转录组数据。它还使用 Gnomon 基因寻找程序来生成基因预测（Souvorov et al. 2010）。NCBI 系统通常会给人工审查证据分配比计算衍生模型或计算生成证据更高的权重。PASA 基因组注释流水线是最古老的注释流水线之一，也是最早使用组合算法或证据聚类算法（EVM）的工具之一。PASA 使用 BLAT（Kent 2002）或 GMAP（Wu et al. 2016）将 RNA 转录本比对到参考基因组。PASA 能够基于 RNA 转录组数据、已有基因模型或从头基因预测来生成注释。PASA 与 MAKER2 和 Ensembl 注释流水线一样，能够通过 RNA-seq 数据向基因组注释添加 UTR，以进一步提高准确性。在公开可用的真核基因组注释流水线中，最新加入的之一是 BRAKER 程序套件（Hoff et al. 2016）。BRAKER1（以及更新的 BRAKER2）将 GeneMark-ET 与 AUGUSTUS 的优势相结合——这两者都利用 RNA-seq 数据来提高基因注释准确性。在 BRAKER 流水线中，首先使用 GeneMark-ET 进行训练并生成初始基因结构，然后 AUGUSTUS 利用最初预测的基因进行进一步训练，并将 RNA-seq 数据整合到最终基因预测中。研究表明，就基因和外显子的敏感性/特异性而言，BRAKER1 比 MAKER2 准确率高 10–20%。

即便外显子准确率达到 >90%（这甚至连最好的真核基因组注释流水线也罕能达到），一个基因组中的大多数基因仍至少会有一个注释错误的外显子。错误识别的基因或错误的基因注释会对设计实验研究基因功能的实验人员产生非常严重的后果。事实上，许多失败的分子生物学或基因克隆实验都可以追溯到错误的基因注释。此外，错误的注释会传播，导致影响许多其他科学家的连锁错误。当一个错误的注释被无辜地传递给另一个基因组项目，然后被用作更多基因组注释工作的证据，最终进入公共数据库时，就会发生这种情况。为了帮助防止这些错误或减少其影响程度，大多数注释流水线都会为每个基因注释附带某种质量指标。这些指标大多基于一个分数，该分数衡量给定基因注释与对齐的 RNA/蛋白质序列的一致性程度，或基于该基因与近缘物种的同源性和共线性。一些流水线使用简单的星级评分（从零星到五星）。零星对应于没有任何外显子被比对证据支持的注释，而五星则对应于每个外显子都得到支持且每个剪接位点都由单个全长 cDNA 确认的情况。其他流水线使用更复杂的指标，如上述的 AED 分数。蛋白质家族结构域也可以作为注释质量和注释完整性的良好指标。可以肯定的是，包含可识别蛋白质结构域的注释比不包含的注释更可能编码有功能的蛋白质。结构域匹配已被用于拯救大量基因注释——这些注释原本因序列比对质量差而得到了“不合格”的质量分数。Ensembl 和 MAKER2 都将含有蛋白质家族结构域的注释比例作为质量度量指标。有趣的是，这一比例（0.69）在各基因组中相当恒定；给定基因组越接近这一比例，人们对其质量就越有信心。除了结构域匹配比例外，BUSCO 基因的存在与否也可用于提供基因组注释完整性的度量（Simão et al. 2015）。确保高质量注释的另一个极好途径是通过人工检查以及使用基因组可视化和编辑软件。这将在下文中详细讨论。

第五章基因组注释

Visualization and Quality Control（可视化与质量控制）

尽管 automated 或 semi-automated 的基因组注释流水线已经成为常态，但在基因组注释及其质量评估中，仍然需要人的参与。由一位知识扎实的生物学家或某种“domain expert”（领域专家）仔细审视一套基因组注释，对于确保这些注释在逻辑上讲得通至关重要。这样的人工审查过程也使人们能够发现并纠正可疑注释，或补全缺失注释。然而，要执行这些人工审查或人工审查任务，就必须能够对注释进行可视化并进行交互式编辑。最知名的两个 genome browser 无疑是 University of California Santa Cruz Genome Browser（Casper et al. 2018）和 Ensembl Genome Browser（Fernández-Suárez and Schuster 2010）；这两者在第 4 章中都已经做过详细介绍。虽然这些工具非常适合用来可视化基因组注释，但也有不少其他工具同时支持基因组注释的可视化与编辑，包括 Web Apollo（Lee et al. 2013）、GenomeView（Abeel et al. 2012）和 Artemis（Carver et al. 2012）。

Web Apollo 既是可视化工具，也是基因组编辑器。更具体地说，它是 JBrowse（Westesson et al. 2013）的一个基于 Web 的 plug-in，能够提供用户创建且可编辑的注释轨道。Web Apollo 中的所有编辑都会实时对注释团队的所有成员可见。这一特性在开展 community annotation project（社区注释项目）或在某个特定基因组分析中有许多研究人员参与时尤其有帮助。GenomeView 是一个开源、独立运行的基因组查看器和编辑器，允许用户动态浏览大量已对齐的 short-read 数据。它支持从 whole genome level（全基因组层面）到 single nucleotide level（单核苷酸层面）的动态导航和 semantic zooming（语义缩放）。GenomeView 尤其以能够可视化相对于参考序列的数十个基因组的全基因组比对而著称。它还支持 synteny（共线性）和 multi-alignment data（多重比对数据）的可视化。Artemis 是一个 genome browser 和注释工具，允许用户轻松地可视化、浏览并解释大型 NGS 数据集。它支持多种序列读段视图和变异显示，以及一整套读段比对视图和读段比对过滤器。它还能够同时向用户展示同一数据集的多个不同视图。Artemis 可以读取 EMBL 和 GENBANK 数据库条目、FASTA 序列格式（索引版或原始版），以及 EMBL 和 GENBANK 格式中的其他特征信息。

在审查一个已注释基因组时（无论它来自原核生物还是真核生物），随机选择一个特定区域，并使用所选的可视化/编辑工具，将注释与所提供的证据结合起来仔细分析，始终是有用的。这些证据可能包括 ab initio 预测得到的基因、剪接后的 RNA-seq 比对结果，或任何同源蛋白质比对结果。在浏览所选区域时，人们可能会注意到某些基因或基因簇似乎与展示出来的证据相矛盾。例如，RNA-seq 数据可能支持额外的或不同的剪接形式。或者，某些跨物种蛋白质可能会映射到此前没有预测到基因的基因组区域。可视化检查还可以揭示注释流程中的某些系统性问题，例如倾向于漏掉在数据库中已有已知同源物的基因，或者出现与许多蛋白质编码基因重叠或将其遮蔽的重复序列。这些问题可以通过修改基因组注释流水线中的参数设置、手动进行必要编辑，或改用其他工具来解决。为了完成一套完整而彻底的基因组注释，通常需要经历多轮、迭代式的人工审查与人工编辑，然后再接 automated pipeline annotation（自动化流水线注释）。

040

Summary + Acknowledgments + Internet Resources + Further Reading + References

PDF page 165 下部 - PDF page 174；印刷页码 145-154

▶

译文：Ch5 Genome Annotation / Summary + Acknowledgments + Internet Resources + Further Reading + References

章节：Ch5 Genome Annotation

Canonical 小节：Summary + Acknowledgments + Internet Resources + Further Reading + References

范围：PDF page 165 下部 - PDF page 174；印刷页码 145-154

---

第五章基因组注释

Summary（小结）

在过去二十年中，基因组注释已经发生了显著演变。这些变化一方面源于计算技术（用于基因预测）的显著改进，另一方面也源于来自越来越多不同物种的已知和已注释基因组数量的大幅增加。改进后的基因预测工具，加上显著扩展且注释良好的基因、蛋白质和基因组数据库，已经推动基因组注释从单纯的 gene prediction（基因预测）转向一种更加 integrated、holistic（整合性、整体性）的方法：这种方法结合多条证据线索来定位、识别并在功能上注释基因。当这些证据再与 RNA-seq 数据或蛋白质序列数据（来自结构蛋白质组学或基于表达的蛋白质组学）等实验数据结合时，就有可能获得非常准确且相当完整的注释。这种对证据的综合融合，是许多新近开发的 semi-automated 或 automated genome annotation pipelines（半自动化或自动化基因组注释流水线），以及许多较新的 genome browsers 和 editors 的基础。

然而，并非所有基因组注释工作都能产生同等数量或同等质量的信息。可以肯定的是，原核基因组注释比真核基因组注释更快、更容易，也准确得多。事实上，原核基因组注释的挑战基本上已经是一个“已解决的问题”，而真核基因组注释的挑战则必须被视为一个“仍在推进中的工作”。

致谢

作者感谢 Andy Baxevanis 和 Roderic Guigó 提供有益评论，并感谢他们允许使用本书前几版中的相关材料。

网络资源

Ab Initio 原核基因预测器

EasyGene（server）：www.cbs.dtu.dk/services/EasyGene
GeneMark.hmm（server）：opal.biology.gatech.edu/GeneMark/gmhmmp.cgi
GeneMarkS（server）：opal.biology.gatech.edu/GeneMark/genemarks.cgi
GLIMMER（program）：www.cs.jhu.edu/~genomics/Glimmer
Prodigal（program）：github.com/hyattpd/Prodigal

Ab Initio 真核基因预测器

-%20GeneID%EF%BC%88server%EF%BC%89%EF%BC%9Agenome.crg.es/geneid.html

GeneMark-ES（program）：opal.biology.gatech.edu/GeneMark
GeneZilla（program）：www.genezilla.org

-%20GenomeScan%EF%BC%88server%EF%BC%89%EF%BC%9Ahollywood.mit.edu/genomescan.html

-%20GENSCAN%EF%BC%88server%EF%BC%89%EF%BC%9Ahollywood.mit.edu/GENSCAN.html

HMMgene（server）：www.cbs.dtu.dk/services/HMMgene

-%20SNAP%EF%BC%88program%EF%BC%89%EF%BC%9Akorflab.ucdavis.edu/software.html

Hybrid / Extrinsic 真核基因查找器

AUGUSTUS（server）：bioinf.uni-greifswald.de/augustus
AUGUSTUS-PPX（program）：bioinf.uni-greifswald.de/augustus
CONTRAST（program）：contra.stanford.edu/contrast
GeneID（server）：genome.crg.es/software/geneid
GeneWise（server）：www.ebi.ac.uk/Tools/psa/genewise
GenomeThreader（program）：genomethreader.org
GSNAP（program）：research-pub.gene.com/gmap
mGENE（program）：www.mgene.org
Mugsy-Annotator（program）：mugsy.sourceforge.net
SGP-2（program）：genome.crg.es/software/sgp2
STAR（program）：code.google.com/archive/p/rna-star
Transomics（program）：linux1.softberry.com/berry.phtml?topic=transomics

tRNA 和 rRNA 查找工具

Rfam（server）：rfam.xfam.org
RNAmmer（server）：www.cbs.dtu.dk/services/RNAmmer

-%20RNAMotif%EF%BC%88program%EF%BC%89%EF%BC%9Acasegroup.rutgers.edu/casegr-sh-2.5.html

tRNAdb（server）：trnadb.bioinf.uni-leipzig.de/DataOutput/Welcome
tRNADB-CE（server）：trna.ie.niigata-u.ac.jp/cgi-bin/trnadb/index.cgi
tRNAfinder（server）：ei4web.yz.yamagata-u.ac.jp/~kinouchi/tRNAfinder
tRNAscan-SE（server）：lowelab.ucsc.edu/tRNAscan-SE

噬菌体查找工具

Phage_Finder（program）：phage-finder.sourceforge.net
PHAST（server）：phast.wishartlab.com
PHASTER（server）：phaster.ca

重复序列查找 / 遮蔽工具

Dfam（server）：www.dfam.org
LTR_FINDER（server）：tlife.fudan.edu.cn/tlife/ltr_finder

-%20LTRharvest%EF%BC%88program%EF%BC%89%EF%BC%9Agenometools.org/index.html

-%20MITE-Hunter%EF%BC%88program%EF%BC%89%EF%BC%9Atarget.iplantcollaborative.org/mite_hunter.html

Repbase（server）：www.girinst.org/repbase
RepeatMasker（program）：www.repeatmasker.org
RepeatScout（program）：bix.ucsd.edu/repeatscout

-%20RetroPred%EF%BC%88program%EF%BC%89%EF%BC%9Awww.juit.ac.in/attachments/RetroPred/home.html

原核基因组注释流水线

BASys（server）：www.basys.ca
Prokka（program）：www.vicbioinformatics.com/software.prokka.shtml
RAST（server/program）：rast.nmpdr.org

真核基因组注释流水线

BRAKER1（program）：bioinf.uni-greifswald.de/bioinf/braker
EVM（program）：evidencemodeler.github.io
JIGSAW（program）：www.cbcb.umd.edu/software/jigsaw

-%20MAKER2%EF%BC%88program%EF%BC%89%EF%BC%9Awww.yandell-lab.org/software/maker.html

PASA（program）：github.com/PASApipeline/PASApipeline/wiki

基因组浏览器和 / 或编辑器

Artemis（program）：www.sanger.ac.uk/science/tools/artemis

-%20Ensembl%EF%BC%88program%EF%BC%89%EF%BC%9Auswest.ensembl.org/downloads.html

GenomeView（program）：genomeview.org
JBrowse（program）：jbrowse.org

-%20UCSC%20Genome%20Browser%EF%BC%9Ahgdownload.cse.ucsc.edu/downloads.html

Web Apollo（program）：genomearchitect.github.io

延伸阅读

Hoff, K.J. and Stanke, M. (2015). Current methods for automated annotation of protein-coding genes. Curr. Opin. Insect Sci. 7, 8–14.

一篇写得很好且内容较新的综述，总结了基因组注释领域的一些最新进展，并就应使用哪些注释工具提供了非常实用的建议。

Nielsen, P. and Krogh, A. (2005). Large-scale prokaryotic gene prediction and comparison to genome annotation. Bioinformatics. 21, 4322–4329.

一篇非常易读的文章，评估了原核基因预测和基因组注释。

Yandell, M. and Ence, D. (2012). A beginner’s guide to eukaryotic genome annotation. Nat. Rev. Genet. 13, 329–342.

一篇优秀、易读的入门文章，介绍真核基因组注释涉及的流程，并对可用计算工具和最佳实践作了有用说明。

Yoon, B. (2009). Hidden Markov models and their applications in biological sequence analysis. Curr. Genomics 10, 402–415.

一篇关于 HMM 的综合教程，提供了许多有用示例，并解释不同 HMM 如何构建，以及如何用于基因预测和基因序列分析。

参考文献

> 以下参考文献题录按原文保留，不翻译。

References
Abe,T.,Inokuchi,H.,Yamada,Y.etal.(2014).tRNADB-CE:tRNAgenedatabasewell-timedin
theeraofbigsequencedata. Front.Genet. 5:114.
Abeel,T.,VanParys,T.,Saeys,Y.etal.(2012).GenomeView:anext-generationgenomebrowser.
NucleicAcidsRes. 40(2):e12.
Alexandersson,M.,Cawley,S.,andPatcher,L.(2003).SLAM:cross-speciesgenefindingand
alignmentwithageneralizedpairhiddenMarkovmodel. GenomeRes. 13:496–502.
Allen,J.E.andSalzberg,S.L.(2005).JIGSAW:integrationofmultiplesourcesofevidenceforgene
prediction.Bioinformatics21:3596–3603.
Allen,J.E.,Majoros,W.H.,Pertea,M.,andSalzberg,S.L.(2006).JIGSAW,GeneZilla,and
GlimmerHMM:puzzlingoutthefeaturesofhumangenesintheENCODEregions. Genome
Biol.7(Suppl1,S9):1–13.
Angiuoli,S.V.,DunningHotopp,J.C.,Salzberg,S.L.,andTettelin,H.(2011).Improving
pan-genomeannotationusingwholegenomemultiplealignment. BMCBioinf 12:272.
Arndt,D.,Grant,J.R.,Marcu,A.etal.(2016).PHASTER:abetter,fasterversionofthePHAST
phagesearchtool. NucleicAcidsRes. 44(W1):W16–W21.
Bao,Z.andEddy,S.R.(2002).Automateddenovoidentificationofrepeatsequencefamiliesin
sequencedgenomes. GenomeRes. 12:1269–1276.
Bellman,R.E.(1957). DynamicProgramming.Princeton:PrincetonUniversityPress.
Besemer,J.andBorodovsky,M.(2005).GeneMark:websoftwareforgenefindinginprokaryotes,
eukaryotesandviruses. NucleicAcidsRes. 33(WebServer):W451–W454.
Besemer,J.,Lomsadze,A.,andBorodovsky,M.(2001).GeneMarkS:aself-trainingmethodfor
predictionofgenestartsinmicrobialgenomes.Implicationsforfindingsequencemotifsin
regulatoryregions. NucleicAcidsRes. 29:2607–2618.
Birney,E.andDurbin,R.(1997).Dynamite:aflexiblecodegeneratinglanguagefordynamic
programmingmethodsusedinsequencecomparison.In: ProceedingsoftheFifthInternational
ConferenceonIntelligentSystemsforMolecularBiology,Halkidiki,Greece(21–26June1997) ,vol.
5,56–64.MenloPark,CA:AAAIPress.
Birney,E.,Clamp,M.,andDurbin,R.(2004).GeneWiseandGenomewise. GenomeRes. 14:
988–995.
Blanco,E.,Parra,G.,andGuigó,R.(2002).Usinggeneidtoidentifygenes.In: CurrentProtocolsin
Bioinformatics,vol.1,unit4.3.NewYork:Wiley.

===== PDF page 169 =====

References 149
Blattner,F.R.,Plunkett,G.3rd,,Bloch,C.A.etal.(1997).Thecompletegenomesequenceof
Escherichiacoli K-12.Science277:1453–1462.
Bobay,L.-M.,Touchon,M.,andRocha,E.P.C.(2014).Pervasivedomesticationofdefective
prophagesbybacteria. Proc.NatlAcad.Sci.USA. 111:12127–12132.
Borodovsky,M.andLomsadze,A.(2011).Geneidentificationinprokaryoticgenomes,phages,
metagenomes,andESTsequenceswithGeneMarkSsuite. Curr.Protoc.Bioinformatics .Chapter
4,Unit4.5.1–17.
Borodovsky,M.andMcIninch,J.(1993).GeneMark:parallelgenerecognitionforbothDNA
strands.Comput.Chem. 17:123–133.
Borodovsky,M.,Rudd,K.E.,andKoonin,E.V.(1994).Intrinsicandextrinsicapproachesfor
detectinggenesinabacterialgenome. NucleicAcidsRes. 22:4756–4767.
Bose,M.andBarber,R.D.(2006).ProphageFinder:aprophagelocipredictiontoolforprokaryotic
genomesequences. InSilicoBiol.(Gedrukt) 6:223–227.
Burge,C.andKarlin,S.(1997).PredictionofcompletegenestructuresinhumangenomicDNA. J.
Mol.Biol. 268:78–94.
Burset,M.andGuigó,R.(1996).Evaluationofgenestructurepredictionprograms. Genomics.34:
353–357.
Carver,T.,Harris,S.R.,Berriman,M.etal.(2012).Artemis:anintegratedplatformforvisualization
andanalysisofhigh-throughputsequence-basedexperimentaldata. Bioinformatics28:464–469.
Casjens,S.(2003).Prophagesandbacterialgenomics:whathavewelearnedsofar? Mol.Microbiol.
49:277–300.
Casper,J.,Zweig,A.S.,Villarreal,C.etal.(2018).TheUCSCGenomeBrowserdatabase:2018
update.NucleicAcidsRes. 46(D1):D762–D769.
Coghlan,A.,Fiedler,T.J.,McKay,S.J.etal.,andnGASPConsortium.(2008).nGASP–the
nematodegenomeannotationassessmentproject. BMCBioinf 9:549.
Cordaux,R.andBatzer,M.A.(2009).Theimpactofretrotransposonsonhumangenome
evolution.Nat.Rev.Genet. 10:691–703.
Delcher,A.L.,Harmon,D.,Kasif,S.etal.(1999).Improvedmicrobialgeneidentificationwith
GLIMMER.NucleicAcidsRes. 27:4636–4641.
Delcher,A.L.,Bratke,K.A.,Powers,E.C.,andSalzberg,S.L.(2007).Identifyingbacterialgenesand
endosymbiontDNAwithGlimmer. Bioinformatics23:673–679.
Dobin,A.,Davis,C.A.,Schlesinger,F.etal.(2013).STAR:ultrafastuniversalRNA-seqaligner.
Bioinformatics29:15–21.
Dunham,I.,Shimizu,N.,Roe,B.A.etal.(1999).TheDNAsequenceofhumanchromosome22.
Nature402:489–495.
Eddy,S.R.(2009).Anewgenerationofhomologysearchtoolsbasedonprobabilisticinference.
GenomeInform. 23:205–211.
Eilbeck,K.,Moore,B.,Holt,C.,andYandell,M.(2009).Quantitativemeasuresforthe
managementandcomparisonofannotatedgenomes. BMCBioinf 10:67.
Ellinghaus,D.,Kurtz,S.,andWillhoeft,U.(2008).LTRharvest,anefficientandflexiblesoftware
fordenovodetectionofLTRretrotransposons. BMCBioinf 9:18.
Ezkurdia,I.,Juan,D.,Rodriguez,J.M.etal.(2014).Multipleevidencestrandssuggestthatthere
maybeasfewas19,000humanprotein-codinggenes. Hum.Mol.Genet. 23:5866–5878.
Fay,J.C.andWu,C.(2003).Sequencedivergence,functionalconstraint,andselectioninprotein
evolution.Annu.Rev.GenomicsHum.Genet. 4:213–235.
Fernández-Suárez,X.M.andSchuster,M.K.(2010).Usingtheensemblgenomeservertobrowse
genomicsequencedata. Curr.Protoc.Bioinformatics .Chapter1,Unit1.15.
Fickett,J.W.andTung,C.S.(1992).Anassessmentofproteincodingmeasures. NucleicAcidsRes.
20:6441–6450.
Fouts,D.E.(2006).Phage_Finder:automatedidentificationandclassificationofprophageregions
incompletebacterialgenomesequences. NucleicAcidsRes. 34:5839–5851.
Gelfand,M.S.(1995).PredictionoffunctioninDNAsequenceanalysis. J.Comput.Biol. 2:87–117.

===== PDF page 170 =====

150 Genome Annotation
Gelfand,M.S.andRoytberg,M.A.(1993).Predictionoftheexon-intronstructurebyadynamic
programmingapproach. Biosystems.30:173–182.
Gelfand,M.S.,Mironov,A.A.,andPevner,P.A.(1996).Generecognitionviasplicedsequence
alignment.Proc.Natl.Acad.Sci.USA. 93:9061–9066.
Gish,W.andStates,D.(1993).Identificationofproteincodingregionsbydatabasesimilarity
search.Nat.Genet. 3:266–272.
Grabherr,M.G.,Haas,B.J.,Yassour,M.etal.(2011).Full-lengthtranscriptomeassemblyfrom
RNA-seqdatawithoutareferencegenome. Nat.Biotechnol. 29:644–652.
Gremme,G.,Brendel,V.,Sparks,M.E.,andKurtz,S.(2005).Engineeringasoftwaretoolforgene
structurepredictioninhigherorganisms. Inf.SoftwareTechnol. 47:965–978.
Gross,S.S.andBrent,M.R.(2006).Usingmultiplealignmentstoimprovegeneprediction. J.
Comput.Biol. 13:379–393.
Gross,S.S.,Do,C.B.,Sirota,M.,andBatzoglou,S.(2007).CONTRAST:adiscriminative,
phylogeny-freeapproachtomultipleinformantdenovogeneprediction. GenomeBiol. 8:R269.
Guigó,R.(1999).DNAcomposition,codonusageandexonprediction.In: GeneticDatabases (ed.
M.Bishop)),53–80.Cambridge,MA:AcademicPress.
Guigó,R.andReese,M.G.(2005).EGASP:collaborationthroughcompetitiontofindhuman
genes.Nat.Methods 2:575–577.
Guigó,R.,Dermitzakis,E.T.,Agarwal,P.etal.(2003).Comparisonofmouseandhumangenomes
followedbyexperimentalverificationyieldsanestimated1,019additionalgenes. Proc.Natl.
Acad.Sci.USA. 100:1140–1145.
Guigó,R.,Flicek,P.,Abril,J.F.etal.(2006).EGASP:thehumanENCODEgenomeannotation
assessmentproject. GenomeBiol. 7(Suppl1):S2.1–S2.31.
Haas,B.J.,Salzberg,S.L.,Zhu,W.etal.(2008).Automatedeukaryoticgenestructureannotation
usingEVidenceModelerandtheprogramtoassemblesplicedalignments. GenomeBiol. 9:R7.
Han,Y.andWessler,S.R.(2010).MITE-Hunter:aprogramfordiscoveringminiature
inverted-repeattransposableelementsfromgenomicsequences. NucleicAcidsRes. 38:e199.
Harrow,J.,Frankish,A.,Gonzalez,J.M.etal.(2012).GENCODE:thereferencehumangenome
annotationforTheENCODEProject. GenomeRes. 22:1760–1774.
Häsler,J.andStrub,K.(2006).Aluelementsasregulatorsofgeneexpression. NucleicAcidsRes.
34:5491–5497.
Hoff,K.J.andStanke,M.(2013).WebAUGUSTUS–awebservicefortrainingAUGUSTUSand
predictinggenesineukaryotes. NucleicAcidsRes. 41(WebServerissue):W123–W128.
Hoff,K.J.,Lange,S.,Lomsadze,A.etal.(2016).BRAKER1:unsupervisedRNA-seq-basedgenome
annotationwithGeneMark-ETandAUGUSTUS. Bioinformatics32:767–769.
Holt,C.andYandell,M.(2010).MAKER2:anannotationpipelineandgenome-database
managementtoolforsecond-generationgenomeprojects. BMCBioinf 12:491.
Hou,Y.andLin,S.(2009).Distinctgenenumber–genomesizerelationshipsforeukaryotesand
non-eukaryotes:genecontentestimationfordinoflagellategenomes. PLoSOne 4(9):e6978.
Hyatt,D.,Chen,G.L.,Locascio,P.F.etal.(2010).Prodigal:prokaryoticgenerecognitionand
translationinitiationsiteidentification. BMCBioinf 11:119.
Jühling,F.,Mörl,M.,Hartmann,R.K.etal.(2009).tRNAdb2009:compilationoftRNAsequences
andtRNAgenes. NucleicAcidsRes. 37(Databaseissue):D159–D162.
Jurka,J.,Kapitonov,V.V.,Pavlicek,A.etal.(2005).Repbaseupdate,adatabaseofeukaryotic
repetitiveelements. Cytogenet.GenomeRes. 110(1–4):462–467.
Kalvari,I.,Argasinska,J.,Quinones-Olvera,N.etal.(2018).Rfam13.0:shiftingtoa
genome-centricresourcefornon-codingRNAfamilies. NucleicAcidsRes. 46(D1):
D335–D342.
Keller,O.,Kollmar,M.,Stanke,M.,andWaack,S.(2011).Anovelhybridgenepredictionmethod
employingproteinmultiplesequencealignments. Bioinformatics27:757–763.
Kent,W.J.(2002).BLAT–theBLAST-likealignmenttool. GenomeRes. 12:656–664.
Kim,D.,Pertea,G.,Trapnell,C.etal.(2013).TopHat2:accuratealignmentoftranscriptomesinthe
presenceofinsertions,deletionsandgenefusions. GenomeBiol. 14:R36.

===== PDF page 171 =====

References 151
Kinouchi,M.andKuoakawa,K.(2006).tRNAfinder:asoftwaresystemtofindalltRNAgenesin
theDNAsequencebasedonthecloverleafsecondarystructure. J.Comput.AidedChem. 7:
116–126.
König,S.,Romoth,L.W.,Gerischer,L.,andStanke,M.(2016).Simultaneousgenefindingin
multiplegenomes. Bioinformatics32:3388–3395.
Korf,I.,Flicek,P.,Duan,D.,andBrent,M.R.(2001).Integratinggenomichomologyintogene
structureprediction. Bioinformatics.17:S140–S148.
Kozak,M.(1987).Ananalysisof5 ′-noncodingsequencesfrom699vertebratemessengerRNAs.
NucleicAcidsRes. 15:8125–8148.
Krogh,A.(1997).TwomethodsforimprovingperformanceofaHMMandtheirapplicationfor
genefinding.In: ProceedingsoftheFifthInternationalConferenceonIntelligentSystemsfor
MolecularBiology,Halkidiki,Greece(21–26June1997) ,vol.5,179–186.MenloPark,CA:AAAI
Press.
Krogh,A.,Mian,I.S.,andHaussler,D.(1994).AhiddenMarkovmodelthatfindsgenesin E.coli
DNA.NucleicAcidsRes. 22:4768–4678.
Kulp,D.,Haussler,D.,Reese,M.G.,andEeckman,F.H.(1996).AgeneralizedhiddenMarkov
modelfortherecognitionofhumangenesinDNA.In: ProceedingsoftheFourthInternational
ConferenceonIntelligentSystemsforMolecularBiology ,vol.4,134–142,June12-15,1996,St.
Louis,MO.USA,AAAIPress,MenloPark,California.
Lagesen,K.,Hallin,P.,Rødland,E.A.etal.(2007).RNAmmer:consistentandrapidannotationof
ribosomalRNAgenes. NucleicAcidsRes. 35:3100–3108.
Lander,E.S.,Linton,L.M.,Birren,B.etal.(2001).Initialsequencingandanalysisofthehuman
genome.Nature409:860–921.
Larsen,T.S.andKrogh,A.(2003).EasyGene–aprokaryoticgenefinderthatranksORFsby
statisticalsignificance. BMCBioinf 4:21.
Lee,E.,Helt,G.A.,Reese,J.T.etal.(2013).WebApollo:aweb-basedgenomicannotationediting
platform.GenomeBiol. 14:R93.
Li,W.,Zhang,P.,Fellers,J.P.etal.(2004).Sequencecomposition,organization,andevolutionof
thecoreTriticeaegenome. PlantJ. 40:500–511.
Lifton,R.P.,Goldberg,M.L.,Karp,R.W.,andHogness,D.S.(1978).Theorganizationofthehistone
genesin Drosophilamelanogaster:functionalandevolutionaryimplications. ColdSpring
HarborSymp.Quant.Biol. 42:1047–1051.
Little,J.W.(2005).Lysogeny,prophageinduction,andlysogenicconversion.In: Phages:TheirRole
inBacterialPathogenesisandBiotechnology (eds.M.K.Waldor,D.I.FriedmanandS.L.Adhya),
37–54.Washington,DC:ASMPress.
Lowe,T.M.andEddy,S.R.(1997).tRNAscan-SE:aprogramforimproveddetectionoftransfer
RNAgenesingenomicsequence. NucleicAcidsRes. 25:955–964.
Lukashin,A.V.andBorodovsky,M.(1998).GeneMark.hmm:newsolutionsforgenefinding.
NucleicAcidsRes. 26:1107–1115.
Lunter,G.andGoodson,M.(2011).Stampy:astatisticalalgorithmforsensitiveandfastmapping
ofIlluminasequencereads. GenomeRes. 21:936–939.
Macke,T.J.,Ecker,D.J.,Gutell,R.R.etal.(2001).RNAMotif,anRNAsecondarystructure
definitionandsearchalgorithm. NucleicAcidsRes. 29:4724–4735.
Meyer,I.M.andDurbin,R.(2002).Comparativeabinitiopredictionofgenestructuresusingpair
HMMs.Bioinformatics18:1309–1318.
Naik,P.K.,Mittal,V.K.,andGupta,S.(2008).RetroPred:atoolforprediction,classificationand
extractionofnon-LTRretrotransposons(LINEs&SINEs)fromthegenomebyintegrating
PALS,PILER,MEMEandANN. Bioinformation2:263–270.
Overbeek,R.,Olson,R.,Pusch,G.D.etal.(2014).TheSEEDandtherapidannotationofmicrobial
genomesusingsubsystemstechnology(RAST). NucleicAcidsRes. 42(Databaseissue):
D206–D214.
Parra,G.,Agarwal,P.,Abril,J.F.etal.(2003).Comparativegenepredictioninhumanandmouse.
GenomeRes. 13:108–117.

===== PDF page 172 =====

152 Genome Annotation
Pennisi,E.(2003).Bioinformatics.Genecountersstruggletogettherightanswer. Science.301:
1040–1041.
Pertea,M.,Pertea,G.M.,Antonescu,C.M.etal.(2015).StringTieenablesimprovedreconstruction
ofatranscriptomefromRNA-seqreads. Nat.Biotechnol. 33:290–295.
Pribnow,D.(1975).NucleotidesequenceofanRNApolymerasebindingsiteatanearlyT7
promoter.Proc.Natl.Acad.Sci.USA. 72:784–788.
Price,A.L.,Jones,N.C.,andPevzner,P.A.(2005).Denovoidentificationofrepeatfamiliesinlarge
genomes.Bioinformatics21(Suppl1):i351–i358.
Riley,M.,Abe,T.,Arnaud,M.B.etal.(2006). Escherichiacoli K-12:acooperativelydeveloped
annotationsnapshot–2005. NucleicAcidsRes. 34:1–9.
Rogic,S.,Mackworth,A.K.,andOuellette,F.B.F.(2001).Evaluationofgene-findingprogramson
mammaliansequences. GenomeRes. 11:817–832.
Sakharkar,M.,Passetti,F.,deSouza,J.E.etal.(2002).ExInt:anexonintrondatabase. Nucleic
AcidsRes. 30:191–194.
Sallet,E.,Gouzy,J.,andSchiex,T.(2014).EuGene-PP:anext-generationautomatedannotation
pipelineforprokaryoticgenomes. Bioinformatics30:2659–2661.
Schweikert,G.,Behr,J.,Zien,A.etal.(2009).mGene.web:awebserviceforaccurate
computationalgenefinding. NucleicAcidsRes. 37(WebServerissue):W312–W316.
Seemann,T.(2014).Prokka:rapidprokaryoticgenomeannotation. Bioinformatics30:2068–2069.
Shine,J.andDalgarno,L.(1975).Determinantofcistronspecificityinbacterialribosomes. Nature
254:34–38.
Simão,F.A.,Waterhouse,R.M.,Ioannidis,P.etal.(2015).BUSCO:assessinggenomeassemblyand
annotationcompletenesswithsingle-copyorthologs. Bioinformatics.31:3210–3212.
Slater,G.S.andBirney,E.(2005).Automatedgenerationofheuristicsforbiologicalsequence
comparison.BMCBioinf 6:31.
Slupska,M.M.,King,A.G.,Fitz-Gibbon,S.etal.(2001).Leaderlesstranscriptsofthecrenarchaeal
hyperthermophilePyrobaculumaerophilum. J.Mol.Biol. 309:347–360.
Souvorov,A.,Kapustin,Y.,Kiryutin,B.etal.(2010).Gnomon–NCBIeukaryoticgeneprediction
tool.NatlCent.Biotechnol.Inf. 2010:1–24.
Sperisen,P.,Iseli,C.,Pagni,M.etal.(2004).Trome,trESTandtrGEN:databasesofpredicted
proteinsequences. NucleicAcidsRes. 32(Databaseissue):D509–D511.
Steijger,T.,Abril,J.F.,Engström,P.G.etal.,andRGASPConsortium(2013).Assessmentof
transcriptreconstructionmethodsforRNA-seq. Nat.Methods 10:1177–1184.
Stothard,P.andWishart,D.S.(2005).Circulargenomevisualizationandexplorationusing
CGView.Bioinformatics21:537–539.
Subramanian,S.,Mishra,R.K.,andSingh,L.(2003).Genome-wideanalysisofmicrosatellite
repeatsinhumans:theirabundanceanddensityinspecificgenomicregions. GenomeBiol. 4:
R13.
Tarailo-Graovac,M.andChen,N.(2009).UsingRepeatMaskertoidentifyrepetitiveelementsin
genomicsequences. Curr.ProtocBioinformatics .Chapter4,Unit4.10.
Taruscio,D.andMantovani,A.(2004).Factorsregulatingendogenousretroviralsequencesin
humanandmouse. Cytogenet.GenomeRes. 105:351–362.
Thibaud-Nissen,F.,DiCuccio,M.,Hlavina,W.etal.(2016).TheNCBIeukaryoticgenome
annotationpipeline. J.Anim.Sci. 94(Suppl4)):184.
Trapnell,C.,Pachter,L.,andSalzberg,S.L.(2009).TopHat:discoveringsplicejunctionswith
RNA-seq.Bioinformatics25:1105–1111.
Trapnell,C.,Roberts,A.,Goff,L.etal.(2012).Differentialgeneandtranscriptexpressionanalysis
ofRNA-seqexperimentswithTopHatandcufflinks. Nat.Protoc. 7:562–578.
VanDomselaar,G.H.,Stothard,P.,Shrivastava,S.etal.(2005).BASys:awebserverforautomated
bacterialgenomeannotation. NucleicAcidsRes. 33(WebServerissue):W455–W459.
Wang,Z.,Gerstein,M.,andSnyder,M.(2009).RNA-seq:arevolutionarytoolfortranscriptomics.
Nat.Rev.Genet. 10:57–63.

===== PDF page 173 =====

References 153
Waterhouse,R.M.,Tegenfeldt,F.,Li,J.etal.(2013).OrthoDB:ahierarchicalcatalogofanimal,
fungalandbacterialorthologs. NucleicAcidsRes. 41(Databaseissue):D358–D365.
Wegrzyn,J.L.,Liechty,J.D.,Stevens,K.A.etal.(2014).Uniquefeaturesoftheloblollypine( Pinus
taedaL.)megagenomerevealedthroughsequenceannotation. Genetics196:891–909.
Westesson,O.,Skinner,M.,andHolmes,I.(2013).Visualizingnext-generationsequencingdata
withJBrowse. BriefingsBioinf. 14:172–177.
Wheeler,T.J.,Clements,J.,Eddy,S.R.etal.(2013).Dfam:adatabaseofrepetitiveDNAbasedon
profilehiddenMarkovmodels. NucleicAcidsRes. 41(Databaseissue):D70–D82.
Will,C.L.andLührmann,R.(2011).Spliceosomestructureandfunction. ColdSpringHarbor
Perspect.Biol. 3(7),pii:a003707.
Winsor,G.L.,Lo,R.,HoSui,S.J.etal.(2005).Pseudomonasaeruginosagenomedatabaseand
PseudoCAP:facilitatingcommunity-based,continuallyupdated,genomeannotation. Nucleic
AcidsRes. 33(Databaseissue):D338–D343.
Wootton,J.C.andFederhen,S.(1993).Statisticsoflocalcomplexityinaminoacidsequencesand
sequencedatabases. Comput.Chem. 17:149–163.
Wu,T.D.,Reeder,J.,Lawrence,M.etal.(2016).GMAPandGSNAPforgenomicsequence
alignment:enhancementstospeed,accuracy,andfunctionality. MethodsMol.Biol. 1418:
283–334.
Xu,Z.andWang,H.(2007).LTR_FINDER:anefficienttoolforthepredictionoffull-lengthLTR
retrotransposons.NucleicAcidsRes. 35(WebServerissue):W265–W268.
Yeh,R.,Lim,L.P.,andBurge,C.(2001).Computationalinferenceofthehomologousgene
structuresinthehumangenome. GenomeRes. 11:803–816.
Zhang,M.Q.(2002).Computationalpredictionofeukaryoticproteincodinggenes. Nat.Rev.Genet.
3:698–709.
Zhou,Y.,Liang,Y.,Lynch,K.H.etal.(2011).PHAST:afastphagesearchtool. NucleicAcidsRes. 39
(WebServerissue):W347–W352.
Zhu,H.,Hu,G.,Yang,Y.etal.(2007).MED:anewnon-supervisedgenepredictionalgorithmfor
bacterialandarchaealgenomes. BMCBioinf 8:97.

Chapter 6

Predictive Methods Using RNA Sequences

041

Introduction

PDF page 175-177；印刷页码 155-157

▶

第6章使用RNA序列的预测方法

作者：Michael F. Sloma, Michael Zuker, David H. Mathews

引言

RNA是一种多功能生物聚合物，其功能远超简单携带和识别遗传信息——分别作为信使RNA（mRNA）和转运RNA（tRNA）。几十年来，学界已知RNA序列可以催化RNA的切割和连接反应（Doudna and Cech 2002），并且RNA是信号识别颗粒（signal recognition particle, SRP）（Walter and Blobel 1982）的重要组成部分，负责指导蛋白质向细胞外转运。最近，研究人员又发现了RNA的更多功能。核糖体RNA（rRNA）在蛋白质合成过程中催化肽键形成（Nissen et al. 2000; Hansen et al. 2002），小核RNA（snRNA）和自剪接内含子催化pre-mRNA的剪接反应，微RNA（miRNA）和小干扰RNA（siRNA）通过结合mRNA来调控基因表达，而mRNA则通过名为核糖开关（riboswitch）的RNA结构结合代谢物来自我调控表达。RNA还在其他关键过程中发挥作用，包括发育调控（Lagos-Quintana et al. 2001; Lau et al. 2001）和免疫系统（Cullen 2002）。此外，RNA还可以在体外被进化以催化自然界中不发生的反应（Bittker et al. 2002）。

RNA也是制药行业的重要靶点和工具。在核糖体中，RNA是多种抗生素的作用靶点。mRNA是反义原理药物（Dias and Stein 2002）或RNA干扰（RNA interference, RNAi）药物的作用靶点（Cossarizzo and Rossi 2009）。近期研究表明，RNA可以被小分子特异性靶向（Disney et al. 2016）。

要充分理解某种RNA的作用机制或对其进行靶向研究，需要了解所研究RNA的结构。RNA结构具有三个层次的组织方式（如图6.1所示，Tinoco and Bustamante 1999）。第一层——一级结构（primary structure）（图6.1a）——即RNA分子中核苷酸的线性序列。二级结构（secondary structure）（图6.1b）由RNA聚合物内部发生的碱基配对相互作用（包括沃森-克里克配对和G-U配对）所定义。最后，三级结构（tertiary structure）（图6.1c）是RNA序列中原子的三维排列，因此包含所有非经典接触。

通常，RNA序列的二级结构先于其三级结构被解析，这是因为目前已有精确的实验和计算方法来确定RNA序列的二级结构，且了解二级结构往往有助于设计三级结构解析的构建体。如图6.2所示，典型的RNA二级结构由螺旋区和环区组成。螺旋区由经典碱基配对构成。环区有多种形式，取决于闭合碱基对的数量和未配对核苷酸的分布。环区可以是发夹环（hairpin loop，骨干做180°弯折）、内部环（internal loop，两个未配对核苷酸链中断一个螺旋）、凸出环（bulge loop，单个未配对核苷酸链中断一个螺旋）以及多分支环（multibranch loop，亦称螺旋连接点，helical junction，意为有两个以上螺旋从中伸出）。尽管二级结构图通常不明确显示环区中的核苷酸相互作用，但这些区域负责形成稳定结构的非经典相互作用。

在没有三级结构的情况下，预测环和螺旋位置的"金标准"是比较序列分析（comparative sequence analysis），即利用序列比对中发现的进化证据来确定碱基配对（Pace et al. 1999）（关于多重序列比对方法的信息另见第8章）。通过比较序列分析预测的大亚基（LSU）和小亚基（SSU）rRNA碱基对，与高分辨率晶体结构相比，准确率达到97%（Gutell et al. 2002）。

RNA结构预测是一个庞大的领域，目前已有数百种计算工具可用于预测RNA分子的结构。本章介绍一些基于序列推断RNA二级结构的最常用方法。此外，本章还介绍可提高结构预测准确性的方法，包括寻找多个同源序列共有结构的方法，以及利用实验数据的方法。为此，本章将介绍RNA折叠热力学和动态规划算法。详细描述两种常用的RNA二级结构预测网络服务器——Mfold和RNAstructure，并提及其他替代软件工具。本章最后简要介绍用于RNA三级结构预测的方法，并为有兴趣深入了解的读者提供更多资源。

---

图6.1说明（原文图注）：

> RNA结构三个层次组织的示意图。（a）一级序列，（b）二级结构（Cannone et al. 2002），以及（c）四膜虫（Tetrahymena）I组内含子结构域的三级结构（Cate et al. 1996）。二级结构展示了经典碱基配对，三级结构捕捉了原子的三维排列。经AAAS授权转载。

图6.2说明（原文图注）：

> 果蝇（Drosophila）sucinea R2元件3'非翻译区的RNA二级结构（Lathe and Eickbush 1997; Mathews et al. 1997）。非螺旋区（称为环）中的碱基配对按环的类型着色并标注。

042

Overview of RNA Secondary Structure Prediction Using Thermodynamics

PDF page 177-178；印刷页码 157-158

▶

第6章利用 RNA 序列的预测方法

6.2 基于热力学的 RNA 二级结构预测概述

许多 RNA 二级结构预测方法都依赖于最近邻模型（nearest neighbor model）来预测 RNA 二级结构的稳定性，以 37°C 时的吉布斯自由能变化（ΔG°37）来衡量（见 Box 6.1）（Xia et al. 1998, 1999; Mathews et al. 1999a, 2004; Turner 2000; Turner and Mathews 2010）。预测稳定性的规则采用最近邻模型，是因为每个碱基对的稳定性仅取决于与其最相邻的碱基对，而总自由能是各个贡献之和。关于从实验数据测定最近邻参数的方法，已有详尽的综述可供参考（Schroeder and Turner 2009; Andronescu et al. 2014）。

Box 6.1 吉布斯自由能

RNA 结构的形成吉布斯自由能（ΔG°）量化了该结构在特定温度下的平衡稳定性。例如，考虑一种 RNA 结构 A，它与无规卷曲（random coil，即无规整结构）构象处于平衡状态（图 6.3a）。每种构象的相对浓度由平衡常数 Keq 决定。Keq 与吉布斯自由能的关系为：

$$K_{\text{eq}} = \frac{[\text{Conformation A}]}{[\text{Random coil}]} = e^{-\Delta G^\circ / RT} \quad (6.1)$$

其中 R 为气体常数（1.987 cal mol⁻¹ K⁻¹），T 为绝对温度（单位为开尔文）。

此外，对于多种可供选择的构象 A 和 B，它们与无规卷曲之间存在构象的平衡分布（图 6.3b），K′eq 描述了链在各结构之间的分布。在这种情况下，每种构象相对于无规卷曲的自由能同样可以描述各构象的占比：

$$K'_{\text{eq}} = \frac{[\text{Conformation A}]}{[\text{Conformation B}]} = e^{-(\Delta G^\circ_A - \Delta G^\circ_B) / RT} \quad (6.2)$$

这一关系可以推广到任意数量的构象。因此，在平衡状态下，具有最低自由能的构象是 RNA 分子最可能的构象，这通常被称为最小自由能结构（minimum free energy structure）。

自由能的单位通常用焦耳每摩尔（J mol⁻¹，SI 单位）表示。但在 RNA 折叠稳定性的研究中，常用的仍是千卡每摩尔（kcal mol⁻¹），其中 1 cal = 4.184 J。在 37°C（人体温度；310.15 K）时，吉布斯自由能变化相差 1.42 kcal mol⁻¹会使平衡常数改变 10 倍，这可通过在式 (6.2) 中代入 ΔG°A − ΔG°B = 1.42 kcal mol⁻¹ 来验证。

图 6.3 溶液中 RNA 结构平衡的示意图

(a) 构象 A 与无规卷曲结构之间的平衡。Keq 与 37°C 时标准态自由能变化 ΔG°37 相关，描述了这一平衡。(b) 两种构象 A 和 B 与无规卷曲之间的平衡。K′eq 与 A 和 B 两种构象的折叠自由能相关，描述了构象 A 与构象 B 之间的比例。

图 6.4 展示了一个最近邻稳定性计算的示例。螺旋堆叠（helical stacking）、环起始（loop initiation）和未配对核苷酸堆叠（unpaired nucleotide stacking）的贡献加合在一起，构成总构象自由能。有利的自由能增量始终为负值。碱基对自由能增量以相邻碱基对的堆叠形式计算。例如，连续的 CG 碱基对贡献 −3.3 kcal mol⁻¹（Xia et al. 1998）。请注意，环区域具有不利的自由能增量，称为环起始能（loop initiation energy），这主要反映了限制环中核苷酸的熵代价。例如，四核苷酸发夹环的起始自由能变化为 5.6 kcal mol⁻¹（Mathews et al. 2004）。环中未配对的核苷酸可以作为堆叠核苷酸或错配对提供有利的能量增量。图 6.4 中所示的 3′ 末端的 G 称为悬末端（dangling end），它堆叠在末端碱基对上，贡献 −1.3 kcal mol⁻¹ 的稳定性。发夹环中与该序列环境对应的第一个错配贡献 −1.1 kcal mol⁻¹ 的稳定性。

图 6.4 RNA 序列 CCUUGAGGAACACCAAAGGGG 某一构象的自由能预测

各自由能增量的贡献已标注。总自由能是各增量之和。对于这一估计的稳定性 −5.2 kcal mol⁻¹，每一条折叠链对应约 4600 条未折叠链（Keq = 4600；见 Box 6.1）。

最近邻自由能参数利用序列依赖项来预测环区域的自由能增量（Mathews et al. 1999a），以反映实验观察结果。例如，2×2 内部环（internal loop，两侧各有 2 个未配对核苷酸的内部环）的稳定性可从 −2.6 到 +2.8 kcal mol⁻¹ 不等，取决于闭合对（closing pair）和错配的序列（Schroeder et al. 1999）。

具有最低 ΔG° 的结构是在平衡状态下最可能的结构，但这并不能说明结构平衡的全部。另一个有用的量——配分函数（partition function）Q，通过对每种构象的平衡常数求和，提供了 RNA 分子结构ensemble（S，即 RNA 分子可能采取的所有结构的集合）的描述：

$$Q = \sum_{s} e^{-\Delta G^\circ / RT} \quad (6.3)$$

配分函数可用于计算 ensemble 中 RNA 分子采取构象 A 的概率：

$$P(A) = \frac{e^{-\Delta G^\circ_A / RT}}{Q} \quad (6.4)$$

在预测结构时，具有最低 ΔG° 的结构可能具有较低的单独概率。然而，许多低自由能结构可能包含相同的碱基对，因此这些碱基对具有很高的形成概率。RNA 结构中特定碱基对形成的概率由下式给出：

$$P(i \text{ 与 } j \text{ 配对}) = \frac{1}{Q} \sum_{s' \in s_{ij}} e^{-\Delta G^\circ_{s'} / RT} \quad (6.5)$$

其中 sij 是核苷酸 i 与核苷酸 j 配对的所有结构的集合。

配分函数是许多计算方法研究 RNA 结构的基础，包括：识别多条序列的共同结构的方法（Harmanci et al. 2011; Will et al. 2012）、识别改变 RNA 结构的突变的方法（Halvorsen et al. 2010; Sabarinathan et al. 2013; Salari et al. 2013），以及估计寡核苷酸结合可及性的方法（Lu and Mathews 2007; Tafer et al. 2008）。

---

术语表

英文术语	中文译名
nearest neighbor model	最近邻模型
Gibbs free energy	吉布斯自由能
random coil	无规卷曲
equilibrium constant	平衡常数
minimum free energy structure	最小自由能结构
helical stacking	螺旋堆叠
loop initiation energy	环起始能
dangling end	悬末端
internal loop	内部环
partition function	配分函数
ensemble	构象集合/ensemble

043

Dynamic Programming

PDF page 179-180；印刷页码 159-160

▶

第6章利用 RNA 序列的预测方法

6.3 动态规划（Dynamic Programming）

上一节已经介绍了 RNA 二级结构预测所依赖的热力学规则。但要真正使用这些规则，还需要在巨大的候选结构空间中完成搜索：要么找出得分最优的结构，要么计算每一种可能构象的平衡常数。那么，这个搜索究竟如何实现呢？

一种最直接、也最朴素的方法，是把所有可能的构象全部显式生成出来，逐个计算其自由能，再从中选出自由能最低、也就是得分最优的那个结构。

但这种方法在计算上几乎不可行。已有估计认为，长度为 $N$ 的 RNA 序列，其可能的二级结构数量约为 $(1.8)^N$（Zuker and Sankoff 1984）。对于一个只有 100 个核苷酸的中等长度序列，这意味着大约有 $3 imes 10^{25}$ 个候选结构。即使使用一台高速计算机，每秒能够计算 10000 个结构的自由能，也仍然需要约 $1.6 imes 10^{14}$ 年才能完成搜索。显然，这样规模的问题必须采用更高效的求解策略。

最常用的解决方案就是动态规划（dynamic programming）。它通过递归（recursion）与中间结果列表化/表格化保存（tabulation of intermediate results）的方式加速计算（Nussinov and Jacobson 1980; Zuker and Stiegler 1981）。附录 6.A 为有兴趣的读者详细介绍了这种方法。对于不包含伪结（pseudoknot）的情况，动态规划不仅能比暴力穷举快得多地求出最小自由能结构（minimum free energy structure），也能更高效地计算配分函数（partition function）。其渐近复杂度为：时间复杂度 $O(N^3)$，空间复杂度 $O(N^2)$，其中 $N$ 为序列长度（见 Box 6.2）。

本节还引入了一个重要例外：伪结（pseudoknot）。图 6.5 展示了一个简单的 H 型 RNA 伪结。若两对碱基分别为 $i$–$j$ 和 $i'$–$j'$，并满足 $i < i' < j < j'$，则说明出现了非嵌套碱基配对，这类结构就是伪结。碱基对 $i$–$j$ 定义了一个封闭区域，而 $i'$–$j'$ 则跨越该封闭区域和相邻区域，从而形成伪结。

图 6.5 一个简单的 RNA 伪结

本图用两种表示方式展示了同一个简单的 H 型伪结。伪结由两对碱基定义：$i$–$j$ 与 $i'$–$j'$，其顺序满足 $i < i' < j < j'$。其中 $i$–$j$ 围成一个封闭区域，而 $i'$–$j'$ 横跨该封闭区域及其相邻区域，构成伪结。

长期以来，人们曾认为伪结无法用多项式时间的动态规划算法来预测。直到 Rivas and Eddy（1999）提出了一种多项式时间的动态规划算法，才证明至少某一类足够丰富、具有实际意义的伪结可以被计算预测。然而，这一算法的时间复杂度为 $O(N^6)$，空间复杂度为 $O(N^4)$，因此对于长度超过约 300 个核苷酸的序列，在实际中往往难以使用（Rivas and Eddy 1999; Condon et al. 2004）。后续对该算法的改进虽改善了伸缩性，但在可处理的序列长度上仍存在显著限制（Reeder and Giegerich 2004）。类似地，包含伪结的配分函数算法（Dirks and Pierce 2003）具有 $O(N^5)$ 的时间复杂度与 $O(N^4)$ 的空间复杂度，因此通常也只适用于长度不超过 200 个核苷酸的序列。

Box 6.2 算法复杂度（Algorithm Complexity）

在计算机科学中，算法复杂度用于描述一种计算在最坏情况下如何随问题规模增长。它通常使用 big-O notation 表示，读作 “order”。若算法的时间复杂度为 $O(N)$，说明输入规模参数 $N$ 增大时，计算时间按线性增长；$O(N^2)$ 与 $O(N^3)$ 则分别表示按平方和立方增长。

因此，RNA 二级结构预测中的动态规划算法，时间复杂度为 $O(N^3)$。这里的 $N$ 是核苷酸数目。这意味着当序列长度加倍时，执行时间大约会增加 8 倍。与之相比，像排序列表这类任务通常可在 $O(N \log N)$ 时间内完成，因此 RNA 折叠的动态规划计算可算是代价较高的一类计算。

big-O 记号同样也适用于算法内存消耗（也称 storage）的缩放规律。二级结构预测需要大小为 $N imes N$ 的二维数组，因此其空间复杂度为 $O(N^2)$。

动态规划算法的某些变体不仅能够求得最小自由能结构（Mathews et al. 1999a; Wuchty et al. 1999），还可以在只增加一个常数因子的时间和内存代价下，预测自由能高于最优结构的其他候选结构。这些结构称为次优结构（suboptimal structures）（Zuker 1989）。对于真实 RNA 结构而言，次优结构往往提供了重要的替代假设：一方面，最近邻参数本身并不完美；另一方面，若在建模时忽略了伪结等结构基序，那么某个次优结构反而可能比最小自由能结构更接近真实情况。

---

术语表

英文术语	中文译名
dynamic programming	动态规划
recursion	递归
tabulation	表格化保存 / 列表化
asymptotic performance	渐近性能
time complexity	时间复杂度
storage complexity	空间复杂度
pseudoknot	伪结
polynomial time	多项式时间
big-O notation	big-O 记号 / 大 O 记号
suboptimal structures	次优结构

044

Accuracy of RNA Secondary Structure Prediction

PDF page 181；印刷页码 161

▶

Ch6 Section 4: Accuracy of RNA Secondary Structure Prediction

Accuracy of RNA Secondary Structure Prediction

RNA 二级结构预测的准确度可以通过对已知二级结构的 RNA 序列进行预测来评估。对于一组用于测试预测准确度的结构集合（包括 SSU rRNA [Cannone et al. 2002]、LSU rRNA [Cannone et al. 2002]、5S rRNA [Szymanski et al. 2000]、Group I 内含子 [Cannone et al. 2002]、Group II 内含子 [Michel et al. 1989]、RNase P RNA [Brown 1999]、SRP RNA [Larsen et al. 1998] 和 tRNA [Sprinzl et al. 1998]），已知结构中的碱基对平均有 73% 被正确预测（Mathews et al. 2004）。在这些计算中，SSU 和 LSU rRNA 根据已知二级结构被划分为长度小于 700 个核苷酸的区域（Mathews et al. 1999a）。虽然这一准确度水平足以对感兴趣的结构提出假设，但通常期望获得更准确的预测。提高二级结构预测准确度有两种通用方法，两者都试图减少搜索步骤中被考虑的不正确结构数量。一种方法是使用低分辨率的实验数据（Sloma and Mathews 2015），另一种方法是预测多个同源序列的共同结构（Seetin and Mathews 2012a）。

Experimental Methods to Refine Secondary Structure Prediction

低分辨率实验方法使用酶切或化学修饰试剂，这些试剂优先与双链或单链核苷酸反应。检测每个位置的化学反应性可以识别哪些核苷酸位于茎区、哪些位于环区，但不提供双链核苷酸的配对伙伴信息。常用的实验试剂包括 RNAse V1（在双链区域切割 RNA 分子）、RNAse T1（在未配对的鸟嘌呤核苷酸之后切割 RNA 分子）和 RNase T2（在任何类型的未配对核苷酸之后切割）、二甲硫酸（修饰未配对的腺嘌呤和胞嘧啶核苷酸），以及选择性 2'-羟基酰化并通过引物延伸分析（SHAPE）试剂，这是一组可修饰任何未配对核苷酸的化学物质。近年来的进展使这些方法能够与大规模平行测序结合，同时探测活细胞内多种不同 RNA 分子的二级结构（Spitale et al. 2013; Ding et al. 2014; Rouskin et al. 2014; Talkish et al. 2014）。

这些实验信息可以通过两种方式应用于 RNA 二级结构预测算法。一种方法是在动态规划算法的搜索步骤中禁止考虑任何与实验数据不一致的结构。这通常可以显著提高在没有实验数据约束时预测较差的序列的准确度。例如，对于大肠杆菌（Escherichia coli）的 5S rRNA 序列（在没有实验约束时预测效果较差），使用酶切数据可将准确度从 26% 提高到 87%（Speek and Lind 1982; Mathews et al. 1999a; Szymanski et al. 2000）。

另一种将实验数据应用于改进预测的方法是给不完全匹配数据的结构分配伪自由能惩罚，而不是完全禁止它们。这种方法是有用的，因为虽然对酶或化学探针的反应性与单链性密切相关，但某些双链核苷酸仍然可能具有高反应性（Sukosd et al. 2013）。在这些情况下，使用软约束（只惩罚不一致的结构而不是禁止）可以预测与数据"基本一致"的结构。这种方法最初用于 SHAPE（Deigan et al. 2009），也已应用于二甲硫酸修饰（Cordero et al. 2012）和酶切（Underwood et al. 2010）实验数据。

045

Predicting the Secondary Structure Common to Multiple RNA Sequences

PDF page 181 末尾 - PDF page 183 前；印刷页码 161-163

▶

Ch6 Section 5: Predicting the Secondary Structure Common to Multiple RNA Sequences

Predicting the Secondary Structure Common to Multiple RNA Sequences

改进 RNA 二级结构预测的另一条路径，是利用进化所提供的信息。不同生物中执行相同功能的同源 RNA 分子，即使其序列已经发生了相当大的分化，通常仍会形成相似的结构。尤其是补偿性突变（compensatory mutations）——即某个位点的突变原本会破坏一个碱基对，但其配对伙伴位点再发生第二次突变后又恢复配对——是某个碱基对真实存在的强有力证据。算法可以通过两种方式自动利用这类信息：一是将搜索空间限制为所有同源序列都能采取的结构；二是对包含补偿性突变的结构赋予更高权重。

比较序列分析（comparative sequence analysis）的基础，是根据物种间的序列差异，或体外进化（in vitro evolution）得到的序列差异，来检测保守结构（conserved structure）（Pace et al. 1999）。假定二级结构是保守的，就可以排除许多单条序列在理论上可能形成、但跨进化序列集合不可能共同采用的二级结构。换句话说，多条序列会对可能的二级结构施加约束。这些约束也可以作为二级结构预测的辅助信息。人工进行比较序列分析时，准确度可以非常高；例如，对 rRNA 推断出的碱基对中，超过 97% 在后来解析出的晶体结构中都得到了验证（Gutell et al. 2002）。不过，这种方法需要相当高的技能和大量投入。自动化这些比较分析的计算机算法，目前总体上仍不如长期迭代修正模型的人工比较分析准确。

整合多序列信息的 RNA 二级结构预测算法，大体可以分成两类：一类依赖初始序列比对（initial sequence alignment）的约束，另一类则不依赖。总体而言，受初始比对约束的方法由于受限于比对本身的质量，鲁棒性往往稍差，但计算速度更快。

Algorithms That Are Constrained by an Initial Alignment

已经有若干程序被开发出来，用于寻找一组已对齐序列所共有的二级结构（Lück et al. 1996, 1999; Juan and Wilson 1999; Hofacker et al. 2002）。其中一种常用方法叫作 Alifold，它利用序列比对结果来约束二级结构预测，既可用于自由能最小化，也可用于约束配分函数（partition function）的计算（Hofacker et al. 2002; Bernhart et al. 2008）。该方法会在构象自由能（conformation free energy）中加入额外能量项，以偏好补偿性碱基替换和序列保守性。这个程序既可作为 Vienna RNA Package（Lorenz et al. 2011）的一部分使用，也提供 web server 版本。

另一种寻找多序列共同结构的方法叫作 Pfold，它采用随机上下文无关文法（stochastic context-free grammar, SCFG）（Knudsen and Hein 1999）。这种文法定义了一组规则，用于同时生成序列及其对应的二级结构。这些规则以概率参数的形式编码，并根据序列比对结果以及一批 tRNA 和 LSU rRNA 的已知共同二级结构进行估计。这些已知序列和结构构成训练集（training set）。随后，给定序列可通过动态规划算法进行折叠，从而找到一个在该随机上下文无关文法下生成概率最大的结构。

Algorithms That Are Not Constrained by the Initial Alignment

动态规划也可以用来同时预测多条 RNA 序列的序列比对和共同二级结构（Sankoff 1985）。一般来说，这类方法的时间复杂度为 O(N1^3N2^3N3^3…)，其中 N1 是第一条序列的长度，N2 是第二条序列的长度，依此类推，因此在计算上几乎不可行。基于这一思想的两个程序是 FoldAlign（Havgaard et al. 2005）和 Dynalign（Mathews and Turner 2002; Fu et al. 2014）。由于运行耗时很长，这些程序通常只适用于两条序列；不过，两者后来都通过成对计算（pairwise calculations）扩展到了多于两条序列的情形（Torarinsson et al. 2007; Xu and Mathews 2011）。当待分析序列彼此差异很大时，这些程序往往是更合适的选择。

另一种不依赖输入比对的思路，是先分别折叠这些序列，再对序列进行比对，最后整合这些信息以预测保守二级结构。采取这种策略的现代工具包括 LocARNA（Will et al. 2007, 2012）、PARTS（Harmanci et al. 2008, 2009）和 TurboFold（Harmanci et al. 2011）。这些程序比 Dynalign 和 FoldAlign 更快，但它们通常要求更高的序列一致性（sequence identity）才能取得较好效果.

046

Practical Introduction to Single-Sequence Methods

PDF page 183-190；印刷页码 163-170

▶

Ch6 第6节：单序列方法实践简介

简介

在不依赖输入比对的前提下预测 RNA 二级结构，还有一种替代方法，即先将序列折叠、再比对序列，然后将折叠与比对信息相结合来预测保守二级结构。采取这一策略的三个现代工具是 LocARNA（Will et al. 2007, 2012）、PARTS（Harmanci et al. 2008, 2009）和 TurboFold（Harmanci et al. 2011）。这些程序比 Dynalign 和 FoldAlign 更快，但对序列一致性要求更高。

使用 Mfold 网络服务器

本节介绍两个网络服务器：Mfold 网络服务器和 RNAstructure 网络服务器。两者对单序列的结构预测精度相近，用户可根据所需功能选择使用。Mfold 服务器还提供了一个界面，可用于模拟双分子复合物的熔解（解链）过程（Dimitrov and Zuker 2004）。RNAstructure 网络服务器则额外提供了多同源序列保守二级结构预测、siRNA 设计以及双分子结构预测等功能（Bellaousov et al. 2013）。

Mfold 是一个 RNA 二级结构预测软件包，同时提供网络服务器和可在 Unix/Linux 机器上编译运行的代码（Mathews et al. 1999a; Zuker 2003）。它使用一套 37°C 下的最近邻自由能参数（Mathews et al. 1999a）。程序预测最小自由能结构，以及以启发式方式生成的次优二级结构（Zuker 1989）。次优结构代表了与最低自由能结构不同的替代构象，反映了 RNA 序列可能具有多种结构（Schultes and Bartel 2000）以及能量规则本身存在一定不确定性的事实（Mathews et al. 1999a; Layton and Bundschuh 2005; Zuber et al. 2017）。Mfold 还可预测能量点图（energy dot plots），该图展示了每一种可能的配对在最低自由能构象中对应的能量（Zuker and Jacobson 1995）。这些点图可以直观地展示用户指定增量范围内所有可能的配对，而预测的结构可被着色标注，以展示在该结构中有多种折叠替代方案的区域（Zuker and Jacobson 1998）。

Figure 6.6 分别展示了 Mfold 服务器输入表单的顶部和底部。用户可在标有"Enter sequence name"的框中输入序列名称，并将待折叠的序列输入（或从剪贴板粘贴）到下方标有"Enter the sequence to be folded"的框中。正如说明文字所示，非字母字符会被忽略且不影响序列解读。例如，图中的表单显示了一条名为 RD1140 的 tRNA 序列（Sprüinzl et al. 1998）已粘贴到序列框中。表单其余部分使用默认值，高级用户可自行修改。接下来的一个选项框提供了利用辅助证据来约束结构预测的功能，这些证据来源于酶切实验（Knapp 1989）、比较序列分析（Pace et al. 1999）或生物学直觉。此外，默认使用线性 RNA 序列折叠，但也可通过将选项从"linear"改为"circular"来折叠环形序列。需要注意的是，当前参数下的折叠温度固定为 37°C。一套较旧的、较不完整的参数可支持在其他温度下进行二级结构预测（Jaeger et al. 1989），但建议在大多数应用中使用当前参数。如需使用旧参数进行折叠，可通过页面顶部的链接访问 RNA mfold version 2.3 服务器（图 6.6 中未显示）。"Percent suboptimality"数值（默认为 5）是指生成次优二级结构时，允许其自由能与最低自由能结构之间的最大百分比差值。"Upper bound on the computed foldings"的限制值（默认为 50）是预测的次优二级结构的最大数量。"Window"参数控制每个次优结构之间必须有多少差异。该值默认为基于序列长度的数值，可通过点击"Window"链接查看。例如，本例中使用的 tRNA 长度为 77 个核苷酸，默认窗口值为 2。窗口值越小，允许的次优结构越多；窗口值越大，则各预测结构之间的差异要求越大。允许的最小窗口值为零。内环（bulge）或内部环（internal loop）中未配对核苷酸的最大数量默认为 30。内部环的不对称性最大值（即每条链上未配对核苷酸长度的差值）也默认为 30。允许的配对核苷酸之间的最大距离设置为"no limit"。这些数值均可由高级用户修改。

其余选项用于控制服务器输出。目前，长度不超过 800 个核苷酸的序列可在较短时间内完成折叠，作为即时任务处理。较长的序列必须作为批处理任务运行，需要将默认选项从"An immediate"改为"A batch job"。批处理任务还需用户输入电子邮件地址，以便在计算完成后接收通知。本例中的 tRNA 长度较短，因此使用默认的"An immediate job"选项。其余选项用于控制服务器生成输出的方式，每个选项都附有说明网页的链接。点击 Fold RNA 按钮开始计算。

Figure 6.7 展示了 Mfold 服务器对 RD1140 tRNA 二级结构预测的输出页面。计算结果在服务器上保留 24 小时。第一个窗口显示带有核苷酸位置编号的序列。每种预测二级结构可以多种格式的图示提供。本例中，使用次优二级结构预测的默认参数仅预测出一种结构。Structure 1 旁边的链接提供了常用的格式：PostScript（出版质量的输出格式，见 Figure 6.8a）、PNG 和 JPG（可在用户交互式操作中使用的图像格式）以及 RNAVizCT 和 XRNAss 格式（用于二级结构绘图工具的导出格式，下文有解释）。

能量点图可链接到 Text 格式、Postscript 格式、PNG 格式或 JPG 格式的文件。在点图中，每个点代表 x 轴和 y 轴上标注的两核苷酸之间的一个配对，点的颜色表示包含该配对的结构中的最低能量。能量点图被划分为两个三角形区域。上三角形是包含次优配对在内的能量图，下三角形是最小自由能结构中配对的位置。Text 格式适合使用自定义脚本进行后续分析。Postscript 格式为出版质量输出（见 Figure 6.8b）。PNG 和 JPG 格式均链接到交互式页面，用户可放大特定区域、修改能量增量值和颜色数量，并点击单个配对以确定精确能量。Figure 6.8b 中的能量点图显示，在−29.8 和−30.0 kcal·mol⁻¹ 之间的结构中还存在其他配对，这些结构与最低自由能结构（−30.6 kcal·mol⁻¹）的能量差不到 1 kcal·mol⁻¹。因此，这些配对应被视为最低自由能结构中配对的可能替代方案。

此外还提供 RNAML 格式的输出文件，用于与其他符合 RNAML 标准的程序交换信息。RNAML 是一种 XML 文件格式，旨在最终实现 RNA 分析程序之间的无缝信息交换（Waugh et al. 2002）。

使用 RNAstructure 网络服务器

RNAstructure 是一个用于预测 RNA 二级结构的软件包（Reuter and Mathews 2010; Bellaousov et al. 2013）。除了实现结构预测算法和配分函数之外，RNAstructure 还包含多序列预测、识别 RNA 结构中可及区域以及预测两条 RNA 分子杂交结构的工具。RNAstructure 可通过网络服务器使用，也可下载后在 Windows、Mac OSX 和 Linux 的图形用户界面或命令行中使用。本教程介绍如何使用网络服务器界面；使用可下载程序预测二级结构的详细说明可参见在线帮助文件及其他资料（Mathews et al. 2016; Xu and Mathews 2016）。

RNAstructure 网络服务器的主页提供了多种选项：可从单序列预测二级结构、可预测多同源序列的保守结构、可预测两条相互作用序列的结构，或运行 RNAstructure 包中的特定算法。要预测单序列的结构，选择 Predict a Secondary Structure，这将进入网络服务器的输入表单页面，使用多种方法预测 RNA 结构（Figure 6.9）。与 Mfold 类似，该工具计算输入 RNA 序列的最小自由能结构以及一组选定的次优结构。此外，配分函数被用于计算配对概率，并以此对预测的 RNA 二级结构进行标注，向用户反馈预测结构中哪些部分最可能正确。配对概率较高的碱基对（即配对概率大于 0.9）比低概率的碱基对（即配对概率小于 0.5）更可能正确预测（Mathews 2004）。

RNAstructure 还使用最大期望准确度方法（maximum expected accuracy method）（Lu et al. 2009）生成 RNA 二级结构，该方法直接从配分函数计算的配对概率生成结构，可能比最小自由能结构更准确。此外，还使用 ProbKnot 方法（Bellaousov and Mathews 2010）生成可能含有假结的二级结构。

回到网络服务器的输入表单（Figure 6.9），用户可以上传序列文件，也可以在输入框中输入标题和序列。该框上方还有一个选项可插入示例序列。RNAstructure 输入表单提供的选项与 Mfold 相同，如生成次优结构的数量、最大内部环大小等。另外，用户可以选择折叠温度、选择 gamma 参数（可调整以增加或减少最大期望准确度方法预测的碱基对数量）以及 ShapeKnots 使用的迭代次数和螺旋长度参数。

Figure 6.9 RNAstructure 网络服务器输入表单。（a）表单顶部和（b）表单底部。详见正文说明。

RNAstructure 单序列输出与参数补充

此外，用户还可以选择折叠温度；选择 gamma parameter，通过调节它可以增加或减少 maximum expected accuracy (MEA) 方法预测出的碱基对数量；以及设置 ShapeKnots 方法使用的迭代次数和螺旋长度。系统给出了适用于多数情形的默认值。

该表单还包含一个选项，允许用户上传文件，根据实验结果对计算施加 constraint 或 restraint。用户既可以使用硬约束（hard constraints）禁止某些配对，也可以提供来自 SHAPE probing experiment 的打分文件，程序会将其转换为 pseudo-free energy changes，从而约束结构预测。这些文件都必须采用特定格式，具体格式见文件格式说明链接。

Figure 6.10 展示了一个示例输出，给出了示例序列的预测结果。该结构同时使用自由能最小化、最大期望准确度预测以及 ProbKnot 方法进行预测。此外，预测得到的二级结构还依据配分函数计算出的概率进行了着色标注：已配对核苷酸标注其配对概率，未配对核苷酸标注其保持未配对的概率。

Figure 6.10 RNAstructure 网络服务器的示例输出，展示了 tRNA RD1140（Sprinzl et al. 1998）的预测最小自由能二级结构。预测的碱基对按其配对概率着色，未配对核苷酸则标注其未配对概率，这些概率均由配分函数计算得到。

047

Practical Introduction to Multiple Sequence Methods

PDF page 190-195（止于 "Other Computational Methods to Study RNA Structure" 标题前）；印刷页码 170-175

▶

第6章利用 RNA 序列的预测方法

6.7 多序列方法实践简介

使用 RNAstructure 网络服务器预测多条序列的共同结构

当存在序列同源物（homologs）时，RNAstructure 网络服务器还提供了一个界面，可利用多条序列来预测共同二级结构。同源物通常是来自不同物种、但执行相同功能的序列（定义见第 3 章）。它们可以通过基因组中的 synteny 关系找到，也可以通过传统遗传学或生物化学方法获得。

多序列界面可通过在网络服务器主页选择 Predict a Secondary Structure Common to Two Sequences 或 Predict a Secondary Structure Common to Three or More Sequences 进入。若选择“三条或更多序列”的选项，则会进入 Figure 6.11 所示的输入表单，用于借助 Multilign 和 TurboFold 进行结构预测。用户可上传 FASTA 格式文件，或将 FASTA 格式数据直接粘贴到名为 Sequences 的文本框中。该文本框上方还提供了插入示例数据的选项。

Multilign 使用 Dynalign 对成对序列进行共同结构计算（Xu and Mathews 2011）。Multilign 可以预测次优结构，因此其输入表单中包含能量差（energy difference）、最大结构数（maximum number of structures）以及结构窗口大小（structure window size）等选项；这些参数在单序列结构预测中已经见过，因为它们在这里承担相同作用。除控制次优结构外，程序还会考虑次优序列比对，这通过 alignment window size 参数实现。较小的最小比对窗口会生成只有细微变化的次优比对；增大该窗口值后，次优比对之间必须表现出更大的差异。

gap penalty 参数用于让 Dynalign 对序列比对中的插入缺口进行惩罚，其单位为 kcal·mol⁻¹。另外还有两个参数——iterations 和 maxdsvchange——用于调整 Dynalign 计算结果在 Multilign 中传播信息的方式。默认参数对大多数计算都足够适用，而有经验的用户也可以自行修改这些设置（Xu and Mathews 2011）。

对于 TurboFold，用户也可以设置若干选项。由于 TurboFold 会产生一个碱基对概率矩阵，用户需要决定如何利用这些概率来生成结构：可以选择 Maximum Expected Accuracy（Lu et al. 2009）、Pseudoknots（Bellaousov and Mathews 2010; Seetin and Mathews 2012b），或者 Threshold 方法——即使用一个简单的阈值，只保留那些配对概率超过用户指定阈值的碱基对来构建结构（Mathews 2004）。默认选项是最大期望准确度方法，它不会预测假结（pseudoknots）。如果预期序列中存在假结，或者用户希望了解可能的假结情况，则切换到 Pseudoknot 选项会是一个合适选择，因为它使用的是 ProbKnot 方法。

接下来的一组选项用于控制 TurboFold 流程：TurboFoldGamma 选项用于指定在折叠单条序列时，内在信息（intrinsic information）与外在信息（extrinsic information）的相对权重；TurboFold Iterations 选项用于指定每组配对概率要经历多少轮迭代优化。

输入示例数据并选择 Submit Query 后，会得到 Figure 6.12 所示的输出结果，其中会针对每条输入序列分别显示由 Multilign 和 TurboFold 预测得到的结构。这两个程序为二级结构提供了两种替代性假设：当序列两两之间的一致性较低（<50%）时，Multilign 往往更准确；而当两两序列一致性较高（>60%）时，TurboFold 往往更准确。

Figure 6.11 RNAstructure 网络服务器用于多序列预测的输入表单。（a）表单顶部；（b）表单底部。详见正文说明。

Figure 6.12 RNAstructure 网络服务器用于多序列预测的示例输出。该结果可通过点击输入表单（Figure 6.11）中的 “Click here to add example sequences to the box” 获得。

048

Other Computational Methods to Study RNA Structure

PDF page 195（内容）；印刷页码 175

▶

第6章利用 RNA 序列的预测方法

6.8 研究 RNA 结构的其他计算方法

另一种广泛使用的 RNA 结构预测软件包是 ViennaRNA（Lorenz et al. 2011）。ViennaRNA 提供网络服务器版本和本地命令行工具两种使用方式。ViennaRNA 程序的输入遵循 UNIX 风格，接受标准输入（stdin）数据并将结果输出到标准输出（stdout），便于无缝集成到 UNIX 管道中。除了实现标准的最小自由能和配分函数算法外，ViennaRNA 还提供一套工具，用于预测多条序列的共同结构、绘制结构图、预测两条 RNA 链之间的双链结构（duplex structure），以及设计能够折叠成目标结构的序列。

Sfold 是配分函数计算的一种实现，采用随机采样程序（stochastic sampling procedure）来预测二级结构（Ding and Lawrence 1999, 2001, 2003）。该采样程序保证采得的构象具有真实的统计学权重。Sfold 通过网络界面提供服务。研究表明，Sfold 能够准确预测与反义寡核苷酸靶向相关的无配对区域（Ding and Lawrence 2001）。由于二级结构是通过统计采样生成的，因此在采样构象集合中某核苷酸未配对出现的次数比例，即为其未配对的预测概率。

NUPACK（Zadeh et al. 2010）是一个软件套件（提供网络服务器和可下载包），用于解决逆向折叠问题（inverse folding problem），即 RNA 结构预测的逆问题。NUPACK 不是输入序列来预测结构，而是输入目标结构，尝试找到能够折叠成该结构的序列。由于待搜索的序列空间极其庞大（长度为 N 的序列有 4ᴺ 种可能，例如 100 个核苷酸的 RNA 约有 1.6 × 10⁶⁰ 种可能序列），NUPACK 采用分层分解策略，将结构分解为多个组分，先为每个组分设计序列，再将组分序列组装；如果任何序列组合失败，则重新设计相应组分。寻找优质候选序列的方法是优化集合缺陷（ensemble defect），即通过配分函数计算的一个量，估计序列中有多少碱基正在形成目标结构（Zadeh et al. 2011）。

另一个重要问题是预测两个 RNA 分子是否会相互杂交以及所得双链的结构。该能力的重要应用包括预测 siRNA（Lu and Mathews 2007; Tafer et al. 2008）、miRNA 或 DNA 寡核苷酸的靶点（Mathews et al. 1999b）。最准确的 RNA–RNA 相互作用预测方法需要同时考虑自结构（self-structure）和分子间结构，因为自结构可能阻止第二条序列的结合。多序列折叠的实现工具包括 RNAup（Mückstein et al. 2006）和 RNAplex（Tafer and Hofacker 2008），它们属于 ViennaRNA 软件包的一部分；以及 BiFold（Mathews et al. 1999b）、DuplexFold（Mathews et al. 1999b）和 AccessFold（DiChiacchio et al. 2016），它们是 RNAstructure 的组件。网络服务器可访问 RNAup（通过 ViennaRNA 网络服务器）、BiFold（通过 RNAstructure 网络服务器）和 DuplexFold（通过 RNAstructure 网络服务器）。AccessFold 和 RNAplex 不提供网络服务器版本，但可以下载后在本地运行。

---

本节图/表归属说明：

Figure 6.11、6.12 归属前一节"07_Practical_Introduction_to_Multiple_Sequence_Methods"
Figure 6.13（本节未直接提及，但为 ViennaRNA/Sfold/NUPACK 工具图示）归属本节
本节无专属 Box

---

新增术语（暂记入 QA，待批量入库）：

英文术语	中文建议
ViennaRNA package	ViennaRNA 软件包
command line tools	命令行工具
UNIX-style input	UNIX 风格输入
stochastic sampling procedure	随机采样程序
true statistical weight	真实统计学权重
antisense oligonucleotide targeting	反义寡核苷酸靶向
inverse folding problem	逆向折叠问题
ensemble defect	集合缺陷
RNA-RNA interaction	RNA-RNA 相互作用
self-structure	自结构
intermolecular structure	分子间结构
duplex structure	双链结构
duplex	双链

049

Comparison of Methods

PDF page 196（"Comparison of Methods" 标题至 "Predicting RNA Tertiary Structure" 标题前）；印刷页码 176

▶

第6章利用 RNA 序列的预测方法

6.9 方法比较

目前仍没有任何单一程序能够完全取代人工比较序列分析（manual comparative sequence analysis），但若能结合额外信息源，预测准确率可以显著提升。当已有 SHAPE 等实验数据时，基于热力学的单序列预测往往能够给出相当准确的二级结构，对已知碱基配对的正确预测率可达到 90% 甚至更高（Deigan et al. 2009; Cordero et al. 2012; Hajdin et al. 2013）。如果可获得多条同源序列，那么对保守二级结构进行的多序列预测（multiple-sequence prediction），通常比单序列预测更准确（Asai and Hamada 2014; Havgaard and Gorodkin 2014）。

对于那些仅靠一级序列、在不利用二级结构信息时难以可靠比对的序列，Dynalign/Multilign（Fu et al. 2014）、FoldAlign/FoldAlignM（Havgaard et al. 2005）、LocARNA（Will et al. 2007）、RAF（Do et al. 2008）以及 TurboFold（Harmanci et al. 2011）都可用于同时预测二级结构并完成序列比对（Mathews and Turner 2002）。这些程序的平均准确率彼此接近。TurboFold 的运行速度最快；但当序列同一性较低时（平均成对序列一致性低于 35%），Dynalign、FoldAlign、LocARNA 或 RAF 往往可能取得更高的准确率。实际分析时，值得并行使用不止一种软件，以形成对保守结构的多个候选假设。

对于一组序列同一性较高的同源序列（>85%），RNAalifold 也是预测多条同源序列共同保守结构的优秀工具（Bernhart et al. 2008）。它要求输入为多重序列比对（multiple sequence alignment）。像 RNAalifold 这类在多重序列比对中寻找二级结构的方法，更适合作为筛选工具（screening tool）来发现共同的螺旋区（common helices）；这些共同螺旋可作为后续人工修订序列比对时的锚点，从而支持进一步轮次的分析。

---

本节要点小结：

单一程序尚不能替代人工比较序列分析。
SHAPE 等实验数据可显著提升单序列预测准确率。
多序列预测通常优于单序列预测。
低同一性序列更适合结合结构信息进行联合比对与预测。
RNAalifold 更适用于高同一性同源序列，并常作为筛选共同螺旋的工具。

---

新增术语（暂记入 QA，待批量入库）：

英文术语	中文建议
manual comparative sequence analysis	人工比较序列分析
multiple-sequence prediction	多序列预测
sequence identity	序列同一性
average pairwise percent sequence identity	平均成对序列一致性
multiple sequence alignment	多重序列比对
screening tool	筛选工具
common helices	共同螺旋区

050

Predicting RNA Tertiary Structure

PDF page 196（"Predicting RNA Tertiary Structure" 标题起）- PDF page 197 真实 Summary 标题前；印刷页码 176-177

▶

第6章利用 RNA 序列的预测方法

6.10 RNA 三级结构预测

尽管目前已经存在许多能够较准确预测 RNA 二级结构（RNA secondary structure） 的自动化方法，但 RNA 三级结构预测（RNA tertiary structure prediction） 仍然是一个更困难的问题。这是因为，可能的三级结构构象空间远大于可能的二级结构空间，而且目前还没有已知算法能够像二级结构预测那样，对这一构象空间进行同样快速而完整的搜索。

RNA 三级结构预测的先驱方法之一，是在 MC-SYM 软件中实现的（Major et al. 1991, 1993; Parisien and Major 2008）。该方法采用所谓的 fragment assembly 思路：从已知结构中收集核苷酸可能采取的构象，再将这些构象逐步拼装成结构模型。每一个可能的模型都会被保留下来，直到它与某个约束条件发生矛盾；这些约束可来自实验数据、比较分析，或二级结构预测结果。所有彼此兼容模型之间的差异，还可以帮助研究者判断：在已有数据支持下，模型究竟被限定到了多高的精度。

MC-SYM 早期的一个代表性应用，是利用二级结构信息、hydroxyl radical footprinting、photoaffinity cross-linking 和 disulfide cross-linking 等数据，对 hairpin ribozyme 进行建模（Pinard et al. 1999）。后续获得的晶体结构证实，其中一个被预测到的长程 GC pair 确实存在；不过，原先预测的一个 base triple（其中涉及该碱基对中的一个 A）并未在晶体结构中观察到（Rupert and Ferré-D’Amaré 2001）。此后，该算法又与一种扩展型二级结构预测方法 MC-Fold 结合使用；MC-Fold 能预测部分三级相互作用，两者联用后，可以较准确地预测长度可达 100 个核苷酸 的 RNA 分子结构（Parisien and Major 2008）。

另一类 RNA fragment assembly 方法建立在 Rosetta framework 之上（Cheng et al. 2015）；这一框架在蛋白质结构预测中已经取得了显著成功（Simons et al. 1997）。它同样采用片段组装策略，但同时结合了 knowledge-based force field，以便在采样过程中优先探索更接近天然态的构象（native-like conformations）。

另一大类 de novo RNA 三级结构预测方法，是基于物理的 molecular dynamics (MD) simulations。不过，单靠 MD 模拟本身，速度通常远远不足以直接完成结构预测。一次典型的 MD 模拟，即便运行在专用硬件上，也可能需要数周时间，而所能模拟的折叠过程往往只有微秒量级。相比之下，在自然条件下，即使是简单的 RNA 分子，其折叠也常需毫秒级甚至更长时间（Turner 2000）；更复杂的结构则可能需要数秒（Woodson 2000）。

为了弥合这一时间尺度差距，通常可采用两大策略。第一种策略，是根据计算结构预测结果、低分辨率实验数据以及序列比较结果，为模拟过程加入约束条件（Seetin and Mathews 2011; Weinreb et al. 2016）。第二种策略，是采用 coarse-graining，也就是用单个“pseudo-atom”替代真实分子中的多个原子，从而减少体系可采样的自由度数量（Flores and Altman 2010; Krokhotin et al. 2015）。这种做法能够显著加快模拟速度，但代价是最终坐标在原子细节层面的准确度会下降。

对于那些已经存在高分辨率实验结构、且与目标序列高度相关的 RNA，还可以采用另一种预测方法，即 homology modeling。在这种方法中，研究者利用同源分子的已知结构，以及该结构与新序列之间的比对关系，来生成新序列的结构模型；其基本假设是：新结构相对于原同源结构，只会在较小的局部细节上发生偏离。由于只需要在与模板结构高度相似的较小构象空间内进行采样，homology modeling 往往既快又能够达到较高准确度。RNA 的同源建模可通过 ModeRNA 程序实现，并且该程序提供 web server（Rother et al. 2011）。

近年来，一个称为 RNA-PUZZLES 的多团队合作项目，尝试通过一种友好的竞赛形式来评估 RNA 三级结构预测方法的进展（Cruz et al. 2012; Miao et al. 2015）。这是一个 blind RNA structure prediction 竞赛，其设计模式借鉴了蛋白质结构领域著名的 CASP (Critical Assessment of Structure Prediction) 挑战赛（Moult et al. 2016）。RNA-PUZZLES 项目会邀请解决新型 RNA 结构的结构生物学家共享其坐标数据；随后，只将该 RNA 分子的序列提供给计算建模人员，由各团队分别提交自己对该序列将形成何种三维结构的最佳预测。最后，在实验结构正式发表之后，再将这些计算模型与实验结果进行比较，并据此评估预测准确度。

RNA-PUZZLES 前两轮的结果显示，建模者通常已经能够较准确地从序列预测 RNA 分子的整体拓扑（overall topology）。不过，结构细节仍常常预测不准，尤其是 loop regions；这些区域的结构往往由 non-canonical contacts 决定，而这类相互作用目前仍较难可靠预测。因此，若要继续提升 RNA 三级结构预测能力，对 loop 区域的精确建模将是一个关键突破口。

---

本节要点小结：

RNA 三级结构预测比二级结构预测困难得多，主要受限于更庞大的构象空间。
MC-SYM 通过 fragment assembly 与约束条件相结合来构建三级结构模型。
MC-Fold 与 MC-SYM 联用，可提升部分 RNA 分子的三级结构预测能力。
基于 Rosetta framework 的方法通过 knowledge-based force field 采样天然态样构象。
MD simulations 可用于 de novo 预测，但速度瓶颈显著。
coarse-graining 与外部约束是加速或稳定 MD 模拟的重要策略。
当存在高质量近缘模板结构时，homology modeling 是高效且较准确的选择。
RNA-PUZZLES 为 RNA 三级结构预测提供了类似 CASP 的盲测评估平台。
当前最薄弱的环节之一，是对 loop regions 及 non-canonical contacts 的准确建模。

---

新增术语（暂记入 QA，待批量入库）：

英文术语	中文建议
RNA tertiary structure prediction	RNA 三级结构预测
fragment assembly	片段组装
hydroxyl radical footprinting	羟基自由基足迹分析
photoaffinity cross-linking	光亲和交联
disulfide cross-linking	二硫键交联
hairpin ribozyme	发卡核酶
GC pair	GC 碱基对
base triple	碱基三联体
knowledge-based force field	基于知识的力场
native-like conformations	天然态样构象
de novo	从头预测
molecular dynamics simulation	分子动力学模拟
coarse-graining	粗粒化
pseudo-atom	伪原子
homology modeling	同源建模
blind RNA structure prediction	盲测 RNA 结构预测
overall topology	整体拓扑
loop region	环区
non-canonical contact	非经典相互作用

051

Summary + Internet Resources + Further Reading + References

PDF page 197 真实 Summary 标题起 - PDF page 204；印刷页码 177-184

▶

第6章基于RNA序列的预测方法

第11节总结与尾部资料

=== PDF page 197 ===

总结

RNA二级结构可通过动态规划的自由能最小化方法进行预测，单序列平均准确率约为73%（Mathews et al. 2004）。已有多个软件包和网络服务器可完成此计算，包括Mfold、Vienna包和RNAstructure（Hofacker 2003; Zuker 2003; Reuter and Mathews 2010）。利用配分函数计算配对概率有助于识别不确定的碱基对（Mathews 2004）。配分函数还可用于从可能的结构集合中随机采样，Sfold程序即利用此功能预测结构（Ding and Lawrence 2003）。

=== PDF page 198 ===

178 基于RNA序列的预测方法

有多种方法可通过多条序列和多序列比对来约束二级结构预测。这些方法分为两大类：受限于初始序列比对的算法，以及不受初始比对约束的算法。RNAalifold和Pfold可预测一组比对序列的共同二级结构（Knudsen and Hein 1999; Hofacker et al. 2002）。Dynalign、FoldAlign、LocARNA和TurboFold能够同时预测共同二级结构和序列比对（Havgaard et al. 2005; Will et al. 2007; Harmanci et al. 2011; Fu et al. 2014）。对于长序列或大量同源物的比对，TurboFold和LocARNA实现了提供良好准确度的快速算法。

近年来，一项重要的发展是高通量实验方法用于探测活细胞内的RNA二级结构（Spitale et al. 2013; Ding et al. 2014; Rouskin et al. 2014; Talkish et al. 2014）。这些方法与计算结构预测方法结合使用（Deigan et al. 2009; Hajdin et al. 2013），必将持续促进对RNA结构与功能的新认识。

RNA二级结构预测领域的一个重要需求是改进RNA-RNA相互作用预测方法。AccessFold（DiChiacchio et al. 2016）和RNAup（Muckstein et al. 2006）等工具较其前身有所改进，但仍缺乏足够的准确度来解决许多实际问题。

RNA三级结构预测正在快速改进，但仍然困难。特别是，虽然可以正确建模螺旋区域和分子的整体拓扑结构，但许多原子细节仍不准确。RNA-PUZZLES竞赛为该领域的快速进展提供了持续评估（Cruz et al. 2012; Miao et al. 2015）。

网络资源

资源名称	网址
Mfold	unafold.rna.albany.edu/?q=mfold
ModeRNA	iimcb.genesilico.pl/modernaserver
最近邻数据库（NNDB）	rna.urmc.rochester.edu/NNDB
RNAstructure	rna.urmc.rochester.edu/RNAstructure.html
Sfold	sfold.wadsworth.org/cgi-bin/index.pl
ViennaRNA包	rna.tbi.univie.ac.at
Wikipedia RNA软件页面	en.wikipedia.org/wiki/List_of_RNA_structure_prediction_software

=== PDF page 199 ===

参考文献 179

扩展阅读

Durbin, R., Eddy, S., Krogh, A., and Mitchison, G. (1998). Biological Sequence Analysis. Probabilistic Models of Proteins and Nucleic Acids. New York, NY: Cambridge University Press. 本书是序列分析概率模型的优秀入门读物，包括隐马尔可夫模型和随机上下文无关文法。

Gorodkin, J. and Ruzzo, W. L. (eds.) (2014). RNA Sequence, Structure, and Function: Computational and Bioinformatic Methods. New York, NY: Humana Press.

Turner, D. H. and Mathews, D. H. (2009). NNDB: the nearest neighbor parameter database for predicting stability of nucleic acid secondary structure. Nucleic Acids Res. 38: D280–D282. 本文介绍了NNDB，该数据库提供最新的最近邻参数和使用示例。

=== PDF page 199-203 ===

参考文献

参考文献题录保留英文原文（见源文）。

=== PDF page 204 ===

（空白页）

Chapter 7

Predictive Methods Using Protein Sequences

052

Introduction

PDF page 205-206 前；印刷页码 185-186

▶

第7章基于蛋白质序列的预测方法

引言

简言之，DNA 编码生命的指令，而蛋白质则是生命的运作机器。DNA 被转录为 RNA，RNA 再将信息传递到蛋白质的氨基酸序列中。Francis Crick（1958）提出的"分子生物学中心法则"这一简化版本至今仍基本有效，尽管新发现已拓展了我们的视野（Elbarbary et al. 2016）。此外，表观遗传学研究已经表明，染色质所包含的信息远比一维（1D）字母串复杂，表观遗传特征的遗传性对基因表达有着深远影响（Allis and Jenuwein 2016）。然而，一维蛋白质序列最终决定了蛋白质折叠所形成的三维（3D）结构——蛋白质在细胞中的定位、与哪些其他分子相互作用、其生化与生理功能，以及它最终如何被分解并还原为组成单元（Anfinsen 1973）。总而言之，每个蛋白质的功能（或在疾病情况下的功能障碍）都编码在氨基酸序列之中。

中心法则表明，蛋白质的一切信息都可以从其 DNA 序列推断出来——那么，为什么还要分析蛋白质序列呢？事实上，通过计算方法将 DNA 转化为蛋白质序列颇具挑战，而且我们至今仍不完全理解如何根据编码蛋白质的 DNA 来识别其结构。从 DNA 预测转录本则更加困难。幸运的是，许多实验方法（包括蛋白质组学方法）可用于推断蛋白质序列，这将在第 11 章中讨论。

"下一代"DNA 测序技术的出现产生了大量尚未被深入研究的原始序列数据（Martinez and Nelson 2010; Goodwin et al. 2016）。序列积累的速度远远超过了实验生物学家破译其生化特性和生物学功能的能力。已知序列与已知功能的蛋白质数量之间存在"序列-功能鸿沟"（sequence-function gap），这一鸿沟不断扩大，亟需改进的计算方法来从氨基酸序列预测蛋白质的功能。与之类似，蛋白质也存在"序列-结构鸿沟"（sequence–structure gap）：截至本文撰写时，已有 1.8 亿个蛋白质序列可用，但仅确定了约 15 万个不同的蛋白质 3D 结构（Berman et al. 2000; UniProt Consortium 2016）。

确定蛋白质功能的第一步是分析已有的知识。这意味着每个蛋白质都必须与所有其他蛋白质进行比较，这意味着研究蛋白质功能所需的计算时间随序列增长的平方而增长——这对计算生物学和生物信息学是一个巨大的挑战。在下面的各节中，我们将综述一些已证明能够从氨基酸序列成功预测蛋白质结构和功能的方法。

蛋白质一维结构预测

内容提要

蛋白质的 1D 结构可以简单地表示为一串代表天然氨基酸集合的字符——也就是说，信息含量是一维的。关于蛋白质结构的更多细节可见第 12 章，在本章中，我们将专门关注 1D 预测方法。1D 特征预测之所以重要，有两个原因。首先，诸如跨膜螺旋数量、蛋白质无序区域或表面残基等特征通常对蛋白质功能至关重要。如果实验获得的 3D 结构可用，我们可以从 3D 结构推导出 1D 结构，但鉴于上述讨论的序列-结构鸿沟，实验获得的 3D 结构仅占所有已知序列的不到 1%，而 1D 预测可用于今天已知的全部 1.8 亿个蛋白质序列。其次，1D 结构预测被用作后续功能预测章节中描述的大多数方法的输入。这里描述的所有特征均可从 PredictProtein 服务器获取，该服务器如图 7.1 所示，并提供超过 2000 万个蛋白质的预计算数据（Rost et al. 2004; Kajan et al. 2013; Yachdav et al. 2014）。

053

One-Dimensional Prediction of Protein Structure

PDF page 206-220；在 PDF page 221 的 `Predicting Protein Function` 真实标题前停止；印刷页码 186-200

▶

02 蛋白质一维结构预测

蛋白质的一维（1D）结构，可看作由天然氨基酸字母构成的一串线性符号。虽然蛋白质结构的更多细节将在第 12 章展开，但本节聚焦于一维特征预测（one-dimensional prediction）。之所以重要，主要有两个原因。第一，诸如跨膜螺旋数量、蛋白质无序区、残基表面暴露程度等 1D 特征，往往直接关系到蛋白质功能。第二，这些 1D 预测结果经常被作为后续功能预测方法的输入。书中提到的许多特征都可以通过 PredictProtein 服务器获得；它为两千多万个蛋白质提供了预计算结果，并整合了多种序列预测工具。

二级结构与溶剂可及性

背景

蛋白质二级结构（secondary structure），是由较短氨基酸片段在局部和全局作用力共同驱动下形成的局部宏观结构。典型的二级结构包括：

α-helix：由一个残基的羰基与其后第 4 个残基的氨基形成氢键而稳定；
β-strand：主链呈锯齿状延展；多个 β-strand 之间可通过氢键形成 β-sheet；
coil / loop / other：既不属于螺旋也不属于折叠片层的其他区域。

二级结构预测是推断蛋白质功能与演化的重要步骤。早期方法依赖简单的氨基酸偏好性，例如脯氨酸常常破坏螺旋；后续方法开始利用滑动窗口，结合局部邻域信息来预测中央残基的结构类别。再往后，一个关键进展是引入了进化信息（evolutionary information）：先用 PSI-BLAST 或更敏感的 HHblits 搜索同源序列，再构建 multiple sequence alignment (MSA)，进一步转成 position-specific scoring matrix (PSSM) 等表示。由于同源蛋白通常具有相似结构，MSA 中的保守与替换模式会携带强烈的结构信号。

Box 7.1 Hidden Markov Models

本节还借助一个小例子介绍了 hidden Markov models (HMMs)。在蛋白质分析里，HMM 最重要的用途之一，是为蛋白家族构建稳定可靠的 MSA。HMM 通过 match / insert / delete 三类状态来表示每一列比对的统计特征，并通过状态转移概率刻画序列在模型中的“走法”。训练好之后，profile HMM 既可以用来把新序列比对回已知家族，也可以反过来扫描数据库，寻找潜在的新成员。

溶剂可及性

除二级结构外，单个残基的另一个重要性质是溶剂可及表面积（solvent accessibility / accessible surface area, ASA）。它表示残基表面有多少面积能被溶剂接触。经典直观定义是：用一个代表水分子的探针球沿蛋白质表面“滚动”，探针中心扫过的轨迹对应可及表面。深埋在蛋白内部的残基虽然不直接参与分子结合，却可能对维持结构稳定性至关重要；因此，ASA 预测对于功能位点识别也很重要。

为训练这些预测器，需要先从已知三维结构中提取标准注释。最经典的工具是 DSSP，它根据氢键模式给出 8 类二级结构注释，并计算每个残基的 ASA。其他常见程序还包括 STRIDE 和 NACCESS。

代表性方法

这一部分介绍了若干经典与常用服务器：

PHDsec / PROFsec / ReProf：较早将机器学习引入二级结构预测的方法。其思路是：先用神经网络对局部窗口做初步预测，再用第二层网络平滑掉不合理模式，例如一段 α-helix 中间突然夹入一个孤立 β-strand 残基。后来方法逐步演化为 PROFsec，最新版本以 ReProf 的形式整合在 PredictProtein 中。其溶剂可及性预测器也从 PHDacc / PROFacc 逐步发展而来。

PSIPRED：也是神经网络驱动的二级结构预测器。它先用 PSI-BLAST 为查询序列建立 profile，再把 profile 输入两层神经网络进行预测，是长期表现稳定、应用广泛的方法。

Proteus：采用“同源结构直接转移 + 序列预测补足”的混合策略。若在 PDB 中找到了与查询蛋白足够相似的结构同源物，就把其已知二级结构标注映射到查询序列；未对齐区域再由序列预测方法补齐，最后通过神经网络做一致性整合。

SANN：面向溶剂可及性的预测器。它基于 PSI-BLAST 产生的 PSSM，在滑动窗口中寻找最相近的邻居，再输出二分类或三分类的可及性状态，同时也可给出 0–1 连续值形式的 relative solvent accessibility (RSA)。

SSpro5 / SSpro8 / ACCpro5：既可做纯序列预测，也可借助已知结构同源物。其序列端核心是 bidirectional recurrent neural networks (BRNNs)，可以同时利用窗口前后方向的信息。

RaptorX Property：可同时预测二级结构、溶剂可及性和无序区，采用 deep convolutional neural fields，以 profile 为输入，兼顾局部邻域与全局结构相关性。

SPIDER3：基于深度学习的综合性质预测器，不仅预测二级结构和溶剂可及性，还预测主链扭转角及若干几何角度。它通过迭代方式，让不同结构性质之间相互提供上下文信息。

Box 7.2 Neural Networks

书中用一个简化示意图说明了神经网络（neural networks）的工作机制：输入层接收序列或其编码，隐藏层学习复杂关联，输出层给出结构类别。若输入和输出之间的因果规则并不清楚，神经网络就能借助带标签的训练集，通过监督学习自动调整连接权重，逼近这种映射关系。二级结构预测之所以适合这种框架，是因为已知 3D 结构可为每个残基提供明确的结构标签。

性能评估

二级结构预测最常用的指标是 Q3 score，即三分类准确率。但由于三类残基并不平衡，仅看 Q3 不够：β-strand 通常最难预测，而且在真实数据里占比也最低，因此有些方法虽然 Q3 不低，却几乎不能有效识别 β-strand。

为此，还需要考虑分段层面的指标，如 segment overlap score (SOV)。SOV 不只看单个残基预测对错，还关注整个结构片段的边界与连续性，更符合生物学解释。

书中也介绍了 receiver operating characteristic (ROC) curve 与 AUC_ROC：当模型输出的是连续置信度而非离散标签时，可以通过改变阈值来观察 true-positive rate (TPR) 与 false-positive rate (FPR) 的变化，从而评价分类器区分两类样本的能力。

综合已有评测，较新的二级结构预测方法大致可达到 Q3 ≈ 80–85%。作者同时指出：由于实验结构本身存在误差、不同注释标准之间也有不一致，理论上的 100% Q3 实际上不可达。因此，这一领域的核心挑战已经逐渐从“更准地预测二级结构”，转向“更准地预测三级结构”。

对于溶剂可及性，评价指标会随输出形式变化：

若输出为 buried / exposed 等离散状态，可用 Q2 / Q3；
若输出为连续的 RSA 值，则更适合用 Pearson’s correlation coefficient。

作者还提到，过去曾有 EVA 与 LiveBench 等自动评测平台，但现已停止服务；而社区最重要的独立评测框架，则是双盲形式的 CASP。

跨膜 α 螺旋与 β 链

背景

细胞与环境之间的大部分信息交流，都依赖嵌在膜中的蛋白质进行。估计约 20–30% 的蛋白质属于跨膜蛋白（transmembrane proteins）。其中包含许多药物开发重点靶点，例如 G-protein-coupled receptors (GPCRs)。然而，膜蛋白的实验结构解析明显比可溶蛋白更困难，因此其在 PDB 中长期代表性不足，计算预测就显得尤为关键。

跨膜结构主要有两种基本形式：

transmembrane alpha helices
transmembrane beta strands / beta barrels

虽然它们本质上仍属于二级结构，但膜蛋白为了适应疏水膜环境，进化出了与可溶蛋白明显不同的物理化学特征，因此不能简单直接复用普通二级结构预测器。最核心的性质是疏水性（hydrophobicity）：它决定残基能否稳定埋在膜内。此外，还常常需要预测拓扑（topology），也就是跨膜片段相对于胞质侧和非胞质侧的朝向。这里一个经典规律是 positive-inside rule：胞质侧 loop 往往富含更多带正电残基。

代表性方法

Phobius / TMHMM：利用 HMM 表示球状区段、loop、螺旋末端和跨膜核心等状态。Phobius 进一步加入了 signal peptide 状态，因此能更好地区分信号肽与真正的跨膜螺旋。

PolyPhobius：在不改变 HMM 主体结构的情况下，引入 MSA 的进化信息以提升性能。

Proteus-2：先预测信号肽，再与实验注释数据库比对；若存在已知跨膜同源物，则直接转移跨膜标注；否则结合 TMHMM 与 TMB-HUNT 进行预测；最后再为剩余残基补上结构类别。

MEMSAT-SVM：使用 4 个 SVM，分别处理跨膜螺旋、信号肽、loop 与 re-entrant helices。后者是一个很特别的结构：螺旋进入膜后又从同一侧返回。

TMSEG：把随机森林与神经网络相结合，先对每个残基打分，再通过平滑与片段级精修得到最终跨膜区段和拓扑。其优势之一是能较好地区分“有膜螺旋的蛋白”和“无膜螺旋的蛋白”。

BETAWARE：专门识别 transmembrane beta barrel (TMBB) 蛋白，是较少见的专项预测器。

BOCTOPUS2：用于 TMBB 的链与拓扑预测。文中将其推荐为预测跨膜 β-strand / TMBB 的良好起点。

跨膜预测的性能评估

跨膜预测可以在 3 个层级上打分：

per-residue：逐残基判断；
per-segment：逐跨膜区段判断；
per-protein：整条蛋白的整体正确性。

作者特别强调，逐残基指标如 Q2 / Q3 容易高估实际可用性。比如一条跨膜螺旋中间被错误插入一个非膜残基，对 Q2 的影响可能不大，但从生物学上看却很糟糕。因此还要使用：

segment recall / segment precision
Qok：要求一个蛋白的所有跨膜螺旋都预测正确，标准更严格
SOV：衡量预测片段与真实片段的重叠程度

书中给出的结果表明：很多方法的逐残基准确率都能超过 80%，但更严格的 per-protein 指标往往明显更低。因此解释预测结果时，不能只看一个单一分数。

无序区（Disordered Regions）

背景

有些蛋白质区域在孤立状态下并不会折叠成稳定、单一定义的结构，而是在较大的构象空间中波动，这些区域称为无序区（disordered regions）。含有这类区域的蛋白常被称为：

intrinsically disordered proteins (IDPs)
intrinsically disordered regions (IDRs)

文献里也常见 intrinsically unstructured、natively disordered、loopy 等相关说法。此类区域通常表现出低序列复杂度，并偏向富含亲水残基。

无序区并不是“没用的杂乱部分”。恰恰相反，它们常参与调控与信号转导，因为柔性的结构可以适应更多种结合方式。真核生物中的 IDP/IDR 尤其常见，并经常出现在拥有多个互作伙伴的网络枢纽蛋白中。

作者指出，无序预测在以下方面都很有价值：

辅助结构解析
药物设计
疾病风险评估

从大规模统计看，真核生物中长度超过 30 个残基的 IDR 明显多于原核生物。

预测思路与方法

无序区预测大致有 3 条路线：

基于序列组成与理化性质；
结合序列与 MSA，并借助机器学习；
使用元预测器整合多个工具的结果。

代表性方法包括：

PrDOS / PrDOS-CNF：两阶段方案。先用 SVM（后续版本改用 conditional neural fields）结合 PSI-BLAST 产生的 PSSM 做窗口预测；再引入与已知 3D 结构同源序列的信息，根据对应位置是否无序来修正概率。

metaprdos2：整合多个预测器结果的 meta-predictor。

DISOPRED3：结合神经网络、SVM 和最近邻预测器，不仅预测长无序区，还能预测位于 IDR 内部的潜在蛋白结合位点。

POODLE 系列：一组基于 SVM 的无序预测器，包括面向短无序区、长无序区、整体有序/无序判定，以及元整合版本。它强调按不同无序片段长度采用不同建模策略。

本节小结

这一 canonical section 说明了：从蛋白序列中提取一维结构信息，是连接“序列”与“结构/功能”的关键中间层。其核心内容可以概括为：

二级结构与溶剂可及性预测，是蛋白质结构推断的基础；
进化信息（MSA、PSSM、profile）极大推动了预测性能提升；
HMM、神经网络、深度学习等方法，已成为这一领域的主流建模框架；
评价预测器不能只看逐残基准确率，还要看 SOV、ROC/AUC、Qok 等更贴近实际应用的指标；
跨膜蛋白因其特殊物理化学环境，需要专门预测器；
无序区虽然缺乏稳定结构，但在调控和结合中功能显著，且具有独立的方法学体系。

---

新增术语（暂记入 QA，待批量入库）：

英文术语	中文建议
one-dimensional prediction	一维特征预测 / 一维结构预测
solvent accessibility	溶剂可及性
accessible surface area (ASA)	可及表面积 / 溶剂可及表面积
relative solvent accessibility (RSA)	相对溶剂可及性
hidden Markov model (HMM)	隐马尔可夫模型
multiple sequence alignment (MSA)	多序列比对
position-specific scoring matrix (PSSM)	位点特异性打分矩阵
bidirectional recurrent neural network (BRNN)	双向循环神经网络
Q3 score	Q3 分数 / 三分类准确率
segment overlap score (SOV)	片段重叠分数
receiver operating characteristic (ROC) curve	受试者工作特征曲线
area under the ROC curve (AUC_ROC)	ROC 曲线下面积
transmembrane protein	跨膜蛋白
positive-inside rule	正电荷朝内规则
signal peptide	信号肽
transmembrane beta barrel (TMBB)	跨膜 β-桶
re-entrant helix	回入式螺旋
intrinsically disordered protein (IDP)	固有无序蛋白
intrinsically disordered region (IDR)	固有无序区
meta-predictor	元预测器

054

Predicting Protein Function

PDF page 221-234 前；印刷页码 201-214

▶

03 蛋白质功能预测

蛋白质结构预测之所以重要，根本目的仍然是理解蛋白质功能（protein function）。如果能直接从氨基酸序列推断功能，就能为海量新测得序列提供快速注释，并为后续实验验证提供方向。

内容提要（Synopsis）

如今绝大多数蛋白质序列都来自基因组测序，许多蛋白质的功能研究首先只能依赖计算预测。最常见的方法，是把已知同源蛋白的功能注释转移给待研究序列；但大规模评测表明，这种 homology transfer 虽然实用，却有明显局限，必须谨慎解释。另一方面，很多蛋白质并没有已注释的近同源物，因此研究者发展出大量利用序列特征、结构线索和机器学习模型的功能预测方法。

蛋白质功能本身是多维度的：它可能涉及分子层面的催化或结合活性，也可能涉及细胞定位、参与的生物过程、互作伙伴，甚至单个氨基酸变异对功能的影响。本节重点讨论分子功能相关的若干方向：

motifs and domains：蛋白质功能单元的识别；
Gene Ontology (GO)：标准化功能词汇体系下的功能预测；
subcellular localization：亚细胞定位预测；
protein interaction sites：蛋白质与蛋白质 / DNA / RNA 的结合位点预测；
effect of sequence variants：单氨基酸变异对功能影响的预测。

---

Motifs and Domains

背景

蛋白质中存在许多承担特定功能的短序列和较长结构单元。motif 通常较短，例如核定位信号（nuclear localization signal）或丝氨酸蛋白酶活性位点的短保守基序；structural domain 则是能够独立折叠、在不同蛋白中重复出现并承担某类功能的结构片段，常见长度约为 100–500 个残基。识别一个新蛋白中的 motif 或 domain，往往就能对其结构和功能作出第一轮推断。

motif 和 domain 往往是通过比较一组同源蛋白中的保守区域而发现的。最简单的模式可写成 regular expression；更复杂的模式则更适合用 position-specific scoring matrix (PSSM) 或 hidden Markov model (HMM) 表达，并依托 multiple sequence alignment (MSA) 构建。对应工具包括 HHsearch 与 HMMER。除已知模式搜索外，也有方法尝试仅根据序列本身预测 domain、domain boundary 或 linker 区域。

数据库与资源

本节把 InterPro 作为 motif / domain 注释的核心整合入口。InterPro 汇集多个成员数据库，并通过 InterProScan 提供统一搜索。书中列举的重要成员包括：

PROSITE：规则表达式样式的模式与 profile；
Pfam：基于人工整理 seed alignment 构建的 profile HMM 家族库；
SMART：人工整理的 domain HMM，并提供部分 ortholog 信息；
TIGRFAM：强调更具体功能注释的 curated HMM 家族；
SUPERFAMILY：基于 SCOP 结构分类派生的 HMM；
PRINTS：由多序列比对整理得到的“fingerprints”；
PRODOM：主要基于 PSI-BLAST 自动生成的 domain families；
CATH-Gene3D：依托 CATH 超家族注释建立的 profile HMM；
PIRSF：全长同源序列家族；
PANTHER：带系统发育树的同源基因家族；
HAMAP：与 UniProtKB 同步的人工整理蛋白家族 profile；
SFLD：面向酶功能层级聚类的人工整理数据库；
CDD：整合 Pfam、SMART、COG、PRK、TIGRFAM 等的 conserved domain meta-database；
MobiDB：长度大于 20 aa 的无序区共识预测资源。

这些资源之间存在“有意的冗余”：不同数据库从不同角度描述同一蛋白片段，组合起来反而更有利于得到更完整、更可靠的功能注释。

除 InterPro 外，书中还强调了：

SCOP2：人工整理的 PDB 结构域分层体系；
CATH：半自动结构域分类体系；
SOLID：CATH 的扩展，用更高序列一致性阈值细分家族；
FunFams：基于 specificity-determining positions (SDPs) 聚类得到的功能家族；
COG：主要面向微生物全长蛋白的 orthologous groups。

书中同时指出，没有任何单一数据库能完整覆盖功能注释的所有方面，因此像 InterPro 这样的 meta-database 尤其重要。另一个方向是 Swiss-Prot 和专注人类蛋白的 neXtProt：它们更强调专家阅读文献后的深度人工注释，而不是单纯追求覆盖面。

方法

教材在这里介绍了一批仅靠序列预测结构域或边界的方法：

DomCut：利用滑动窗口比较 domain 区与 linker 区的氨基酸频率差异；
Scooby-Domain：利用疏水性组成，在多尺度窗口上搜索可能的 domain 架构，并可结合 DomCut / PDLI 与同源信息进一步优化；
DOMpro：以递归神经网络处理整条序列，输入包括 PSSM、预测二级结构与溶剂可及性；
Dom-Pred：由 DomSSEA 与 DPS 两部分组成，前者利用二级结构轮廓识别已知 domain，后者尝试预测未知 domain 的边界。

性能

domain 预测通常可在两个层面评价：

预测蛋白含有多少个 domain；
正确识别 domain boundary / linker region。

文中给出的结果表明：如果允许借助同源结构或模板信息，预测 domain 数量的表现通常较好；但要精确划定边界则困难得多。CASP8 对 domain boundary prediction 的独立评测也表明：使用结构模板的方法明显优于纯 ab initio 方案，而单结构域蛋白在评测集中往往被高估，因此读者不应把不同论文给出的性能数字直接横向比较。

---

Gene Function Prediction Based on the Gene Ontology

背景

若要系统地预测和评估蛋白质功能，就需要一个定义清楚、层级明确的术语系统。Gene Ontology (GO) 正是目前最标准、最全面的功能词典。GO 用三个彼此相关的 ontology 描述功能：

molecular function ontology (MFO)：分子层面的活性，如某种酶活性；
biological process ontology (BPO)：蛋白参与的生物过程；
cellular component ontology (CCO)：蛋白所在的细胞组分。

每个 ontology 都是一个 directed acyclic graph (DAG)。越靠叶节点，术语越具体。GO 还与多种基因组和蛋白数据库合作，维护术语到基因/蛋白的注释，并通过 evidence code 标明证据来源，例如“inferred from sequence similarity”或“traceable author statement”。

方法

书中介绍的代表方法包括：

Metastudent：最直接的同源转移方法。用 BLAST 找相似序列并转移 GO 注释；若找不到可用同源物，就不给出预测。它整体可靠性有限，但部分术语可达到较高可信度。
COGIC：混合同源转移与机器学习。它综合使用 PSI-BLAST 命中、UniProtKB/Swiss-Prot 文本挖掘、3-mer 频率与 GO 术语的关联、FFPred 输出、EggNOG 远缘关系、PSSM 相似性神经网络，以及 FunctionSpace 的高通量数据，最终再结合 GO 图结构进行传播。
FFPred 3.0：面向人类蛋白的 de novo GO 预测器。由于 GO 是典型的多标签问题，而 SVM 是二分类器，FFPred 为不同 GO 术语分别训练大量 SVM。输入特征包括氨基酸组成、预测二级结构、跨膜区段、无序区、signal peptide、subcellular localization 等。
FunFams-based prediction：先把蛋白定位到相应 CATH superfamily，再映射到对应 FunFam，并把该功能家族及其 GO DAG 祖先上的术语转移给查询蛋白。

性能与 CAFA

GO 预测的评估比普通分类问题更复杂，因为预测出的术语若与真实术语不是完全一致，但位于其父节点，也应得到部分信用。评估还可分为：

protein-centric：看单个蛋白的全部 GO 术语预测得如何；
term-centric：看某个 GO 术语在所有蛋白上的预测情况。

方法论文最常报告的指标，是蛋白中心的 Fmax，也就是在 precision-recall 或 ROC 曲线上能达到的最大 F1 值。教材强调，蛋白功能预测社区中最重要的独立评测体系是 CAFA (Critical Assessment of Function Annotation)，它相当于功能预测领域的 CASP。

CAFA 的基本流程是：先公布一批目标蛋白，参赛者在截止日期前提交预测；之后进入数月的 annotation growth 阶段，等待新的实验数据被 GO curator 整理入库，再用这些“后验新增”的真实注释来评估此前的预测。书中回顾了 CAFA1、CAFA2、CAFA3 的扩展过程，并指出：

MFO 往往最好预测；
BPO 更难；
CCO 的评估容易受到常见宽泛术语主导；
没有任何单一方法能在所有 ontology 和所有评分体系下长期稳居第一。

总体来看，从 CAFA1 到 CAFA2，性能确有提升；同时，较好的方法在低同源“困难目标”上未必会急剧崩溃，这一点令人鼓舞。但作者也提醒，功能预测的难度仍明显高于结构层面的某些任务。

---

Subcellular Localization

背景

蛋白质在细胞中的亚细胞定位（subcellular localization） 本身就是重要的功能线索。虽然蛋白质可能在不同区室之间移动，但大多数蛋白在其生命史的大部分时间里，主要在某一个细胞区室中发挥功能。细胞分选机制相对清楚，可提供许多可供模型利用的特征；同时，UniProtKB/Swiss-Prot 也为一部分蛋白提供了实验定位数据，因此这一方向长期是功能预测中最成熟、最有实际应用价值的分支之一。

不过，尽管手工注释数据库已经积累了数万条实验定位记录，相对于全部已知蛋白，这个比例仍很低。因此，计算预测依然是填补空白的核心手段。

方法

本节介绍了三类代表方法：

LocTree3：把蛋白运输路径抽象为层级化的 SVM 决策树，可预测真核 18 类、细菌 6 类、古菌 3 类定位。它优先做 PSI-BLAST 同源转移；若找不到可靠同源物，则回退到 de novo 的 LocTree2，后者使用 profile-kernel SVM 和 k-mer conservation 特征。
MultiLoc2：整合整体氨基酸组成、sorting signal、系统发育谱和 GO 术语。提供 LowRes 与 HighRes 两个版本，后者还能覆盖跨膜蛋白并预测更多真核定位类别。
DeepLoc：只依赖序列本身做 ab initio 预测。它先用卷积神经网络抽取不同长度的 motif，再送入循环神经网络和后续过滤层，最后以类似层级方法给出定位类别。

性能

亚细胞定位虽然是多分类任务，但很多研究仍使用类似二分类准确率的指标来报告性能。教材总结认为：新的综合模型普遍优于旧方法；某些定位类别（如 extracellular proteins）可达到 85% 以上准确率，而胞质、线粒体、膜系统等类别通常较低。书中提到 DeepLoc 在其新数据集上的总体准确率约 78%，高于同集上的 LocTree2 和 MultiLoc2。

---

Protein Interaction Sites

背景

大多数蛋白并不是单独起作用，而是在分子复合体和互作网络中发挥功能。因此，预测结合位点（binding sites） 或 interaction interfaces 是理解功能的重要步骤。本节聚焦于只根据单条蛋白 1D 序列来预测非共价的蛋白—蛋白互作位点；而基于已知 3D 结构的更复杂方法，则在其他章节和综述中讨论。

蛋白互作位点形式多样：

可能是由 3D 折叠后才邻近的一大片表面；
也可能是酶中结合小分子的活性位点；
还可能是位于无序区中的短线性结合片段。

界面残基通常通过单体与复合体状态下 accessible surface area (ASA) 的差异，或 3D 结构中的距离标准来定义。实验上，alanine scanning 是常用手段：逐位点突变为 alanine，再测量结合强度变化。对结合贡献特别大的残基常被称为 hot spots，也是药物设计高度关注的区域。

此外，教材也提到近年来根据 correlated mutations / coevolution 从 MSA 中寻找互补变异模式的新路线，例如 FILM3、EVfold、EVcomplex。这些方法在 CASP11 / CASP12 期间进展很快。

数据库

书中列出多种收录互作界面信息的数据库与资源：

PISA
IBIS
IPfam
PIFACE
3did
BID
ASEdb

这些资源分别覆盖结构界面、同源推断界面、alanine scanning 结果等不同层面的证据。

方法

1. 蛋白—蛋白界面残基预测

一条经典路线，是从已知界面残基中学习其理化和序列模式，再在新蛋白中搜索这些模式。早期 Ofran and Rost 的方法仅用序列与滑动窗口神经网络即可工作；后续方法进一步引入进化信息、预测二级结构和溶剂可及性。PSIVER 强调 predicted accessibility 的价值；HomPPI 则是典型的纯同源转移方法，把 PDB 复合体中已知界面映射到同源蛋白。另一个重要资源 ELM 收录短线性蛋白结合位点模式，并可在查询序列中识别已知 pattern。

2. 蛋白—DNA / RNA 结合位点预测

书中还分别介绍了核酸结合位点预测器：

DBS-PSSM：用小型神经网络加 PSI-BLAST PSSM 预测 DNA-binding residues；
DP-Bind：整合 SVM 与两个 logistic regression 模型；
SomeNA：层级神经网络，先判断蛋白是否结合 DNA 或 RNA，再预测具体位点；
Pprint：基于 SVM 的 RNA-binding residue 预测；
RNABindRPlus：将 SVM 与同源方法 HomPRIP 结合起来预测 RNA 结合位点。

性能

对于 protein–protein interaction (PPI) 位点，常用的仍是一般二分类评估指标。但教材明确指出：由于缺乏统一、近期的独立评测，不同方法作者报告的数值很难直接比较，而且该领域整体性能似乎已进入平台期。

对于 DNA / RNA 结合位点，书中引用的综述表明，多数 DNA-binding residue 预测器的 AUC_ROC 大约在 0.79 左右，已经有一定实用价值，但不同方法往往在 sensitivity 与 specificity 之间取舍不同。共识模型通常优于单模型。RNA-binding residue 的表现略低，例如 RNABindR 与 Pprint 的 AUC_ROC 就低于 DNA 结合预测。作者还特别提醒：很多方法默认输入蛋白“已知会结合核酸”，因此这些性能数字并不能回答“这个蛋白是否本身就是核酸结合蛋白”这一更困难的问题。

---

Effect of Sequence Variants

背景

任意两个无亲缘关系的人类个体，在基因组上大约相差 500 万个位点，并包含约 2 万个 single amino acid variants (SAVs)。关键问题是：这些变异会不会影响蛋白功能？由于潜在变异数量极大，不可能全部用实验方法逐一验证，因此需要计算预测工具填补空白。

书中提到，一些分析甚至发现：健康个体中也存在不少看起来对功能影响很强的 SAV；常见 SAV 对功能的影响有时并不比罕见 SAV 更弱；而个体间变异平均影响甚至可能高于人与近缘物种之间的天然差异。与此同时，多数现有方法仍强烈偏向人类变异数据，泛化到其他物种时需谨慎。

方法

SIFT

SIFT 是最早的一批 SAV 功能影响预测器之一。它的核心思想很朴素：若某位置在同源家族中高度保守，那么把该位置改成未见过的氨基酸，很可能会损伤功能；若变异后的残基在同源序列中经常出现，则更可能是中性的。SIFT 使用 PSI-BLAST 构建 MSA，并据此判断变异是否 deleterious。

PROVEAN

PROVEAN 与 SIFT 共享“进化保守性是核心信号”这一思想，但做了重要扩展：它不仅能预测替换，也能预测插入、缺失以及多个同时发生的变异。其流程先把相似序列按 80% 一致性聚类，再选取与查询序列最相近的若干 cluster，通过 BLOSUM62 计算 delta score，最后与经验阈值比较，判断变异是否有害。先按 cluster 求平均再合并，可以减少高度冗余同源序列带来的偏置。

PolyPhen-2

PolyPhen-2 综合使用保守性与实验 / 预测得到的结构信息。它从更大的特征集中筛选出若干序列特征与结构特征，并通过 naive Bayes classifier 输出最终分数。与 SIFT 更偏向“分子功能是否改变”不同，PolyPhen-2 的训练目标更偏向“是否导致疾病相关系统表型”。因此它实际上更接近疾病效应预测器，而不仅仅是纯分子层面的功能扰动预测器。

SNAP2

SNAP2 使用神经网络系统来预测 SAV 对蛋白分子功能的影响。除了保守性这个最强信号，它还引入二级结构、结合位点、无序区等序列级预测特征，以及蛋白长度、氨基酸组成等全局特征。SNAP2 的一个核心理念，是支持全面 in silico mutagenesis：对蛋白中每个位置、每种可能氨基酸替换都计算效应分数，从而形成类似 Figure 7.9 那样的热图，用于观察哪些位点对扰动高度敏感。

CADD

CADD 是本节中唯一不是以蛋白序列为中心的方法。它直接对基因组变异打分，因此既能处理编码区 SAV，也能处理非编码区 single nucleotide variants (SNVs) 与小型 indel。CADD 综合 63 个特征，包括进化、调控、转录本信息，以及来自 PolyPhen 和 SIFT 的预测分数，并通过 SVM 输出一个统一的 deleteriousness score。由于它不依赖“变异类型必须是蛋白替换”这一前提，因此适用范围更广。

性能

变异效应预测通常仍用 AUC_ROC、accuracy 等常规分类指标评价。教材举例指出，在一项独立评估中，SIFT、PolyPhen 和 CADD 的 AUC_ROC 大致在 0.59–0.63；但若换成 TP53 等功能测得更细致的数据集，表现可能明显更高。不同研究中方法排名经常大幅波动，原因包括：

使用的数据集不同；
预测目标不同（分子功能、通路、个体表型等）；
训练数据存在 ascertainment bias，即研究充分的蛋白更容易进入训练集，从而高估泛化性能。

因此，这类工具更适合用来提出假设（generate hypotheses），而不是直接替代实验结论。

---

本节小结

本 canonical section 围绕“如何从蛋白质序列推断功能”展开，核心信息可概括为：

motif、domain 及其边界，是功能注释最基础的切入口；
GO 为功能预测提供了统一的层级化语言，而 CAFA 则是最重要的独立评测框架；
亚细胞定位预测是最成熟、最常落地的功能预测任务之一；
结合位点预测覆盖蛋白—蛋白、蛋白—DNA、蛋白—RNA 等多个方向，但评测标准和任务边界要看清；
SAV / SNV 效应预测能帮助发现潜在致病或功能关键位点，但其结果更应作为实验假设，而不是最终裁决；
同源转移、PSSM / HMM、神经网络、SVM、深度学习与多源整合，是这一整类问题的共同方法学主线。

---

新增术语（暂记入 QA，待批量入库）

英文术语	中文建议
motif	基序 / 模体
structural domain	结构域
domain boundary	结构域边界
linker region	连接区
Gene Ontology (GO)	基因本体
molecular function ontology (MFO)	分子功能本体
biological process ontology (BPO)	生物过程本体
cellular component ontology (CCO)	细胞组分本体
evidence code	证据代码
directed acyclic graph (DAG)	有向无环图
protein-centric evaluation	蛋白中心评估
term-centric evaluation	术语中心评估
Fmax	最大 F1 分数 / Fmax
Critical Assessment of Function Annotation (CAFA)	功能注释关键评测
subcellular localization	亚细胞定位
binding site	结合位点
interface residue	界面残基
alanine scanning	丙氨酸扫描
hot spot	热点残基
single amino acid variant (SAV)	单氨基酸变异
single nucleotide variant (SNV)	单核苷酸变异
deleterious	有害的 / 损伤功能的
in silico mutagenesis	计算机模拟诱变 / in silico 诱变
ascertainment bias	选择偏倚 / 发现偏倚

055

Summary + Internet Resources + Further Reading + References

PDF page 234 下部真实 Summary 标题起 - PDF page 245；印刷页码 214-225（PDF page 246 为空白页）

▶

第7章基于蛋白质序列的预测方法

7.4 总结、网络资源、延伸阅读与参考文献

总结（Summary）

20 世纪 60 年代 Anfinsen 等人的奠基性工作已经清楚表明：蛋白质序列决定其结构，而结构最终决定其功能。由于蛋白质序列相对容易通过实验获得，围绕“如何从序列预测结构与功能”已经发展出庞大的研究体系。

从结构预测角度看，这一领域已经高度成熟，至少有些子问题在现有实验数据允许的范围内，已经接近“可解”。但与之相比，仅从序列直接预测蛋白质功能这个更一般的问题，至今仍未真正解决。

本章讨论的一维预测方法——例如二级结构、跨膜区、溶剂可及性和无序区预测——仍然非常重要，因为它们常常是更高层级结构与功能预测模型的输入。幸运的是，尽管各种工具都存在误差，研究者如今已经能够借助大量互补方法，在缺乏先验实验知识的情况下，为蛋白质序列补充丰富的结构与功能线索。

不过，这些预测结果必须结合方法边界来解释。用户需要理解每类工具的优势与弱点，才能真正利用它们去筛选当今海量序列数据，并进一步提出可实验检验的生物学假设。尤其在蛋白质功能预测中，还应尽量回到原始证据（primary evidence）：这些证据可能来自最佳类别工具的推断、高通量实验的映射，或专家依据深入实验整理出的数据库注释。当前没有任何单一资源能完美告知用户这些证据的可靠性层级。因此，对目标蛋白的实际分析，通常仍应依赖针对具体问题选用合适预测工具，并结合最可靠数据库注释的综合判断。

网络资源（Internet Resources）

核心数据库与预测评测

CAFA — `biofunctionprediction.org/cafa`
CAGI — genomeinterpretation.org
CASP — predictioncenter.org
CATH — www.cathdb.info
InterPro — `www.ebi.ac.uk/interpro`
neXtProt — www.nextprot.org
PDB — www.wwpdb.org
Pfam — pfam.xfam.org
SCOP2 — scop2.mrc-lmb.cam.ac.uk
UniProtKB — www.uniprot.org

蛋白质结构预测

BETAWARE — biocomp.unibo.it/savojard/betawarecl
BOCTOPUS2 — boctopus.bioinfo.se
PolyPhobius — phobius.sbc.su.se/poly.html
POODLE — `cblab.my-pharm.ac.jp/poodle`
PrDOS — `prdos.hgc.jp/cgi-bin/top.cgi`
Proteus — wks80920.ccis.ualberta.ca/proteus
Proteus2 — www.proteus2.ca/proteus2
PSIPRED, MEMSAT-SVM, and DISOPRED3 — `bioinf.cs.ucl.ac.uk/psipred`
RaptorX — `raptorx.uchicago.edu/StructurePropertyPred/predict`
ReProf, TMSEG, and Meta-Disorder — predictprotein.org
SPIDER3 — `sparks-lab.org/server/SPIDER3`
SSpro5, ACCpro5 — scratch.proteomics.ics.uci.edu

蛋白质功能预测

CADD — cadd.gs.washington.edu
DeepLoc — www.cbs.dtu.dk/services/DeepLoc
DomCut — `www.bork.embl-heidelberg.de/~suyama/domcut`
DomPred, FFPred3.0, COGIC — `bioinf.cs.ucl.ac.uk/psipred`
DOMpro — scratch.proteomics.ics.uci.edu
DP-Bind — `lcg.rit.albany.edu/dp-bind`
FunFams — www.cathdb.info/search/by_sequence
HomPPI — `ailab1.ist.psu.edu/PSHOMPPIv1.3`
HomPRIP-NB — `ailab1.ist.psu.edu/HomPRIP-NB/index.html`
LocTree3 — `rostlab.org/services/loctree3`
MultiLoc2 — `abi-services.informatik.uni-tuebingen.de/multiloc2/webloc.cgi`
PolyPhen-2 — `genetics.bwh.harvard.edu/pph2`
Pprint — `crdd.osdd.net/raghava/pprint`
PROVEAN — `provean.jcvi.org/index.php`
PSIVER — `mizuguchilab.org/PSIVER`
RNABindRPlus — `ailab1.ist.psu.edu/RNABindRPlus`
ScoobyDomain — www.ibi.vu.nl/programs/scoobywww
SIFT — sift.bii.a-star.edu.sg
SNAP2 — `rostlab.org/services/snap2web`
SomeNA, Metastudent, Ofran, and RostPPI predictor — www.predictprotein.org

延伸阅读（Further Reading）

Keskin, O., Tuncbag, N., and Gursoy, A. (2016). Predicting protein-protein interactions from the molecular to the proteome level. Chem. Rev. 116:4884–4909. 这篇综述对蛋白质结合问题做了范围很广的系统回顾，既覆盖蛋白—蛋白结合与蛋白—核酸结合，也讨论了蛋白层面和残基层面的预测，并补充了本章未详细展开的若干主题，例如基于蛋白质结构而非序列的 docking 与其他预测路线。

Moult, J., Fidelis, K., Kryshtafovych, A. et al. (2016). Critical assessment of methods of protein structure prediction: progress and new directions in round XI. Proteins 84(Suppl 1):4–14. 这是对 CASP 实验较新的总结性评估，概括了蛋白质结构预测多个核心方向的独立测试结果。对于对功能预测感兴趣的读者，还应同时关注 CAFA（Jiang et al. 2016）以及 CAGI（见上方网络资源）在变异效应预测方面的评测实践。

参考文献（References）

以下参考文献题录按原书英文原文保留：

Adzhubei, I.A., Schmidt, S., Peshkin, L. et al. (2010). A method and server for predicting damaging missense mutations. Nat. Methods. 7:248–249.

Ahmad, S. and Sarai, A. (2005). PSSM-based prediction of DNA binding sites in proteins. BMC Bioinf. 6:33.

Akiva, E., Brown, S., Almonacid, D.E. et al. (2014). The structure-function linkage database. Nucleic Acids Res. 42:521–530.

Allis, C.D. and Jenuwein, T. (2016). The molecular hallmarks of epigenetic control. Nat. Rev. Genet. 17:487–500.

Almagro Armenteros, J.J., Sønderby, C.K., Sønderby, S.K. et al. (2017). DeepLoc: prediction of protein subcellular localization using deep learning. Bioinformatics. 33:3387–3395.

Aloy, P., Stark, A., Hadley, C., and Russell, R.B. (2003). Predictions without templates: new folds, secondary structure, and contacts in CASP5. Proteins Struct. Funct. Genet. 53 (Suppl 6):436–456.

Altschul, S.F. and Gish, W. (1996). Local alignment statistics. Methods Enzymol. 266:460–480.

Andreeva, A., Howorth, D., Chothia, C. et al. (2014). SCOP2 prototype: a new approach to protein structure mining. Nucleic Acids Res. 42:310–314.

Anfinsen, C.B. (1973). Principles that govern the folding of protein chains. Science. 181:223–230.

Ashkenazi, S., Snir, R., and Ofran, Y. (2012). Assessing the relationship between conservation of function and conservation of sequence using photosynthetic proteins. Bioinformatics. 28:3203–3210.

Attwood, T.K., Coletta, A., Muirhead, G. et al. (2012). The PRINTS database: a fine-grained protein sequence annotation and analysis resource-its status in 2012. Database. 2012:1–9.

Auton, A., Abecasis, G.R., Altshuler, D.M. et al. (2015). A global reference for human genetic variation. Nature. 526:68–74.

Bairoch, A. and Boeckmann, B. (1994). The SWISS-PROT protein sequence databank: current status. Nucleic Acids Res. 22:3578–3580.

Berman, H.M., Westbrook, J., Feng, Z. et al. (2000). The protein data bank. Nucleic Acids Res. 28:235–242.

Bernhofer, M., Kloppmann, E., Reeb, J., and Rost, B. (2016). TMSEG: novel prediction of transmembrane helices. Proteins 84:1706–1716.

Blum, T., Briesemeister, S., and Kohlbacher, O. (2009). MultiLoc2: integrating phylogeny and gene ontology terms improves subcellular protein localization prediction. BMC Bioinf. 10:274.

Boutet, E., Lieberherr, D., Tognolli, M. et al. (2016). UniProtKB/Swiss-Prot, the manually annotated section of the UniProt knowledgeBase: how to use the entry view. Methods Mol. Biol. 1374:23–54.

Bru, C., Courcelle, E., Carrère, S. et al. (2005). The ProDom database of protein domain families: more emphasis on 3D. Nucleic Acids Res. 33:212–215.

Bryson, K., Cozzetto, D., and Jones, D.T. (2007). Computer-assisted protein domain boundary prediction using the DomPred server. Curr. Protein Pept. Sci. 8:181–188.

Buchan, D.W.A., Minneci, F., Nugent, T.C.O. et al. (2013). Scalable web services for the PSIPRED protein analysis workbench. Nucleic Acids Res. 41:349–357.

Chen, X.W. and Jeong, J.C. (2009). Sequence-based prediction of protein interaction sites with an integrative method. Bioinformatics. 25:585–591.

Chen, P. and Li, J. (2010). Sequence-based identification of interface residues by an integrative profile combining hydrophobic and evolutionary information. BMC Bioinf. 11:402.

Chen, C.P., Kernytsky, A., and Rost, B. (2002). Transmembrane helix predictions revisited. Protein Sci. 11:2774–2791.

Cheng, J., Sweredoski, M.J., and Baldi, P. (2006). DOMpro: protein domain prediction using profiles, secondary structure, relative solvent accessibility, and recursive neural networks. Data Min. Knowl. Discovery 13:1–10.

Choi, Y., Sims, G.E., Murphy, S. et al. (2012). Predicting the functional effect of amino acid substitutions and indels. PLoS One 7(10):e46688.

Chou, P.Y. and Fasman, G.D. (1974). Prediction of protein conformation. Biochemistry. 13(2):222–245.

Claros, M.G. and Von Heijne, G. (1994). TopPred II: an improved software for membrane protein structure predictions. Comput. Appl. Biosci. 10:685–686.

Coleman, J.L.J., Ngo, T., and Smith, N.J. (2017). The G protein-coupled receptor N-terminus and receptor signalling: N-tering a new era. Cell. Signalling. 33:1–9.

Cozzetto, D., Buchan, D.W.A., Bryson, K., and Jones, D.T. (2013). Protein function prediction by massive integration of evolutionary analyses and multiple data sources. BMC Bioinf. 14:S1.

Cozzetto, D., Minneci, F., Currant, H., and Jones, D.T. (2016). FFPred3: feature-based function prediction for all gene ontology domains. Sci. Rep. 6:31865.

Crick, F.H. (1958). On protein synthesis. Symp. Soc. Exp. Biol. 12:138–163.

Cukuroglu, E., Gursoy, A., Nussinov, R., and Keskin, O. (2014). Non-redundant unique interface structures as templates for modeling protein interactions. PLoS One. 9:e86738.

Das, S., Lee, D., Sillitoe, I. et al. (2015). Functional classification of CATH superfamilies: a domain-based approach for protein function annotation. Bioinformatics. 31:3460–3467.

Deng, X., Gumm, J., Karki, S. et al. (2015). An overview of practical applications of protein disorder prediction and drive for faster, more accurate predictions. Int. J. Mol. Sci. 16:15384–15404.

Dong, Q., Wang, X., Lin, L., and Xu, Z. (2006). Domain boundary prediction based on profile domain linker propensity index. Comput. Biol. Chem. 30:127–133.

Dong, C., Wei, P., Jian, X. et al. (2015). Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Hum. Mol. Genet. 24:2125–2137.

Eddy, S.R. (2011). Accelerated profile HMM searches. PLoS Comput. Biol. 7:e1002195.

Elbarbary, R.A., Lucas, B.A., and Maquat, L.E. (2016). Retrotransposons as regulators of gene expression. Science. 351:aac7247.

Esmaielbeiki, R., Krawczyk, K., Knapp, B. et al. (2016). Progress and challenges in predicting protein interfaces. Briefings Bioinf. 17:117–131.

Eyrich, V., Martí-Renom, M.A., Przybylski, D. et al. (2001). EVA: continuous automatic evaluation of protein structure prediction servers. Bioinformatics. 17:1242–1243.

Ezkurdia, L., Grana, O., Izarzugaza, J.M.G., and Tress, M.L. (2009). Assessment of domain boundary predictions and the prediction of intramolecular contacts in CASP8. Proteins Struct. Funct. Bioinf. 77:196–209.

Fagerberg, L., Jonasson, K., and Heijne, G.V. (2010). Prediction of the human membrane proteome. Proteomics. 10:1141–1149.

Fariselli, P., Savojardo, C., Martelli, P.L., and Casadio, R. (2009). Grammatical-restrained hidden conditional random fields for bioinformatics applications. Algorithms Mol. Biol. 4:13.

Fidelis, K., Rost, B., and Zemla, A. (1999). A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins. 223:220–223.

Finn, R.D., Bateman, A., Clements, J. et al. (2014a). Pfam: the protein families database. Nucleic Acids Res. 42:222–230.

Finn, R.D., Miller, B.L., Clements, J., and Bateman, A. (2014b). IPfam: a database of protein family and domain interactions found in the protein data Bank. Nucleic Acids Res. 42:364–373.

Finn, R.D., Attwood, T.K., Babbitt, P.C. et al. (2016). InterPro in 2017-beyond protein family and domain annotations. Nucleic Acids Res. 45:gkw1107.

Fischer, T.B., Arunachalam, K.V., Bailey, D. et al. (2003). The binding interface database (BID): a compilation of amino acid hotspots in protein interfaces. Bioinformatics. 19:1453–1454.

Foster, L.J., de Hoog, C.L., Zhang, Y. et al. (2006). A mammalian organelle map by protein correlation profiling. Cell.125(1):187–199.

Frishman, D. and Argos, P. (1995). Knowledge-based protein secondary structure assignment. Proteins Struct. Funct. Genet. 23(4):566–579.

Fukuchi, S., Amemiya, T., Sakamoto, S. et al. (2014). IDEAL in 2014 illustrates interaction networks composed of intrinsically disordered proteins and their binding partners. Nucleic Acids Res. 42:320–325.

Galperin, M.Y., Makarova, K.S., Wolf, Y.I., and Koonin, E.V. (2015). Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Res. 43:D261–D269.

Gardy, J.L. and Brinkman, F.S. (2006). Methods for predicting bacterial protein subcellular localization. Nat. Rev. Microbiol. 4(10):741–751.

Garnier, J., Osguthorpe, D.J., and Robson, B. (1978). Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J. Mol. Biol. 120:97–120.

Garnier, J., Gibrat, J.-F., and Robson, B. (1996). GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266:540–553.

Garrow, A.G., Agnew, A., and Westhead, D.R. (2005). TMB-Hunt: a web server to screen sequence sets for transmembrane beta-barrel proteins. Nucleic Acids Res. 33(Suppl 2):188–192.

Gaudet, P., Michel, P.A., Zahn-Zabal, M. et al. (2017). The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Res. 45(D1):D177–D182.

Gene Ontology Consortium (2000). Gene ontology: tool for the unification of biology. Nat. Genet. 25:25–29.

Gene Ontology Consortium (2015). Gene Ontology Consortium: going forward. Nucleic Acids Res. 43:D1049–D1056.

Goldberg, T., Hamp, T., and Rost, B. (2012). LocTree2 predicts localization for all domains of life. Bioinformatics. 28:i458–i465.

Goldberg, T., Hecht, M., Hamp, T. et al. (2014). LocTree3 prediction of localization. Nucleic Acids Res. 42(Web Server issue):1–6.

Goodwin, S., McPherson, J.D., and McCombie, W.R. (2016). Coming of age: ten years of next-generation sequencing technologies. Nat. Rev. Genet. 17:333–351.

Gouw, M., Michael, S., Samano-Sanchez, H. et al. (2018). The eukaryotic linear motif resource–2018 update. Nucleic Acids Res. 46(D1):D428–D434.

Graessel, A., Hauck, S.M., von Toerne, C. et al. (2015). A combined omics approach to generate the surface atlas of human naive CD4+ T cells during early T-cell receptor activation. Mol. Cell. Proteomics. 14(8):2085–2102.

Greene, L.H., Lewis, T.E., Addou, S. et al. (2007). The CATH domain structure database: new protocols and classification levels give a more comprehensive resource for exploring evolution. Nucleic Acids Res. 35:291–297.

Grimm, D.G., Azencott, C.A., Aicheler, F. et al. (2015). The evaluation of tools used to predict the impact of missense variants is hindered by two types of circularity. Hum. Mutat. 36:513–523.

Habchi, J., Tompa, P., Longhi, S., and Uversky, V.N. (2014). Introducing protein intrinsic disorder. Chem. Rev. 114:6561–6588.

Haft, D.H., Selengut, J.D., Richter, R.A. et al. (2013). TIGRFAMs and genome properties in 2013. Nucleic Acids Res. 41:387–395.

Hamp, T. and Rost, B. (2012). Alternative protein-protein interfaces are frequent exceptions. PLoS Comput. Biol. 8(8):e1002623.

Hamp, T., Kassner, R., Seemayer, S. et al. (2013). Homology-based inference sets the bar high for protein function prediction. BMC Bioinf. 14(Suppl 3):S7.

Hayat, S., Peters, C., Shu, N. et al. (2016). Inclusion of dyad-repeat pattern improves topology prediction of transmembrane β-barrel proteins. Bioinformatics. 32:1571–1573.

Hecht, M., Bromberg, Y., and Rost, B. (2013). News from the protein mutability landscape. J. Mol. Biol. 425(21):3937–3948.

Hecht, M., Bromberg, Y., and Rost, B. (2015). Better prediction of functional effects for sequence variants. BMC Genomics. 16(Suppl 8):S1.

Heffernan, R., Paliwal, K., Lyons, J. et al. (2015). Improving prediction of secondary structure, local backbone angles, and solvent accessible surface area of proteins by iterative deep learning. Sci. Rep. 5:11476.

Heffernan, R., Yang, Y., Paliwal, K., and Zhou, Y. (2017). Capturing non-local interactions by long short-term memory bidirectional recurrent neural networks for improving prediction of protein secondary structure, backbone angles, contact numbers and solvent accessibility. Bioinformatics. 33(18):2842–2849.

von Heijne, G. (2006). Membrane-protein topology. Nat. Rev. Mol. Cell Biol. 7:909–918.

Heinig, M. and Frishman, D. (2004). STRIDE: a web server for secondary structure assignment from known atomic coordinates of proteins. Nucleic Acids Res. 32(Web Server issue):500–502.

Hirose, S., Shimizu, K., Kanai, S. et al. (2007). Structural bioinformatics POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions. Struct. Bioinf. 23:2046–2053.

Hirose, S., Shimizu, K., and Noguchi, T. (2010). POODLE-I: disordered region prediction by integrating POODLE series and structural information predictors based on a workflow approach. In Silico Biol. 10:185–191.

Hönigschmid, P. (2012). Improvement of DNA- and RNA-protein binding prediction. Diploma thesis. TUM–Technical University of Munich.

Hopf, T.A., Colwell, L.J., Sheridan, R. et al. (2012). Three-dimensional structures of membrane proteins from genomic sequencing. Cell. 149:1607–1621.

Hopf, T.A., Schärfe, C.P.I., Rodrigues, J.P.G.L.M. et al. (2014). Sequence co-evolution gives 3D contacts and structures of protein complexes. eLife. 3:e03430.

Horton, P., Park, K.J., Obayashi, T. et al. (2007). WoLF PSORT: protein localization predictor. Nucleic Acids Res. 35(Web Server issue):W585–W587.

Hu, Y., Lehrach, H., and Janitz, M. (2009). Comparative analysis of an experimental subcellular protein localization assay and in silico prediction methods. J. Mol. Histol. 40(5–6):343–352.

Hubbard, S.J. and Thornton, J.M. (1993). NACCESS. Department of Biochemistry and Molecular Biology. University College London.

Huerta-Cepas, J., Szklarczyk, D., Forslund, K. et al. (2016). EGGNOG 4.5: a hierarchical orthology framework with improved functional annotations for eukaryotic, prokaryotic and viral sequences. Nucleic Acids Res. 44:D286–D293.

Huh, W.K., Falvo, J.V., Gerke, L.C. et al. (2003). Global analysis of protein localization in budding yeast. Nature. 425(6959):686–691.

Hwang, S., Guo, Z., and Kuznetsov, I.B. (2007). DP-bind: a web server for sequence-based prediction of DNA-binding residues in DNA-binding proteins. Bioinformatics. 23:634–636.

Ishida, T. and Kinoshita, K. (2007). PrDOS: prediction of disordered protein regions from amino acid sequence. Nucleic Acids Res. 35:460–464.

Ishida, T. and Kinoshita, K. (2008). Prediction of disordered regions in proteins based on the meta approach. Bioinformatics. 24(11):1344–1348.

Jacoby, E., Bouhelal, R., Gerspacher, M., and Seuwen, K. (2006). The 7TM G-protein-coupled receptor target family. ChemMedChem. 1:761–782.

Jensen, L.J. and Bateman, A. (2011). The rise and fall of supervised machine learning techniques. Bioinformatics. 27:3331–3332.

Jia, Y. and Liu, X.-Y. (2006). From surface self-assembly to crystallization: prediction of protein crystallization conditions. J. Phys. Chem. B. 110:6949–6955.

Jiang, Y., Oron, T.R., Clark, W.T. et al. (2016). An expanded evaluation of protein function prediction methods shows an improvement in accuracy. Genome Biol. 17(1):184.

Jones, D.T. (1999). Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292:195–202.

Jones, D.T. and Cozzetto, D. (2015). DISOPRED3: precise disordered region predictions with annotated protein-binding activity. Bioinformatics. 31:857–863.

Jones, P., Binns, D., Chang, H.Y. et al. (2014). InterProScan5: genome-scale protein function classification. Bioinformatics. 30:1236–1240.

Joo, K., Lee, S.J., and Lee, J. (2012). SANN: solvent accessibility prediction of proteins by nearest neighbor method. Proteins 80(7):1791–1797.

Kabsch, W. and Sander, C. (1983). Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers. 22:2577–2637.

Kajan, L., Yachdav, G., Vicedo, E. et al. (2013). Cloud prediction of protein structure and function with PredictProtein for Debian. Biomed. Res. Int. 2013:398968.

Käll, L., Krogh, A., and Sonnhammer, E.L.L. (2004). A combined transmembrane topology and signal peptide prediction method. J. Mol. Biol. 338:1027–1036.

Käll, L., Krogh, A., and Sonnhammer, E.L.L. (2005). An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics. 21:i251.

Keskin, O., Tuncbag, N., and Gursoy, A. (2016). Predicting protein-protein interactions from the molecular to the proteome level. Chem. Rev. 116:4884–4909.

Kessel, A. and Ben-Tal, N. (2011). Introduction to Proteins, 438–440. London, UK: CRC Press.

Kihara, D. (2005). The effect of long-range interaction on the secondary structure formation of proteins. Protein Sci. 14:1955–1963.

Kinch, L.N., Li, W., Monastyrskyy, B. et al. (2016). Evaluation of free modeling targets in CASP11 and ROLL. Proteins 84(Suppl 1):51–66.

Kircher, M., Witten, D.M., Jain, P. et al. (2014). A general framework for estimating the relative pathogenicity of human genetic variants. Nat. Genet. 46:310–315.

Klimke, W., Agarwala, R., Badretdin, A. et al. (2009). The National Center for Biotechnology Information’s protein clusters database. Nucleic Acids Res. 37:216–223.

Kloppmann, E., Punta, M., and Rost, B. (2012). Structural genomics plucks high-hanging membrane proteins. Curr. Opin. Struct. Biol. 22:326–332.

Köhler, S., Vasilevsky, N.A., Engelstad, M. et al. (2016). The human phenotype ontology in 2017. Nucleic Acids Res. 45:gkw1039.

Krissinel, E. and Henrick, K. (2007). Inference of macromolecular assemblies from crystalline state. J. Mol. Biol. 372:774–797.

Krogh, A., Larsson, B., von Heijne, G., and Sonnhammer, E.L. (2001). Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J. Mol. Biol. 305:567–580.

Kumar, M., Gromiha, M.M., and Raghava, G.P.S. (2008). Prediction of RNA binding sites in a protein using SVM and PSSM profile. Proteins. 71:189–194.

Kumar, P., Henikoff, S., and Ng, P.C. (2009). Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat. Protoc. 4:1073–1081.

Kyte, J. and Doolittle, R.F. (1982). A simple method for displaying the hydropathic character of a protein. J. Mol. Biol. 157:105–132.

Lam, S.D., Dawson, N.L., Das, S. et al. (2016). Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44:D404–D409.

de Las Rivas, J. and Fontanillo, C. (2010). Protein-protein interaction essentials: key concepts to building and analyzing interactome networks. PLoS Comput. Biol. 6:1–8.

Lee, B. and Richards, F.M. (1971). The interpretation of protein structures: estimation of static accessibility. J. Mol. Biol. 55(3):379–400.

van der Lee, R., Buljan, M., Lang, B. et al. (2014). Classification of intrinsically disordered regions and proteins. Chem. Rev. 114:6589–6631.

Letunic, I., Doerks, T., and Bork, P. (2015). SMART: recent updates, new developments and status in 2015. Nucleic Acids Res. 43:D257–D260.

Liu, J. and Rost, B. (2001). Comparing function and structure between entire proteomes. Protein Sci. 10:1970–1979.

Liu, J. and Rost, B. (2003). Domains, motifs and clusters in the protein universe. Curr. Opin. Chem. Biol. 7:5–11.

Liu, J. and Rost, B. (2004). CHOP proteins into structural domain-like fragments. Proteins Struct. Funct. Genet. 55:678–688.

Lobanov, M.Y. and Galzitskaya, O.V. (2015). How common is disorder? Occurrence of disordered residues in four domains of life. Int. J. Mol. Sci. 16:19490–19507.

Lobley, A. (2010). Human Protein Function Prediction: application of machine learning for integration of heterogeneous data sources. PhD thesis. University College London, London, UK.

Magnan, C.N. and Baldi, P. (2014). SSpro/ACCpro5: almost perfect prediction of protein secondary structure and relative solvent accessibility using profiles, machine learning and structural similarity. Bioinformatics. 30:2592–2597.

Mahlich, Y., Reeb, J., Schelling, M. et al. (2017). Common sequence variants affect molecular function more than rare variants. Sci. Rep. 7:1608.

Marks, D.S., Colwell, L.J., Sheridan, R. et al. (2011). Protein 3D structure computed from evolutionary sequence variation. PLoS One 6:e28766.

Marks, D.S., Hopf, T.A., Chris, S., and Sander, C. (2012). Protein structure prediction from sequence variation. Nat. Biotechnol. 30:1072–1080.

Martinez, D.A. and Nelson, M.A. (2010). The next generation becomes the now generation. PLoS Genet. 6:e1000906.

Mi, H., Poudel, S., Muruganujan, A. et al. (2016). PANTHER version 10: expanded protein families and functions, and analysis tools. Nucleic Acids Res. 44:D336–D342.

Miosge, L.A., Field, M.A., Sontani, Y. et al. (2015). Comparison of predicted and actual consequences of missense mutations. Proc. Natl. Acad. Sci. USA. 112:E5189–E5198.

Mirabello, C. and Pollastri, G. (2013). Porter, PaleAle 4.0: high-accuracy prediction of protein secondary structure and relative solvent accessibility. Bioinformatics. 29(16):2056–2058.

Monastyrskyy, B., Kryshtafovych, A., Moult, J. et al. (2014). Assessment of protein disorder region predictions in CASP10. Proteins Struct. Funct. Bioinf. 82:127–137.

Montgomerie, S., Sundararaj, S., Gallin, W.J., and Wishart, D.S. (2006). Improving the accuracy of protein secondary structure prediction using structural alignment. BMC Bioinf. 7:301–301.

Montgomerie, S., Cruz, J.A., Shrivastava, S. et al. (2008). PROTEUS2: a web server for comprehensive protein structure prediction and structure-based annotation. Nucleic Acids Res. 36(Web Server issue):202–209.

Mooney, C., Cessieux, A., Shields, D.C., and Pollastri, G. (2013). SCL-Epred: a generalised de novo eukaryotic protein subcellular localisation predictor. Amino Acids. 45(2):291–299.

Morrow, J.K. and Zhang, S. (2012). Computational prediction of protein hotspot residues. Curr. Pharm. Des. 18:1255–1265.

Mosca, R., Céol, A., Stein, A. et al. (2014). 3did: a catalog of domain-based interactions of known three-dimensional structure. Nucleic Acids Res. 42:374–379.

Moult, J., Pedersen, J.T., Judson, R., and Fidelis, K. (1995). A large-scale experiment to assess protein structure prediction methods. Proteins Struct. Funct. Genet. 23:ii–iv.

Murakami, Y. and Mizuguchi, K. (2010). Applying the Naive Bayes classifier with kernel density estimation to the prediction of protein-protein interaction sites. Bioinformatics. 26:1841–1848.

Nair, R. and Rost, B. (2002). Inferring sub-cellular localisation through automated lexical analysis. Bioinformatics. 18(Suppl 1):S78–S86.

Necci, M., Piovesan, D., Dosztányi, Z., and Tosatto, S.C.E. (2017). MobiDB-lite: fast and highly specific consensus prediction of intrinsic disorder in proteins. Bioinformatics. 33:btx015.

Ng, P.C. and Henikoff, S. (2003). SIFT: predicting amino acid changes that affect protein function. Nucleic Acids Res. 31:3812–3814.

Nugent, T. and Jones, D.T. (2009). Transmembrane protein topology prediction using support vector machines. BMC Bioinf. 10:159.

Nugent, T. and Jones, D.T. (2012). Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis. Proc. Natl. Acad. Sci. USA 109:E1540–E1547.

Oates, M.E., Romero, P., Ishida, T. et al. (2013). D2P2: database of disordered protein predictions. Nucleic Acids Res. 41:508–516.

Oates, M.E., Stahlhacke, J., Vavoulis, D.V. et al. (2015). The SUPERFAMILY 1.75 database in 2014: a doubling of data. Nucleic Acids Res. 43:D227–D233.

O’Donovan, C., Martin, M.J., Gattiker, A. et al. (2002). High-quality protein knowledge resource: SWISS-PROT and TrEMBL. Briefings Bioinf. 3:275–284.

Ofran, Y. and Rost, B. (2003a). Analysing six types of protein-protein interfaces. J. Mol. Biol. 325:377–387.

Ofran, Y. and Rost, B. (2003b). Predicted protein-protein interaction sites from local sequence information. FEBS Lett. 544:236–239.

Ofran, Y. and Rost, B. (2007). ISIS: interaction sites identified from sequence. Bioinformatics. 23(2):e13–e16.

Overington, J., Al-Lazikani, B., and Hopkins, A.L. (2006). How many drug targets are there? Nat. Rev. Drug Discov. 5:993–996.

Pang, C.I., Lin, K., Wouters, M.A. et al. (2008). Identifying foldable regions in protein sequence from the hydrophobic signal. Nucleic Acids Res. 36:578–588.

Pawson, T. and Nash, P. (2003). Assembly of cell regulatory systems through protein interaction domains. Science. 300(5618):445–452.

Pedruzzi, I., Rivoire, C., Auchincloss, A.H. et al. (2013). HAMAP in 2013, new developments in the protein family classification and annotation system. Nucleic Acids Res. 41:584–589.

Pedruzzi, I., Rivoire, C., Auchincloss, A.H. et al. (2015). HAMAP in 2015: updates to the protein family classification and annotation system. Nucleic Acids Res. 43:D1064–D1070.

Piovesan, D., Tabaro, F., Mi ˇceti´c, I. et al. (2016). DisProt 7.0: a major update of the database of disordered proteins. Nucleic Acids Res. 45:gkw1056.

Pollastri, G., Przybylski, D., Rost, B., and Baldi, P. (2002). Improving the prediction of protein secondary structure in three and eight classes using recurrent neural networks and profiles. Proteins Struct. Funct. Bioinf. 47:228–235.

Punta, M. and Rost, B. (2008). Neural networks predict protein structure and function. Methods Mol. Biol. 458:203–230.

Radivojac, P., Clark, W.T., Oron, T.R. et al. (2013). A large-scale evaluation of computational protein function prediction. Nat. Methods. 10:221–227.

Ramilowski, J.A., Goldberg, T., Harshbarger, J. et al. (2015). A draft network of ligand-receptor-mediated multicellular signalling in human. Nat. Commun. 6:7866.

Rao, V.S., Srinivas, K., Sujini, G.N., and Kumar, G.N.S. (2014). Protein-protein interaction detection: methods and analysis. Int. J. Proteomics. 2014:1–12.

Reeb, J., Kloppmann, E., Bernhofer, M., and Rost, B. (2014). Evaluation of transmembrane helix predictions in 2014. Proteins Struct. Funct. Bioinf. 83:473–484.

Reeb, J., Hecht, M., Mahlich, Y. et al. (2016). Predicted molecular effects of sequence variants link to system level of disease. PLoS Comput. Biol. 12(8):e1005047.

Remmert, M., Biegert, A., Hauser, A., and Söding, J. (2012). HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment. Nat. Methods. 9(2):173–175.

Res, I., Mihalek, I., and Lichtarge, O. (2005). An evolution based classifier for prediction of protein interfaces without using protein structures. Bioinformatics. 21(10):2496–2501.

Rezácová, P., Borek, D., Moy, S.F. et al. (2008). Crystal structure and putative function of small Toprim domain-containing protein from Bacillus stearothermophilus. Proteins. 70:311–319.

Rose, P.W., Prli ´c, A., Altunkaya, A. et al. (2017). The RCSB protein data bank: integrative view of protein, gene and 3D structural information. Nucleic Acids Res. 45(D1):D271–D281.

Rost, B. (1996). PHD: predicting one-dimensional protein structure by profile based neural networks. Methods Enzymol. 266:525–539.

Rost, B. (2001). Protein secondary structure prediction continues to rise. J. Struct. Biol. 134:204–218.

Rost, B. (2002). Enzyme function less conserved than anticipated. J. Mol. Biol. 318:595–608.

Rost, B. and Sander, C. (1993). Improved prediction of protein secondary structure by use of sequence profiles and neural networks. Proc. Natl. Acad. Sci. USA 90:7558–7562.

Rost, B. and Sander, C. (1994a). Combining evolutionary information and neural networks to predict protein secondary structure. Proteins Struct. Funct. Bioinf. 19:55–72.

Rost, B. and Sander, C. (1994b). Conservation and prediction of solvent accessibility in protein families. Proteins Struct. Funct. Genet. 20(3):216–226.

Rost, B., Yachdav, G., and Liu, J. (2004). The PredictProtein server. Nucleic Acids Res. 32(Suppl 2):W321–W326.

Rychlewski, L. and Fischer, D. (2005). LiveBench-8: the large-scale, continuous assessment of automated protein structure prediction. Protein Sci. 14(1):240–245.

Savojardo, C., Fariselli, P., and Casadio, R. (2013). BETAWARE: a machine-learning tool to detect and predict transmembrane beta-barrel proteins in prokaryotes. Bioinformatics. 29:504–505.

Schaarschmidt, J., Monastyrskyy, B., Kryshtafovych, A., and Bonvin, A.M.J.J. (2018). Assessment of contact predictions in CASP12: co-evolution and deep learning coming of age. Proteins 86(Suppl 1):51–66.

Schlessinger, A., Schaefer, C., Vicedo, E. et al. (2011). Protein disorder–a breakthrough invention of evolution? Curr. Opin. Struct. Biol. 21:412–418.

Schrodinger LLC. (2015). The PyMOL Molecular Graphics System, Version 1.9.

Shimizu, K., Hirose, S., and Noguchi, T. (2007). Structural bioinformatics POODLE-S: web application for predicting protein disorder by using physicochemical features and reduced amino acid set of a position-specific scoring matrix. Struct. Bioinf. 23:2337–2338.

Shoemaker, B.A., Zhang, D., Tyagi, M. et al. (2012). IBIS (inferred biomolecular interaction server) reports, predicts and integrates multiple types of conserved interactions for proteins. Nucleic Acids Res. 40:834–840.

Sigrist, C.J.A., De Castro, E., Cerutti, L. et al. (2013). New and continuing developments at PROSITE. Nucleic Acids Res. 41:344–347.

Šiki´c, M., Tomi ´c, S., and Vlahovi ˇcek, K. (2009). Prediction of protein-protein interaction sites in sequences and 3D structures by random forests. PLoS Comput. Biol. 5(1):e1000278.

Sillitoe, I., Cuff, A.L., Dessailly, B.H. et al. (2013). New functional families (FunFams) in CATH to improve the mapping of conserved functional sites to 3D structures. Nucleic Acids Res. 41:490–498.

Sillitoe, I., Lewis, T.E., Cuff, A. et al. (2015). CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43:D376–D381.

Söding, J. (2005). Protein homology detection by HMM-HMM comparison. Bioinformatics. 21:951–960.

Stevens, T.J. and Arkin, I.T. (2000). Do more complex organisms have a greater proportion of membrane proteins in their genomes? Proteins 39:417–420.

Suyama, M. and Ohara, O. (2003). DomCut: prediction of inter-domain linker regions in amino acid sequences. Bioinformatics. 19:673–674.

Szent-Györgyi, A.G. and Cohen, C. (1957). Role of proline in polypeptide chain configuration of proteins. Science. 126:697.

Thorn, K.S. and Bogan, A.A. (2001). ASEdb: a database of alanine mutations and their effects on the free energy of binding in protein interactions. Bioinformatics. 17:284–285.

Thusberg, J., Olatubosun, A., and Vihinen, M. (2011). Performance of mutation pathogenicity prediction methods on missense variants. Hum. Mutat. 32:358–368.

Tien, M.Z., Meyer, A.G., Sydykova, D.K. et al. (2013). Maximum allowed solvent accessibilities of residues in proteins. PLoS One. 8(11):e80635.

Tompa, P., Davey, N.E., Gibson, T.J., and Babu, M.M. (2014). A million peptide motifs for the molecular biologist. Mol. Cell. 55(2):161–169.

Touw, W.G., Baakman, C., Black, J. et al. (2015). A series of PDB-related databanks for everyday needs. Nucleic Acids Res. 43(D1):D364–D368.

Tsirigos, K.D., Elofsson, A., and Bagos, P.G. (2016). PRED-TMBB2: improved topology prediction and detection of beta-barrel outer membrane proteins. Bioinformatics. 32(17):i665–i671.

Tuncbag, N., Kar, G., Keskin, O. et al. (2009). A survey of available tools and web servers for analysis of protein-protein interactions and interfaces. Briefings Bioinf. 10:217–232.

UniProt Consortium (2016). UniProt: the universal protein knowledgebase. Nucleic Acids Res. 45:1–12.

Vicedo, E., Schlessinger, A., and Rost, B. (2015). Environmental pressure may change the composition protein disorder in prokaryotes. PLoS One. 10:1–21.

Viklund, H., Granseth, E., and Elofsson, A. (2006). Structural classification and prediction of reentrant regions in alpha-helical transmembrane proteins: application to complete genomes. J. Mol. Biol. 361:591–603.

Von Heijne, G. (1992). Membrane protein structure prediction. Hydrophobicity analysis and the positive-inside rule. J. Mol. Biol. 225:487–494.

Von Heijne, G. and Gavel, Y. (1988). Topogenic signals in integral membrane proteins. Eur. J. Biochem. 174:671–678.

Walia, R.R., Xue, L.C., Wilkins, K. et al. (2014). RNABindRPlus: a predictor that combines machine learning and sequence homology-based methods to improve the reliability of predicted RNA-binding residues in proteins. PLoS One 9(5):e97725.

Wang, B., Chen, P., Huang, D.S. et al. (2006). Predicting protein interaction sites from residue spatial sequence profile and evolution rate. FEBS Lett. 580:380–384.

Wang, S., Li, W., Liu, S., and Xu, J. (2016a). RaptorX-property: a web server for protein structure property prediction. Nucleic Acids Res. 44(W1):W430–W435.

Wang, S., Peng, J., Ma, J., and Xu, J. (2016b). Protein secondary structure prediction using deep convolutional neural fields. Sci. Rep. 6:18962.

Wang, S., Sun, S., Li, Z. et al. (2017). Accurate de novo prediction of protein contact map by ultra-deep learning model. PLoS Comput. Biol. 13(1):e1005324.

Wright, P.E. and Dyson, H.J. (2014). Intrinsically disordered proteins in cellular signalling and regulation. Nat. Rev. Mol. Cell Biol. 16:18–29.

Wu, C.H., Nikolskaya, A., Huang, H. et al. (2004). PIRSF: family classification system at the protein information resource. Nucleic Acids Res. 32:D112–D114.

Xue, L.C., Dobbs, D., and Honavar, V. (2011). HomPPI: a class of sequence homology based protein-protein interface prediction methods. BMC Bioinf. 12:244.

Yachdav, G., Kloppmann, E., Kajan, L. et al. (2014). PredictProtein–an open resource for online prediction of protein structural and functional features. Nucleic Acids Res. 42:W337–W343.

Yan, J., Friedrich, S., and Kurgan, L. (2016). A comprehensive comparative review of sequence based predictors of DNA- and RNA-binding residues. Briefings Bioinf. 17:88–105.

Yang, Y., Gao, J., Wang, J. et al. (2016a). Sixty-five years of the long march in protein secondary structure prediction: the final stretch. Briefings Bioinf. 19(3):482–494.

Yang, J., Jin, Q.Y., Zhang, B., and Shen, H.B. (2016b). R2C: improving ab initio residue contact map prediction using dynamic fusion strategy and Gaussian noise filter. Bioinformatics. 32:2435–2443.

Zhang, H., Zhang, T., Chen, K. et al. (2011). Critical assessment of high-throughput standalone methods for secondary structure prediction. Briefings Bioinf. 12(6):672–688.

Zhao, H., Yang, Y., and Zhou, Y. (2013). Prediction of RNA binding proteins comes of age from low resolution to high resolution. Mol. Biosyst. 9:2417–2425.

Chapter 8

Multiple Sequence Alignments

056

Introduction

PDF page 247-248；Figure 8.2 跨至 PDF page 249 并按逻辑归属本节；印刷页码 227-229

▶

第 8 章多序列比对 / 引言

多序列比对（multiple sequence alignment，MSA）是指将两条以上的氨基酸序列或核苷酸序列排列在一起，使来自不同序列的残基以某种合理方式在垂直列中对齐。MSA 广泛用于蛋白质组和基因组分析中的各类分析流程，也是大多数系统发育比较的关键起点。研究者常用它寻找序列中的共同特征，并辅助预测蛋白质和核酸的二维、三维结构。Chatzou 等（2016）对 MSA 方法、用途及其误用作了很好的综述。

通常，只有在序列之间存在系统发育相关性、因而同源时，才应尝试对它们进行比对。在这种情况下，理想的比对应当把同源残基放在同一列中。图 8.1 给出了一个蛋白质多序列比对示例，其中突出显示了一列。如果这一列比对正确，就可以推断该列中的残基来自这些序列共同祖先中的同一个残基位置。这个祖先残基可能是缬氨酸（valine，V），也可能是异亮氨酸（isoleucine，I）或其他残基；关键在于，这一列中的所有氨基酸都源自共同祖先中的同一位置。这就是构建这类比对背后的系统发育视角。原则上，也可以尝试让序列比对最大化每一列残基在结构、功能或理化性质上的相似性。

在简单情形下，如果序列同源，一个良好的系统发育比对通常也会最大化结构相似性。如果序列并不同源，或者分化程度极高、相似性并不清楚，那么要得到有意义的功能性比对就会非常困难。一个常见例子是启动子序列：它们可能共享较短的功能基序，例如调控蛋白结合位点。多数 MSA 软件包很难正确比对这类基序；更合适的做法通常是使用专门的 motif-finding 软件包，或与已知基序集合进行比较。另一个例子是蛋白质序列具有共同折叠，但缺乏序列相似性；这可能源于三维结构的趋同进化，也可能源于序列极端分化。在这种情况下，也最好使用专门的序列—结构匹配软件包。本章将专门讨论这样一类情形：我们希望比对的序列明确同源，并且具有系统发育相关性。

构建 MSA 时，还必须考虑插入和缺失。在基因复制之后，或在宿主物种分化之后，待比较序列在彼此分化的过程中会发生插入和缺失。因此，MSA 软件包必须能够寻找一种空字符或“gap”（空位）的排列方式，使同源残基尽可能对齐；这一思路与第 3 章讨论的双序列比对类似。如图 8.1 所示，gap 通常用连字符表示。给定残基匹配打分方案（例如 BLOSUM62；Henikoff and Henikoff 1992）和 gap 打分之后，就可以尝试寻找一个总体得分最高、也就是总体上最优的 MSA。原则上，这可以通过把动态规划序列比对方法（Needleman and Wunsch 1970）扩展到多条序列来实现，并由此保证得到最高得分的 MSA。实践中，这类扩展需要的时间和内存随序列数量呈指数增长（可写作 O(L^N)，其中 N 为序列条数，L 为序列长度），因此只能用于极少量序列。所以，所有广泛使用的方法都依赖启发式策略来构建 MSA。启发式方法使很大规模的比对成为可能，但代价是无法保证比对得分或比对质量一定最优。

最常用的 MSA 启发式方法由 Feng 和 Doolittle（1987）称为“progressive alignment”（渐进式比对）；这一方法也属于 20 世纪 80 年代不同研究组提出的一类方法（例如 Hogeweg and Hesper 1984）。据作者所知，最早的自动 MSA 方法由 David Sankoff 于 1973 年提出，用于比对 5S rRNA 序列（Sankoff et al. 1973），本质上也是一种渐进式比对。所有这些方法都从序列两两比对开始，再逐步把新序列或已有比对合并进来，从而构建完整的 MSA。比对执行的顺序通常由某种序列聚类结果决定；这种聚类由全对全比较生成，Higgins 等（1992）将其称为“guide tree”（引导树）。图 8.2 概括展示了这一过程。

图 8.1

七条球蛋白蛋白质序列的多序列比对示例。图中突出显示了一个位置。

图 8.2

简单渐进式多序列比对过程示意。这个流程中的每一步都有不同变体，其中一些步骤会在 MAFFT 和 MUSCLE 等知名软件包中迭代执行。

057

Measuring Multiple Alignment Quality

PDF page 248 底部 - PDF page 251 真实 `Making an Alignment: Practical Issues` 标题前；印刷页码 228-231

▶

第 8 章多序列比对 / 多序列比对质量的衡量

不同的 MSA 软件包可谓数以百计，每个软件包都会使用不同组合的参数设置和启发式算法来生成比对。那么，如何判断哪个软件包效果最好，或者最适合哪一类数据？一种标准做法，是把不同软件包生成的比对与一组公认的“gold standard”（金标准）参考比对进行比较。这类集合可作为 benchmark（基准测试集），对 MSA 软件包开发者测试和比较 MSA 极其重要。对于蛋白质而言，最常用的 MSA benchmark 往往依赖已知结构蛋白质序列之间的比较。这是因为，结构非常相似的蛋白质序列实际上可能已经高度分化。因此，这种方法明显建立在结构视角之上。相对地，系统发育 benchmark 往往使用模拟比对，和/或使用系统发育关系已知的序列集合；它们得到的结果不一定与基于结构的结果一致（Iantorno et al. 2014）。

在 benchmark 中使用结构，意味着需要先以自动或人工方式对结构进行比对，然后用对应的序列比对来测试各种 MSA 软件包。早期的结构比对程序包括 SSAP（Taylor and Orengo 1989）和 STAMP（Russell and Barton 1992）；较新的程序包括 MUSTANG（Konagurthu et al. 2006）。虽然这一过程会对待比对序列中仍然存在的片段进行结构叠合，但逐个残基的对齐并不总是容易。因此，创建可靠的参考比对可能需要一定人工干预，而这并不总是直截了当（Edgar 2010; Iantorno et al. 2014）。

最早的大规模 MSA benchmark 是 BAliBASE。其原始版本（Thompson et al. 1999）包含 140 多个参考比对，并被划分为五个层级化参考集合，目的是覆盖多种不同的比对场景。这些场景包括：长度相近且距离相等的序列（BB11/12 reference set）、包含孤立序列的家族（BB2）、距离相等但分化较大的家族（BB3）、N 端或 C 端延伸（BB4），以及含插入的比对（BB5）。对于 BB11、BB12、BB2 和 BB3 类别，覆盖的序列长度从小于 100 个残基到大于 400 个残基不等。对于 BB11/12 类别，则使用从低序列同一性到高序列同一性的比对。虽然 BAliBASE 当前版本是 4.0，但本章讨论将使用 BAliBASE 3.0（Thompson et al. 2005）。第 3 版包含与第 1 版相同的五个类别，但参考比对数量增加到 218 个。每个参考比对中的序列数从 4 到 142 条不等，中位数为 21。BAliBASE benchmark 包含一个打分程序，用于评估生成的（测试）蛋白质 MSA 与参考比对的相似程度。

在 BAliBASE 中，测试比对与参考比对之间的相似性用两个数值表示：sum-of-pairs（SP，成对求和）score 和 total column（TC，总列）score。该打分程序只在参考比对中可靠对齐的区域测量 SP 和 TC score；这些区域称为“core columns”（核心列）。OXBench（Raghava et al. 2003）和 SABmark（Van Walle et al. 2005）基于与 BAliBASE 类似的原则。SABmark 包含 1268 个比对，序列数从 3 到 50 条不等（中位数为 8）。OXBench 包含 672 个家族，每个家族有 2 到 122 条序列（中位数为 3）。本章将给出多个 MSA 软件包在 BAliBASE benchmark 下测得的 SP 和 TC score。

SP score 衡量正确对齐的残基对所占比例；TC score 衡量参考比对中的列在生成的 MSA 中被完整恢复的比例。两个分数都可以在 0 到 1 之间变化：0 表示没有恢复任何残基对或列，1 表示生成的 MSA 与参考比对完全相同。对于双序列比对，SP score 与 TC score 相同。对于包含三条或更多序列的 MSA，TC score 永远不会超过 SP score。SP 和 TC score 衡量的是 aligner（比对程序）的 sensitivity（灵敏度），也就是正确对齐的残基和列所占比例，即 true positives（真阳性）数量。可是，它们不会惩罚错误对齐的残基；这类错误本应反映 aligner 的 specificity（特异度），也就是真阴性数量。benchmark 测试中比对的 specificity 与 sensitivity（见 Box 5.4）可以用 Cline shift score（Cline et al. 2002）和 QModeller score（Sauder et al. 2000）来量化，因为这些指标会把错误对齐的残基纳入考虑。

BAliBASE 3.0、SABmark 或 OXBench 这类 benchmark 中的最大序列数大约在 100 条量级。如果需要比对成千上万甚至数百万条序列，这些 benchmark 都无法考察 MSA 软件的性能。增加可比对序列数量的一种方法，是把一组已有可靠比对的序列，与一些没有可靠比对的序列混合。OXBench 的“extended dataset”（扩展数据集）采用了这种做法，其中某些家族的数据集包含 1000 条以上序列。PREFAB（Edgar 2004）从一开始就是按这一原则设计的。PREFAB 包含 1682 个由两条序列构成的参考比对；在每个参考比对中，会额外加入 0 到 48 条非参考序列（中位数 48，平均数 45.2）。软件会对完整序列集合（最多 50 条序列）进行比对。不过，比对质量只能根据两条参考序列之间的比对来评估。一个名为 qscore 的通用打分程序，可从发布 PREFAB 和 MUSCLE 的同一网站获得。

HomFam（Blackshields et al. 2010; Sievers et al. 2013）是一种把序列数量扩展到数万条级别的 benchmark。它基于与 PREFAB 类似的原则：把少量已有可靠比对的序列，与大量尚无可靠比对但同源的序列混合在一起。参考比对来自 Homstrad 结构比对数据库（Mizuguchi et al. 1998），而大部分序列来自 Pfam（Finn et al. 2014）。参考比对包含 5 到 41 条序列；Pfam 序列数则在约 100 到 100000 条之间变化。2013 年版 HomFam 数据集包含 95 个家族。

近年来，研究者设计出一类新的 benchmark。它们可以测试面对任意大规模序列数量的 aligner，只依赖少量参考序列，并且评估比对中所有序列的对齐情况，包括非参考序列。第一个这类 benchmark 是 ContTest（Fox et al. 2016）。在 ContTest 中，MSA 被用于检测比对列之间的 co-evolution（共进化），并据此生成 contact map（接触图）预测（Marks et al. 2011）。随后，将预测接触图与嵌入其中的参考序列的观测接触图进行比较。预测图与观测图的一致程度，可作为比对质量的 proxy（代理指标）。只有当比对的信息量足够大时，才可能检测到共进化；也就是说，比对中的序列数至少应与参考序列中的残基数相当。实践中，序列数最好达到残基数的五倍。因此，对于典型蛋白结构域，如果少于 1000 条序列，ContTest 的效果通常不会很好。

另一个同类 benchmark 是 QuanTest（Le et al. 2017）。在这种方法中，MSA 被用于预测二级结构（Drozdetskiy et al. 2015），随后将预测得到的二级结构与一个或多个嵌入参考序列的真实二级结构进行比较。一般来说，二级结构预测准确度会随着已比对序列数量的增加而提高；但在 200 条序列时，已经可以得到有用的预测。因此，相比 ContTest，QuanTest 更适用于规模较小的比对。

058

Making an Alignment: Practical Issues

PDF page 251 真实标题起 - PDF page 252 `Commonly Used Alignment Packages` 标题前；印刷页码 231-232

▶

第 8 章多序列比对 / 构建比对：实践问题

下一节将介绍的多数自动比对程序，在处理彼此相似的序列时通常能够生成质量较好的比对。然而，即使用上最好的比对工具，要为高度分化的序列构建良好的多序列比对，仍然是一项需要专业判断的工作。本节概述为了得到适合结构/功能预测的比对，通常需要经历的一些步骤。这不是一个通用配方，因为每一组序列都有自身的问题，只有经验才能指导高质量比对的构建。

构建多序列比对的关键步骤如下：

通过数据库搜索或其他方式找到需要比对的序列。
确定每条序列中应纳入比对的区域。不要尝试对长度差异很大的序列直接进行多序列比对。多数多序列比对程序是为“整条序列范围内彼此相似”的序列设计的，因此，应先根据序列数据库搜索提示的相似区域，对序列进行裁剪，只保留这些区域。一些数据库搜索工具可以帮助识别这类区域（例如 PSI-BLAST；Altschul et al. 1997）。
运行多序列比对程序。
检查比对中是否存在问题。尤其要注意那些看起来被 gap 零散打断的区域。使用 alignment visualization tool（比对可视化工具，例如 Jalview 或 SeaView；见“Viewing a Multiple Alignment”）来识别在整个比对中保持理化性质保守的位置。如果找不到这类区域，就需要查看序列的不同子集。
移除那些明显严重扰乱比对的序列，然后对剩余子集重新比对。
在容易比对的序列集合中识别出关键残基之后，再尝试把其余序列加入比对，同时尽量保留该家族的关键特征。

除第一步数据库搜索以外，上述所有步骤都可以在 Jalview 程序中完成（见“Viewing a Multiple Alignment”）。Jalview 把强大的比对编辑和子集选择功能，与八种多序列比对算法的集成访问结合在一起。另一种做法是，使用下文介绍的许多程序所提供的网站：用户可以把一组序列粘贴到网页窗口中，或上传含有标准文件格式序列的文件。对于偶尔使用而言，这种方式很方便，而且许多网站的使用方式相对直观。特别推荐 European Bioinformatics Institute（EBI）的工具服务器，它允许在线使用最常用的 MSA 软件包。

有些服务器会限制一次能够比对的序列数量；也有可能用户需要生成数百个比对。在这些情况下，用户可以在服务器或台式机上本地运行这些比对程序。此时，熟悉 Linux 操作系统的基本使用就变得很重要。所有常用比对软件包都可以通过所谓的“command-line input”（命令行输入）运行：用户在终端窗口的提示符后输入程序名称（例如 clustalo），再跟上输入和输出相关指令。下文将给出多数常用多序列比对软件包在 Linux 命令行操作中的基本用法。

059

Commonly Used Alignment Packages — Part 1: Clustal Omega

PDF page 252-256；印刷页码 232-236；止于 ClustalW2 标题前

▶

第 8 章多序列比对 / 常用比对软件包 — Part 1：Clustal Omega

本节介绍如何使用一系列常用软件包构建多序列比对。关于源代码下载或在线使用的汇总信息，见本章“Internet Resources”。

Clustal Omega

Clustal Omega（Sievers et al. 2011）是 Clustal MSA 软件套件的最新成员，可用于氨基酸序列和核苷酸序列。它几乎是对前代 ClustalW2（Larkin et al. 2007）的彻底重写。与 ClustalW2 相比，Clustal Omega 的主要改进包括：能够在更短时间内比对数量远多于 ClustalW2 的序列；根据基于晶体结构的 benchmark 衡量，通常能产生更准确的比对；并且能够把关于最终比对总体结构的先验知识纳入计算。Clustal Omega 是一个命令行驱动程序，已经成功编译到 Linux、Mac 和 Windows 平台。与前代不同，Clustal Omega 没有 graphical user interface（GUI，图形用户界面）；不过，许多优秀的比对可视化程序（如 SeaView；Gouy et al. 2010；Jalview；Waterhouse et al. 2009），以及 European Molecular Biology Laboratory（EMBL）-EBI bioinformatic web and programmatic tools framework、Max Planck Bioinformatics Toolkit、Pasteur Institute 的 Galaxy server 等在线服务器，可以弥补这一不足。

Clustal Omega 是一种 progressive aligner（渐进式比对程序）。它使用 guide tree（引导树）来指导多序列比对；这个 guide tree 由序列之间的成对距离矩阵计算得到。对于 N 条序列，这需要进行 N × N 次序列比较，并存储一个 N × N 距离矩阵。过去，这一步通常是阻止传统 aligner 比对大量序列的瓶颈。实际限制大约在 10000 条序列或更少。不过，Clustal Omega 默认并不计算全对全距离矩阵，而是使用 mBed 算法（Blackshields et al. 2010）。mBed 会计算所有序列相对于少量随机选择的“seed”（种子）序列的距离矩阵。因此，mBed 算法的计算需求并不随 N 呈平方增长，而是按 N × log(N) 增长。

Clustal Omega 使用 mBed 距离矩阵对序列进行 k-means 聚类。默认情况下，每个 cluster（簇）的大小上限为 100 条序列。程序会为各个 cluster 生成小的 guide tree，并为这些 cluster 构建一个总的 guide tree。默认 cluster 大小上限设为 100，是因为当时典型比对规模通常不超过 10000 条序列，这样最多会有 100 个大小为 100 的 cluster；对于更大的比对，可以通过设置 --cluster-size flag 调整 cluster 大小。尽管较小的距离矩阵看似减少了信息量，但使用 mBed guide tree 生成的比对，质量通常与基于全对全距离矩阵的比对相当，甚至更高。若需要完整距离矩阵计算，可以用 --full flag 关闭 mBed 模式。

在 progressive alignment 启发式策略的主比对步骤中，单条序列先被比对形成 subalignment（子比对），较小的 subalignment 再彼此比对，逐步形成越来越大的 subalignment。在 Clustal Omega 中，这些成对比对由 hhalign（Söding 2005）执行。该程序会把单条序列和小的 subalignment 转换成 hidden Markov models（HMMs，隐马尔可夫模型），然后以成对方式比对这些 HMM。

Clustal Omega 的文件输入/输出过程使用 Sean Eddy 的 squid library，因此能够读写多种常用序列格式，如 a2m/FASTA、Clustal、msf、PHYLIP、selex、Stockholm 和 Vienna。默认输出格式为 FASTA。最小 Clustal Omega 命令行如下：

clustalo -i <infile> -o <outfile>

其中，<infile> 是包含待比对序列的文件占位符，文件格式应为程序可识别的格式之一；<outfile> 是保存已比对序列的输出文件占位符，输出为 FASTA 格式。

Iteration

Clustal Omega 能够对比对进行 iterative refinement（迭代优化）。在初始比对阶段，距离基于未比对序列的 k-mer 计算。在迭代优化过程中，距离则基于完整比对计算。这样做的期望是，完整比对距离能更好地反映序列之间的相似性，因此会生成“更好”的 guide tree，并进一步产生更好的比对。Clustal Omega 还会把初始比对转换为一个 HMM，然后在后台将该 HMM 与单条序列和 subprofile（子 profile）比对，使 Clustal Omega 能够“预判”其他序列将如何、在何处与其对齐。这里所谓“预判”的具体方法，是把初始比对 HMM 中的 pseudocount（伪计数）信息转移到需要重新比对的序列和 subalignment 中；Sievers 等（2011）对此过程有更详细说明。

序列比对在 progressive alignment 的早期阶段尤其容易发生错配，因此转移到单条序列和小 subalignment 的 pseudocount 信息可能较大。随着 progressive alignment 后期 subalignment 逐渐增大，应该已经积累了足够多的“真实”信息，因此 pseudocount 转移可以相应缩小。对于包含 100 条或更多序列的 subprofile，实际上不会发生 pseudocount 转移。比对原则上可以被无限次优化；不过，经验表明，一到两轮迭代通常能明显提高比对质量。超过两轮迭代很少有用，应根据具体情况决定是否使用。执行迭代比对的最小命令如下：

clustalo -i infile.fa -o outfile1.fa --iter=1

其中，infile.fa 和 outfile1.fa 分别是 FASTA 格式输入文件和输出文件的名称。

需要注意，迭代会带来性能代价。每一轮迭代都需要额外执行三次比对：第一和第二个 subalignment 需要分别与背景 HMM 比对；随后，两个加入了 pseudocount 背景信息的 subalignment 还需要彼此比对。一轮迭代比对大约需要初始比对四倍的时间；两轮迭代比对大约需要原始比对七倍的时间。

迭代过程中，初步比对会被转换为 HMM，随后用这个 HMM 生成质量更高的比对。HMM 信息也可以从外部生成。如果已知待比对序列的类型，可能已经存在预先计算好的 HMM。例如，Pfam（Finn et al. 2016）包含大量蛋白质家族、比对及其 HMM。如果已知待比对序列与 Pfam 中某个家族同源，就可以从 Pfam 下载相应 HMM，并将其作为额外命令行参数使用：

clustalo -i infile.fa -o outfile4.fa --hmm-in=pfam.hmm

其中，pfam.hmm 是从 Pfam 下载的 HMM，包含与 infile.fa 中序列同源的蛋白质家族的比对信息。另一种做法是，使用 HMMER（Finn et al. 2011）从本地产生的比对生成 HMM。

Benchmarking Clustal Omega

评估一个多序列比对程序的性能时，需要考虑几个问题。比对软件能否处理输入序列的数量？比对过程需要多长时间？这种比对能否扩展到更多序列，或更长序列？与已知三维结构序列的标准比对相比，这些比对有多准确？不同 aligner 在这些方面表现各不相同。有些 aligner 在小规模序列集合上非常快，但当序列数超过几百时，会需要不切实际的运行时间。不过，这些较慢 aligner 中有些在 benchmark 上可能非常准确。相反，有些 aligner 能够处理极大数据集，但会牺牲一定准确度。本节将从计算时间、比对准确度，以及处理长序列或大量序列的能力等方面，把 Clustal Omega 与若干常用比对软件包进行比较。后续小节会详细说明这些比对软件包及其使用方法。

图 8.3 和表 8.1 给出了使用成熟 BAliBASE3 benchmark（Thompson et al. 2005）得到的结果。在这里，准确度用 218 个 benchmark 比对中的比对列比例来衡量，并在表中表示为 TC score。Clustal Omega 既不是最快的比对软件包，也不是最准确的比对软件包；但它比所有更快的 aligner 都更准确。唯一获得更高 TC score 的 aligner，是 MAFFT 软件包中的 L-INS-i（Katoh et al. 2005a,b）（图 8.3）。图 8.3 给出了 BAliBASE3 的总运行时间和整体准确度分数。BAliBASE3 被划分为若干比对类型子类别，其各自结果见表 8.1。

图 8.3

使用 BAliBASE3 benchmark 比较 aligner 准确度与单线程总运行时间。时间为所有 218 个测试比对的总和，total column（TC）score 为平均值。x 轴（时间）为对数尺度，y 轴（TC Score）为线性尺度。数据点对应 aligner 默认设置。额外数据点包括 Clustal Omega（i1：更准确模式）、MUSCLE（i2：快速模式）和 PASTA（m 表示以 MUSCLE 为 subaligner；w 表示以 ClustalW2 为 subaligner）。数据点对应表 8.1 的第 8 和第 9 列。

表 8.1 BAliBASE3 benchmark 上的 aligner 性能

Aligner	BB11	BB12	BB2	BB3	BB4	BB5	all	Time	RSS	ss
ClustalO	0.36	0.79	0.45	0.58	0.58	0.53	0.55	00h:04m:25s	959060	55961
ClustalO-i1	0.36	0.79	0.45	0.59	0.59	0.55	0.56	00h:24m:53s	3442156	106888
ClustalW2	0.22	0.71	0.22	0.27	0.40	0.31	0.37	00h:09m:58s	8032	3852
DIALIGN	0.27	0.70	0.29	0.31	0.44	0.43	0.42	00h:47m:28s	56912	7350
Kalign	0.37	0.79	0.36	0.48	0.50	0.44	0.50	00h:00m:24s	7260	2776
L-INS-i	0.40	0.84	0.46	0.59	0.60	0.59	0.58	00h:30m:01s	703524	43695
MAFFT	0.29	0.77	0.33	0.42	0.49	0.50	0.47	00h:00m:50s	461668	35950
PartTree	0.28	0.76	0.30	0.40	0.45	0.50	0.45	00h:00m:57s	448524	19421
MUSCLE	0.32	0.80	0.35	0.41	0.45	0.46	0.48	00h:07m:48s	78608	15892
MUSCLE-i2	0.27	0.76	0.33	0.38	0.43	0.43	0.45	00h:01m:47s	78780	15860
PASTA(w)	0.24	0.71	0.23	0.23	0.37	0.34	0.37	01h:08m:49s	317112	58703
PASTA	0.35	0.78	0.45	0.50	0.51	0.52	0.53	01h:45m:08s	664336	65448
PASTA(m)	0.30	0.78	0.31	0.35	0.44	0.39	0.44	01h:10m:43s	323936	62038
PRANK	0.24	0.68	0.25	0.35	0.36	0.39	0.39	35h:55m:53s	468692	36742
T-Coffee	0.41	0.86	0.40	0.47	0.55	0.59	0.55	05h:48m:46s	1870536	192504
测试比对数	38	44	41	30	49	16	218

第 2–7 列（BB11–BB5）为各层级参考集合的平均 total column（TC）score；第 8 列（all）为全部 218 个测试比对的平均 TC score。第 9 列（time）为所有 218 个测试比对的总单线程运行时间。第 10 列（RSS）为最大内存需求；第 11 列（rss）为平均内存需求。第 8/9 列（all/time）对应图 8.4。最后一行给出每个层级集合中的测试比对数量。

表 8.1 的性能度量基于固定大小的数据集。图 8.4 则绘制了多种 MSA 算法在待比对序列数量增加时的运行时间；所用数据来自 Pfam（Finn et al. 2014）的三组不同长度序列。柱形对应一个很短的蛋白结构域（zf-CCHH，平均长度 23 个氨基酸）、一个中等长度结构域（rvp，平均序列长度 93），以及一个长蛋白结构域（RuBisCO_large，长度 248）。图 8.4 使用双对数图展示结果。较平缓的曲线代表扩展性较好，也就是说，待比对序列数增加时，计算时间只会适度增加。陡峭曲线则代表扩展性较差，使用越来越大的序列集合时，计算时间会快速增加。Clustal Omega 的结果用红色柱（底部为 zf-CCHH，顶部为 RuBisCO_large）和圆点（rvp）表示。对于 20–1000 条序列的数据集，Clustal Omega 慢于 Kalign（品红色圆点）、默认 MAFFT（深蓝色圆点）或快速 MUSCLE（绿色方块）。由于扩展性更好，Clustal Omega 在 N = 2000 时超过快速 MUSCLE 和 Kalign，并在 N = 20000 时超过默认 MAFFT。MAFFT PartTree（深蓝色方块）在所有数据集上都始终快于 Clustal Omega。

图 8.4

随着序列数量（x 轴）增加，不同 aligner 的总单线程执行时间（y 轴）。两个坐标轴均为对数尺度。须状线表示从短序列（下须：zf-CCHH/PF00096，长度 23–34 个残基）到长序列（上须：RuBisCO_large/PF00016，长度 295–329 个残基）的时间范围。实线连接中等长度序列的时间点（rvp/PF00077，长度 94–124）。

Clustal Omega 中，progressive alignment 启发式策略的两个主要阶段（即距离计算和成对比对）都已经并行化。一个比对可以分配到同一台计算机的不同核心上，但不能分配到不同计算机之间。距离矩阵计算是一项容易并行化的任务。相比之下，成对比对阶段很难有效并行化。如图 8.5 所示，Clustal Omega 在使用 2、3 或 4 个线程时可以获得较好的加速；但只有当序列数量非常大时，更多线程才有用。Clustal Omega 的并行化是“thread-safe”（线程安全）的：使用一个线程生成的比对，保证与使用多个线程生成的比对相同。

图 8.5

使用不同线程数（x 轴）时，总运行时间相对于单线程执行的比值（y 轴）：(a) 100 条序列；(b) 500 条序列；(c) 1000 条序列；(d) 10000 条序列。Def 表示程序默认设置。L-INS-i (t) 表示该程序的非线程设置。

060

Commonly Used Alignment Packages — Part 2: ClustalW2 / DIALIGN / Kalign / MAFFT

PDF page 256-259；印刷页码 236-239；从 ClustalW2 起，止于 MUSCLE 标题前

▶

第 8 章多序列比对 / 常用比对软件包 — Part 2：ClustalW2 / DIALIGN / Kalign / MAFFT

ClustalW2

ClustalW2（Larkin et al. 2007）是 Clustal Omega 的前代，源自一系列可追溯到 20 世纪 80 年代的程序。它通常比 Clustal Omega 慢，能够比对的序列数量也较少，而且产生的比对质量往往较低。它也不能通过使用多个线程来加速。自 2010 年以来，其代码库已经冻结，ClustalW2 不再处于活跃开发状态。虽然 ClustalW2 仍可在 Pasteur Galaxy server 上作为在线工具使用，但 EBI 和 Max Planck Bioinformatics Toolkit 已不再提供它。ClustalW2 是若干 Linux 发行版的一部分（例如 Ubuntu；代码和可执行文件也可从 Clustal 网站获得）。本书仍介绍 ClustalW2，是因为它仍然被广泛使用，而且其 GUI 使它成为一个非常易用、直观的程序。与 Clustal Omega 不同，它既可以在终端中交互式运行，也可以通过称为 ClustalX 的 GUI 运行。不过，本节只说明如何从命令行使用 ClustalW2。

ClustalW2 也是一种 progressive aligner（渐进式比对程序），并且总是计算完整的 N × N 距离矩阵，其中 N 是待比对序列的数量。这实际上限制了 ClustalW2 能在合理时间内比对的序列数量。本书这里没有尝试比对超过 5000 条序列。名称 ClustalW 中的 “W” 来自 weighting scheme（加权方案），用于降低过度代表序列的权重。

ClustalW2 会自动识别七种输入序列文件格式：NBRF-PIR、EMBL-SWISSPROT、Pearson（FASTA）、Clustal、GCG-MSF、GCG9-RSF 和 GDE。比对输出默认为 Clustal 格式，但也可以选择 GCG、NBRF-PIR、PHYLIP、GDE、NEXUS 或 FASTA。最小 ClustalW2 命令行如下：

clustalw2 -INFILE=infile.fa

该命令会读取 infile.fa 中的序列，检测文件格式，推测序列是核苷酸还是蛋白质，随后比对这些序列，并把 Clustal 格式的比对写入 infile.aln。输入文件名的 stem（主干；本例为 infile）会被保留，文件扩展名（本例为 .fa）会被去掉，然后追加扩展名 .aln。ClustalW2 默认还会把 Newick 格式的 guide tree（引导树）输出到一个以 .dnd 结尾的文件中。程序会向 standard output（标准输出）打印 progress report（进度报告），其中包含未比对序列之间的距离和中间 subalignment（子比对）分数。对于大量序列，这可能耗费时间和内存，因此可以通过设置 -QUIET flag 抑制。如果希望把比对写入不同于默认名称的文件，可以设置 -OUTFILE flag。输出格式可通过设置 -OUTPUT flag 指定，如下所示：

clustalw2 -INFILE=infile.fa -OUTFILE=output.a2m -OUTPUT=fasta

这里，infile.fa 中未比对序列的比对结果会以 FASTA 格式写入文件 output.a2m。

在标准蛋白质 benchmark BAliBASE3 上，ClustalW2 速度中等，慢于 Clustal Omega、默认 MAFFT 和 Kalign。它的执行时间与默认 MUSCLE 大致相同，但快于 PRANK、T-Coffee 和 PASTA。然而，从 TC score 衡量的准确度来看，ClustalW2 是这里考察的所有 aligner 中最差的，这一点可从图 8.3 看出。

对于少量序列，ClustalW2 是本次比较中最节省内存的 aligner 之一。然而，它的时间和内存需求随序列数量的平方增长。因此，在配备 8GB RAM 的 benchmark 机器上，我们无法把序列数量范围扩展到 5000 以上；这一点可从图 8.4 中的橙色圆点看出。

DIALIGN

如果待比对序列在全长范围内显然可以对齐，progressive alignment 算法是合适的。然而，如果序列之间只有局部相似性，除此之外并无关系，那么这种算法可能并不适用。例如，如果若干序列只共享一个短蛋白结构域，而其余部分完全无关，那么用 Clustal Omega 这样的标准 progressive aligner 很难完成比对。DIALIGN（Morgenstern et al. 1998）并不尝试匹配单个残基，而是匹配残基片段。这些片段内部没有 gap，并且在所有待比对序列中长度相同。片段内部虽然没有 gap，但允许 mismatch（错配）。程序会考虑不同长度的片段，但通常使用 10 作为下限阈值。只有在能够保持一致性时，多个片段才会被对齐；也就是说，任何一个片段都不能与另一条序列中的多个片段对齐，并且所有序列中的所有片段都必须保持相同顺序。这种 consistency scheme（一致性方案）早于 T-Coffee 中实现的方案（Notredame et al. 2000）。DIALIGN 的典型命令行是：

dialign2 -fa input.in

其中，input.in 是包含待比对未比对序列的文件。比对后的输出会写入一个与输入文件同名、但额外添加 .fa 扩展名的文件。

使用 BAliBASE3 benchmark 数据集时，DIALIGN 快于 T-Coffee、PASTA 和 PRANK，但慢于所有其他 aligner。DIALIGN 的 TC score 相对较低，但优于 ClustalW2 和 PRANK。DIALIGN 的运行时间需求在所有 aligner 中最高（图 8.4）。DIALIGN 的内存需求最初较低，但看起来会随序列数量呈平方增长（图 8.5）。已有一个 DIALIGN 版本实现了并行化（Schmollinger et al. 2004）。

Kalign

Kalign2（Lassmann and Sonnhammer 2005）是一个 progressive MSA 程序。它使用 Muth–Manber string-matching algorithm（字符串匹配算法；Muth and Manber 1996）来建立生成 guide tree 所需的距离。在这里考察的所有程序中，这似乎是最快的距离计算算法。不过，Kalign2 中的距离矩阵计算会随序列数量呈平方扩展。Kalign2 支持 Clustal、PileUp、MSF、Stockholm、UniProt、Swiss-Prot 和 Macsim alignment formats。

最小 Kalign2 命令行如下：

kalign -in input.fa -out output.fa

该命令会把 input.fa 中未比对序列的比对结果，以默认 FASTA 格式写入 output.fa。此外，程序还会向 standard output 写出 progress report。

使用 BAliBASE3 benchmark 时，Kalign2 是这里考察的程序中速度最快的。按 TC score 衡量，它的准确度优于默认版本的 MAFFT、MUSCLE 和 ClustalW2，但不及 L-INS-i、Clustal Omega 或 T-Coffee（图 8.3）。不过，BAliBASE3 规模相对较小，序列数在 4 到 142 之间（中位数 21 条）。对于更大的序列数量，Kalign 的扩展性会抵消其高效实现带来的优势；在速度上，它会被 MAFFT（1000 条序列）、fast mode 下的 MUSCLE、Clustal Omega（2000 条序列）和 PASTA（20000 条序列）超过。

MAFFT

MAFFT（Katoh et al. 2005a,b）是一组不同 executable（可执行程序）的集合，由一个脚本管理；该脚本会根据序列数量、期望准确度和可用计算能力，选择一系列多序列比对程序。这里重点介绍三类： (i) 面向中大型数据集的通用默认 MAFFT aligner FFT-NS-i；(ii) 适用于几百条序列小数据集、准确度更高但速度更慢的 L-INS-i；以及 (iii) 能处理极大量序列的 PartTree。

当运行 MAFFT 而不指定特定 aligner 时，它会以默认模式运行。在默认模式中，MAFFT 会把氨基酸序列重新编码为 tuple（元组）序列，其中包含残基的体积和极性。使用 fast Fourier transform（FFT，快速傅里叶变换），可以高效计算两条序列的体积和极性的相关性。通过这种方式，程序能够识别序列中的同源区段。随后，这些部分使用传统 dynamic programming（动态规划）进行比对。该算法称为 FFT-NS-1。在默认模式中，MAFFT 会再重复一次这个过程（称为 FFT-NS-2），然后进行 iterative refinement（迭代优化），最终构成 FFT-NS-i。在 FFT-NS-2 期间产生的 MSA，会通过对序列中随机分组的各组进行重复成对比对而逐步优化。L-INS-i 使用 iterative refinement，也使用 alignment consistency（一致性；Notredame et al. 2000），后者是一种度量多序列比对与成对比对之间一致性的技术。这种方法可以非常准确，但通常随序列数量呈三次方扩展，因此主要适用于较小问题。另一方面，PartTree 是一种快速方法，能够快速构建 guide tree，从而处理包含数千条序列的数据集。

Default MAFFT

最小默认 MAFFT 命令行如下：

mafft input.fa > output.fa

MAFFT 不接受非标准氨基酸符号，例如 ambiguity codes（歧义代码）。如果序列信息中包含这类符号，应设置 --anysymbol flag。通过设置 --quiet flag，可以抑制写入 standard error（标准错误）的诊断输出。

在 BAliBASE3 上，默认 MAFFT 是仅次于 Kalign2 的第二快 aligner，TC score 略低于 Kalign2，与默认 MUSCLE 相当，并远高于 ClustalW2。其内存消耗一直较高。所有 MAFFT 策略都已经并行化，并且最多使用 4 个线程时加速效果良好。超过这一数量后，只有在序列数量非常大时才会获得有用加速。默认 MAFFT 是 thread-safe（线程安全）的，也就是说，使用一个线程生成的比对，保证与使用多个线程生成的比对相同。这意味着多线程模式下的比对结果是可重复的。

L-INS-i

L-INS-i 是高准确度 MAFFT 程序，因此 throughput（吞吐量）低于默认版本。最小 MAFFT L-INS-i 命令行可以用以下两种方式之一书写：

linsi input.fa > output.fa

或：

mafft --localpair input.fa > output.fa

在这里考察的所有程序中，MAFFT L-INS-i 在 BAliBASE3 benchmark 上获得最高 TC score（图 8.3）。它的执行时间慢于 MUSCLE 和 Clustal Omega，与一轮迭代的 Clustal Omega 相当，并快于 T-Coffee 和 PASTA。MAFFT L-INS-i 的多线程执行加速效果是所有程序中最好的。不过，MAFFT L-INS-i 不是 thread-safe。这意味着使用不同线程数运行时，结果可能不同。即使使用相同线程数，不同运行之间的结果也可能不同。

PartTree

最小 MAFFT PartTree 命令行如下：

mafft --parttree input.fa > output.fa

PartTree 是高吞吐量 MAFFT 程序，不预期它在 BAliBASE3 这样的小 benchmark 上表现很好。它比 MAFFT 默认版本更慢、准确度也更低。图 8.4 中的数据表明，当序列数超过 200 时，PartTree 始终是最快的 aligner。Clustal Omega 具有相似的扩展性（图 8.4），但 overhead（开销）更高。对于超过 2000 条序列的数据集，PartTree 也是最节省内存的算法。在所有 MAFFT 版本中，都可以通过设置 --treeout flag 写出 guide tree。不过，在 PartTree 中，序列标识符会被替换为该序列在输入文件中出现位置的整数索引。PartTree guide tree 也可能包含 multifurcation（多分叉）。与所有 MAFFT 版本一样，PartTree 可以读入外部 guide tree；不过，其文件格式是 MAFFT 专用格式。输入必须先由名为 newick2mafft.rb 的工具程序从标准格式 guide tree 生成；该程序是 MAFFT 发行版的一部分。PartTree 是 thread-safe 的；不过，使用超过一个线程并没有有用的加速效果。

061

Commonly Used Alignment Packages — Part 3: MUSCLE / PASTA / PRANK / T-Coffee

PDF page 260-262；印刷页码 240-242；从 MUSCLE 起，止于 Viewing a Multiple Alignment 标题前

▶

第 8 章多序列比对 / 常用比对软件包 — Part 3：MUSCLE / PASTA / PRANK / T-Coffee

MUSCLE

MUSCLE（Edgar 2004）是一个 progressive MSA 程序。在第一阶段，它基于快速 k-tuple vector comparison（k 元组向量比较）计算未比对序列之间的距离矩阵。随后，这些距离使用 UPGMA cluster analysis（聚类分析；Sokal and Michener 1958）进行聚类。该阶段会产生一个初始比对，随后可在第二个迭代步骤中加以改进。第二步与第一步相似，唯一区别在于使用 alignment-based distances（基于比对的距离；Kimura 1983），而不是 k-tuple vector comparison。在后续一轮 iterative refinement（迭代优化）中，第二阶段比对可以通过以下方式改进：将第二阶段 guide tree 切成两部分，重新比对每个 subtree 中的序列，然后比对两个 subprofile（称为 tree-dependent restricted partitioning，依赖树的受限划分）。如果新的比对提高了 alignment score（比对分数），则接受该新比对。默认情况下，这些 refinement 会执行 14 次，因此总共会进行 16 轮比对。

最小 MUSCLE 命令行如下：

muscle -in input.fa -out output.fa

该命令会执行最初两轮比对（分别基于 k-tuple 和 alignment distance），随后执行 14 轮 iterative refinement。如果序列数量很大，可以在命令中加入一个额外项来指定最大迭代次数，从而跳过 iterative refinement：

muscle -in input.fa -out output.fa -maxiters 2

使用 BAliBASE3 benchmark 时，默认 MUSCLE 的准确度（按 TC score 衡量）与默认 MAFFT 相当；它略快于 ClustalW2，略慢于 Clustal Omega。Fast MUSCLE 只执行前两个比对阶段，速度大约比默认版本快一个数量级。使用 BAliBASE3 时，它快于 Clustal Omega，但仍不及默认 MAFFT 或 Kalign2 快。不过，相比默认版本，它的准确度会下降。在图 8.4 的大规模测试中，对于 5000 条和 20000 条序列，MUSCLE 分别在默认模式和 fast mode 下超出了本测试平台可用内存。Fast MUSCLE 的运行时间一开始快于 Clustal Omega、慢于 Kalign2；随后在速度上超过 Kalign2，又在 2000 条序列时被 Clustal Omega 超过。由于 iterative refinement 会重新划分 guide tree，但不会重新生成 guide tree，因此默认版本和 fast 版本的 guide tree 总是相同的。MUSCLE 没有并行版本。

PASTA

PASTA（Practical Alignments using SATé and TrAnsitivity；Mirarab et al. 2015）是一个 Python 脚本，会调用现有软件包，例如 SATé（Liu et al. 2009）、MAFFT、MUSCLE、ClustalW、HMMER（Eddy 2009）、OPAL（Wheeler and Kececioglu 2007）和 FastTree-2（Price et al. 2010），并组合它们的结果。第一步中，程序会从输入数据集中随机选择少量序列并进行比对。PASTA 的默认 aligner 是 MAFFT L-INS-i。这个初始比对称为 “backbone”（骨架），并使用 HMMER 转换为 HMM。剩余序列随后会被比对到这个 HMM 上。接着，程序使用 FastTree 从该比对构建一个初始 maximum likelihood（ML，最大似然）tree。然后根据这棵树对序列进行聚类，使 cluster 大小保持较小。随后，使用默认 aligner 比对各个 cluster，形成 subalignment。在整体 spanning tree（生成树）中彼此“相邻”的 subalignment 会使用 OPAL 进行比对，形成 subalignment pair。不同 subalignment pair 最后被合并，产生整体比对。

PASTA 默认期待输入核苷酸序列。对于蛋白质序列，最小 PASTA 命令行如下：

python run_pasta.py --input=input.fa --datatype=Protein

使用 BAliBASE3 benchmark 时，默认 PASTA 快于 T-Coffee 和 PRANK，但慢于所有其他 aligner。PASTA 的准确度与底层 subalignment 软件的准确度密切相关。可以通过指定参数来更换这个 aligner，例如 --aligner=muscle 或 --aligner=clustalw2。如果像默认设置一样使用 L-INS-i 这种更准确的 aligner，PASTA 比对会更准确；如果使用 MUSCLE 这样的 aligner，质量为中等；如果使用 ClustalW2，PASTA 会产生最差的比对。不过，在 BAliBASE3 上，PASTA 比对从未真正达到或超过底层 subalignment 软件本身的质量。图 8.3 可以看出这一点：PASTA 的数据点位于相应 subaligner 数据点的右侧（更慢）和下方（更不准确）。这并不令人意外，因为用少量蛋白质序列比对已经证明，ML phylogenetic trees（最大似然系统发育树）不一定是好的 guide tree，而且经常是明显糟糕的 guide tree（Sievers et al. 2014）。

不过，PASTA 并不是为比对少量序列而设计的。使用大规模 benchmark 数据时，它一开始（20 条序列）是仅次于 PRANK 的第二慢 aligner；但由于时间扩展性较好，它在 500 条序列时超过 L-INS-i，在 5000 条序列时超过默认 MUSCLE 和 ClustalW2，并在 20000 条序列时超过 Kalign2。它的内存消耗也以类似方式扩展。

PASTA 已经并行化。默认情况下，它会尝试使用所有可用线程。可以通过为 --num_cpus flag 指定参数来改变线程数。随着线程数增加，PASTA 表现出良好加速；随着序列数量增加，这种效果会更明显，如图 8.5 所示。然而，这里考察的 PASTA 版本并不是 thread-safe（线程安全）的。这意味着比对结果会因线程数不同而不同。也许更令人不安的是，使用超过一个线程时，结果无法复现。PASTA 默认模式使用非 thread-safe 的 L-INS-i；即使使用只能单线程运行的 MUSCLE 作为 subaligner，也同样存在这个问题。对于后一种情况，在一个具体例子中，如果使用 3 个线程把同一组 100 条 rvp 序列（平均长度 106.5，最长序列 124）比对 10 次，比对长度可在 159 到 183 之间变化。在这个例子中，6 条 rvp 参考序列核心列的 TC score 在 0.433 到 0.556 之间变化。因此，为了让结果可复现，应该总是设置 --num_cpus=1。

PRANK

在两条单独序列的 pairwise alignment 中，无法判断某条序列中的 gap 是由该序列中的 deletion（缺失）造成，还是由另一条序列中的 insertion（插入）造成。然而，在 MSA 中，这一区分可能变得重要，尤其是在 phylogenetic analysis（系统发育分析）中。大多数 progressive aligner 会低估真实 insertion 事件数量，并可能产生人为偏短的比对。PRANK（Löytynoja and Goldman 2005）尝试通过执行 phylogeny-aware gap placement（系统发育感知的 gap 放置）来处理这一问题。因此，如果研究者关心对所有 gap 位置进行谨慎估计，PRANK 可能会有用。本节所述这类基于结构的 benchmark 无法恰当地检验 PRANK；它在这些 benchmark 上表现较低，并不意味着它在其他情形中没有用。

PRANK 的最小命令行如下：

prank -d=infile.fa -o=outfile -f=fasta

使用 BAliBASE3 benchmark 时，PRANK 是最慢的 aligner；除 ClustalW2 外，它获得的 TC score 也是最低的（图 8.3）。这并不奇怪，因为传统的基于结构的 benchmark 奖励 compact alignment（紧凑比对），并且可能没有充分惩罚 over-alignment（过度比对）。需要注意的是，PRANK 只读取标准 IUPAC codes（每种氨基酸或碱基对应唯一字母），并将所有非 IUPAC 字符（例如 ambiguity codes）替换为 N 或 X。因此，把比对结果与未比对数据或 reference alignment 比较时，可能会出现差异。

Scalability benchmark 表明，对于少量序列，PRANK 是较慢的 aligner。不过，在所有 aligner 中，PRANK 的 time complexity（时间复杂度）是最低的一类：超过 100 条序列后，PRANK 会超过 T-Coffee；超过 1000 条序列后，会超过 MAFFT L-INS-i（图 8.4）。它的内存需求也呈现类似趋势，并预计在 5000 条序列后超过本测试平台可用内存。

T-Coffee

T-Coffee 最初是一种 progressive alignment heuristic method，用于优化 MSA 的 Coffee objective function（目标函数；Notredame et al. 1998）。该函数会寻找一个 MSA，使不同序列残基之间的加权成对匹配之和最大。这些 pairwise match（成对匹配）可以来自 pairwise alignment、已有 MSA、蛋白质结构叠合中的对应残基，或 RNA 结构比对中的已对齐残基。因此，T-Coffee 能够合并来自未比对序列、不同 MSA 软件包、结构比对或这些来源混合的信息。Notredame 等（2000）首次描述了 MSA consistency（一致性）：若序列之间的 pairwise residue match 与其他序列对中的 pairwise match 一致，则会被赋予更高权重。这有助于绕开 progressive alignment 内在的贪心性质，并被证明能产生非常准确的比对。后来，Consistency 被纳入 Probcons（Do et al. 2005）和 MAFFT（Katoh et al. 2005a,b）软件包。它会增加比对的计算复杂度，主要适用于少于 1000 条序列的比对，但能显著提高比对准确度。

T-Coffee 的最小命令行如下：

t_coffee -in infile.fa -output fasta

该命令会生成一个名为 infile.fasta_aln 的 FASTA 格式比对文件。

使用 BAliBASE3 benchmark 时，T-Coffee 是仅次于 PRANK 的第二慢 aligner。不过，如图 8.3 所示，它的平均 TC score 属于最高的一组，优于 PASTA、Kalign 和 MUSCLE。T-Coffee 的平均内存消耗最高。由于 T-Coffee 基于 consistency 原理，其相对于序列数量的时间复杂度预期较高。我们无法把序列数量范围扩展到 1000 以上，因为 T-Coffee 用尽了可用的 8GB RAM。在并行化方面，T-Coffee 是完全 thread-safe 的。这意味着比对结果不依赖处理器数量；处理器数量可通过指定 -n_core flag 设置。比对结果也可复现。因此，T-Coffee 是在仍保持 thread-safe 的前提下并行加速效果最好的 aligner。

062

Commonly Used Alignment Packages

PDF page 252-262；印刷页码 232-242

▶

第 8 章多序列比对 / 常用比对软件包 — Part 1：Clustal Omega

本节介绍如何使用一系列常用软件包构建多序列比对。关于源代码下载或在线使用的汇总信息，见本章“Internet Resources”。

Clustal Omega

clustalo -i <infile> -o <outfile>

Iteration

clustalo -i infile.fa -o outfile1.fa --iter=1

其中，infile.fa 和 outfile1.fa 分别是 FASTA 格式输入文件和输出文件的名称。

clustalo -i infile.fa -o outfile4.fa --hmm-in=pfam.hmm

Benchmarking Clustal Omega

图 8.3

表 8.1 BAliBASE3 benchmark 上的 aligner 性能

Aligner	BB11	BB12	BB2	BB3	BB4	BB5	all	Time	RSS	ss
ClustalO	0.36	0.79	0.45	0.58	0.58	0.53	0.55	00h:04m:25s	959060	55961
ClustalO-i1	0.36	0.79	0.45	0.59	0.59	0.55	0.56	00h:24m:53s	3442156	106888
ClustalW2	0.22	0.71	0.22	0.27	0.40	0.31	0.37	00h:09m:58s	8032	3852
DIALIGN	0.27	0.70	0.29	0.31	0.44	0.43	0.42	00h:47m:28s	56912	7350
Kalign	0.37	0.79	0.36	0.48	0.50	0.44	0.50	00h:00m:24s	7260	2776
L-INS-i	0.40	0.84	0.46	0.59	0.60	0.59	0.58	00h:30m:01s	703524	43695
MAFFT	0.29	0.77	0.33	0.42	0.49	0.50	0.47	00h:00m:50s	461668	35950
PartTree	0.28	0.76	0.30	0.40	0.45	0.50	0.45	00h:00m:57s	448524	19421
MUSCLE	0.32	0.80	0.35	0.41	0.45	0.46	0.48	00h:07m:48s	78608	15892
MUSCLE-i2	0.27	0.76	0.33	0.38	0.43	0.43	0.45	00h:01m:47s	78780	15860
PASTA(w)	0.24	0.71	0.23	0.23	0.37	0.34	0.37	01h:08m:49s	317112	58703
PASTA	0.35	0.78	0.45	0.50	0.51	0.52	0.53	01h:45m:08s	664336	65448
PASTA(m)	0.30	0.78	0.31	0.35	0.44	0.39	0.44	01h:10m:43s	323936	62038
PRANK	0.24	0.68	0.25	0.35	0.36	0.39	0.39	35h:55m:53s	468692	36742
T-Coffee	0.41	0.86	0.40	0.47	0.55	0.59	0.55	05h:48m:46s	1870536	192504
测试比对数	38	44	41	30	49	16	218

图 8.4

图 8.5

063

Viewing a Multiple Alignment

PDF page 262-266；印刷页码 242-246

▶

第 8 章多序列比对 / 查看多序列比对

如果不借助可视化软件来突出比对的某些特征，查看一个 MSA 会非常困难。例如，可以使用不同字体、颜色或阴影来强调 conserved columns（保守列）或 motifs（基序）。此外，还可以通过在不同区域显示结构或功能特征来为比对添加 annotation（注释）。有一些专门的 alignment viewing package，也有一些软件包本身包含很好的查看功能；下面介绍其中一些常用工具（见 Internet Resources）。其中两个软件包（SeaView 和 Jalview）还包含非常强大的 MSA 编辑能力。

Clustal X

Clustal X（Thompson et al. 1997）是在已有 Clustal W 软件包（Thompson et al. 1994）的基础上加入 GUI 而创建的，并且这个 GUI 可移植到所有广泛使用的操作系统。两个软件包使用相同的 alignment engine（比对引擎），之后也并行开发和维护。未比对或已比对的序列会显示在一个可滚动窗口中，默认配色方案会突出显示各列中高度保守的残基。Clustal X 包含用于调整比对显示的工具，例如用户可调的配色方案、字体大小，以及用于突出显示低保守 blocks、columns 或 sequences 的选项。比对也可以导出为适合发表的高质量 PostScript 文件。这些着色功能最适合氨基酸序列，但也可以查看核苷酸序列。Clustal X 不再处于活跃开发状态，但由于其可移植性、稳健性和易用性，它仍然可以免费获得并被广泛使用。它可作为桌面应用运行在所有广泛使用的操作系统上。

Jalview

Jalview 是一个 open-source MSA editor and analysis workbench（开源 MSA 编辑器与分析工作台），可运行在 Windows、Mac 和 Linux 平台上（Waterhouse et al. 2009）。Jalview 关注基因、蛋白质或 RNA 家族层面的多序列比对和功能分析，而不是全基因组层面的分析。除了面向 DNA、RNA 和蛋白质序列的复杂交互式多序列比对编辑功能——包括 “undo”（撤销）、多个 “views”（视图），以及对比对中的序列和列进行 subset（取子集）与 “hide”（隐藏）的能力——Jalview 还提供 linked views（联动视图），可联动显示树、DNA 和蛋白质序列、通过 Jmol 或 Chimera（Pettersen et al. 2004）显示的蛋白质三维结构，以及通过 VARNA（Darty et al. 2009）显示的 RNA 二级结构。图 8.6 展示了两个例子：一个蛋白质比对，与蛋白质结构显示联动；一个 RNA 比对，与 RNA 二级结构显示联动。

Jalview 可连接到主要公共数据库，访问序列、比对和三维结构，从而便于获取这些资源和 sequence annotation（序列注释，例如 active site descriptions，活性位点描述）。Jalview 支持多种 annotation 方法，既可以作用于单条序列，也可以根据比对列计算，并显示在比对上方或下方。它还包含一个分屏 DNA/RNA/protein view，可将 DNA 比对与相关蛋白质序列比对联动起来，一起编辑和分析；图 8.7 展示了一个例子。这个视图还允许将 population variation data（群体变异数据）、single-nucleotide polymorphisms（SNPs，单核苷酸多态性）以及 gene exons 等其他基因组特征映射到蛋白质序列和三维结构上。例如，Jalview 用户可以在 UniProt 中查找蛋白质，然后反向交叉引用到 Ensembl 中的完整基因和转录本，以查看比对中任何已知 SNP；随后，只需点击几次鼠标，就可以查看蛋白质三维结构和 SNP 位置（如果可用）。

为了生成比对，Jalview 提供对八种常用多序列比对算法的直接访问，并允许用户修改每种方法的参数（Troshin et al. 2011）。因此，用户可以交互式地进行比对、重新比对，并比较不同方法和参数组合生成的比对。Jalview 还提供对 JPred protein secondary structure prediction algorithm（蛋白质二级结构预测算法；Drozdetskiy et al. 2015）的直接访问，可从单条序列或多序列比对预测蛋白质二级结构和 solvent accessibility（溶剂可及性）。Jalview 包含四种 protein disorder prediction algorithms（蛋白质无序预测算法），还包括 RNAalifold 程序（Bernhart et al. 2008），该程序可通过 JABAWS2.2 从 RNA 多序列比对预测 RNA 二级结构。对于 conservation analysis（保守性分析），Jalview 中通过 AACon package 提供 17 种不同的氨基酸保守性评分方法，以及 SMERFS functional site prediction algorithm（功能位点预测算法）。Jalview 网站包含培训材料和手册，在线培训 YouTube 频道还提供 20 多个关于 Jalview 基础和高级功能的短视频教程。

SeaView

SeaView（Galtier et al. 1996）是一个 MSA editor，尤其适合把比对视图与 MSA 和 phylogenetic package（系统发育软件包）连接起来。它既可处理核苷酸比对，也可处理氨基酸比对。SeaView 能够读写多种 MSA 文件格式，并可直接调用 MUSCLE 或 Clustal Omega 来创建 MSA。随后，用户可以编辑比对，并调用 Gblocks filter program 去除比对较差的区域。该软件包可使用多种方法计算系统发育树，包括 maximum parsimony（最大简约法；使用 PHYLIP 软件包中的 Protpars；Felsenstein 1981）、neighbor joining（邻接法；Saitou and Nei 1987），或使用 Phyml（Guindon and Gascuel 2003）进行 ML 分析。SeaView 是一种非常直接且稳健的方式，可以在单一框架下从未比对序列进入完整系统发育分析。

图 8.6

使用 Jalview 可视化的蛋白质和 RNA 多序列比对。左侧窗格展示蛋白质多序列比对，并包含不同 feature coloring（特征着色）、tree 和 Jmol 分子结构视图。所有窗口均相互联动，因此在一个窗口中点击某个残基或序列，会在所有其他窗口中高亮对应残基或序列。右侧展示 RNA 多序列比对，并在 VARNA 中显示相应二级结构信息。

图 8.7

在 Jalview 中可视化的 linked coding sequence（CDS，编码序列）、蛋白质和三维结构视图，显示已知 single-nucleotide polymorphisms（SNPs，单核苷酸多态性）的位置。Jalview 中使用文本搜索在 UniProt 中找到一组相关蛋白质序列。随后，Jalview 将这些序列交叉引用到 Ensembl 中的 CDS 数据。蛋白质序列由 Clustal Omega 进行多序列比对。最后，其中一个蛋白质的三维结构显示在联动的 Chimera 应用中。比对中的红色和绿色位置突出显示从 Ensembl 获取的已知 SNP 位置。

ProViz

ProViz（Jehl et al. 2016）是一个近期重新发布的软件包，用于查看预先制作好的蛋白质序列比对，并叠加 feature annotation（特征注释），尤其是 functional domains（功能结构域）。这些比对以及指向功能信息数据库的链接已经预先计算，查看器会以整合方式显示来自多种来源的序列信息。ProViz 可以在线运行，也可以下载后在本地运行。最简单的查看入口，是使用感兴趣蛋白质或基因的 ID、名称或关键词；随后查看器会显示包含该蛋白质的比对。用户也可以输入自己的蛋白质序列或多序列比对。ProViz 使用的数据来源列在 Internet Resources 中。

064

Summary + Internet Resources + References

PDF page 266-270；印刷页码 246-250

▶

第8章多序列比对

8.6 总结、网络资源与参考文献

总结（Summary）

即使是包含数千条序列的较大型数据集，也可以很快通过在线服务，或在基于 Linux 的笔记本和台式机上完成 multiple sequence alignment（MSA，多序列比对）。MSA 会被用于大量后续分析，几乎出现在所有系统发育分析、许多结构分析以及序列相似性研究中。

目前可用的软件包很多，但没有哪一个可以说在所有情况下都能给出“最佳”比对；为了让计算可处理，它们都会采用各种 computational shortcuts（计算捷径）。不同软件包各有优势和弱点，因此更好的做法是使用 alignment viewer（比对查看器）直接检查比对结果，并尝试不同程序。有些网站和 alignment-viewing package 支持多个最常用程序，同时保持一致的界面，这会让试用和比较变得更容易。

最重要的考虑因素，始终是输入序列本身的性质和质量。输入序列必须足够相似，才有可能被可靠地比对。还要记住：纳入的片段化序列或离群序列越多，比对结果就会越碎片化。干净的数据集通常会产生干净的比对；这样的比对既容易人工查看，也容易进一步分析。

网络资源（Internet Resources）

多序列比对软件版本

软件	版本	URL	在线可用性
Clustal Omega	v1.2.3	`www.clustal.org/omega`	EMP
ClustalW2	v2.1	`www.clustal.org/clustal2`	--P
DIALIGN	v2.2.2	`dialign.gobics.de`	---
Kalign	v2.04	`msa.sbc.su.se/cgi-bin/msa.cgi`	---
MAFFT	v7.309	`mafft.cbrc.jp/alignment/software`	EMP
MUSCLE	v3.8.31	`www.drive5.com/muscle`	EMP
PASTA	v1.6.4	`github.com/smirarab/pasta`	---
PRANK	v.150803	`wasabiapp.org/software/prank`	E--
T-Coffee	11.00.8cbe486	`www.tcoffee.org/Projects/tcoffee/index.html`	EMP

在线可用性标记说明：三类站点分别为 EBI（E，www.ebi.ac.uk/services`）、Tübingen 的 MPI for Genetics（M，toolkit.tuebingen.mpg.de）以及 Pasteur Institute Galaxy server（P，galaxy.pasteur.fr`）。

多序列比对可视化软件包

软件	说明	URL
ClustalX	ClustalW 的桌面 MSA 版本	`www.clustal.org`
Jalview	比对编辑器与查看器	`www.jalview.org`
SeaView	比对编辑器与查看器	`doua.prabi.fr/software/seaview`
ProViz	比对与注释查看器	`proviz.ucd.ie`

ProViz 用于蛋白质比对可视化的数据来源

多序列比对

资源	说明	URL
GeneTree	同源、旁系同源和直系同源比对，以及基因重复信息	`www.ensembl.org`
GOPHER	通过 reciprocal best hit 得到的直系同源比对	`bioware.ucd.ie`
Quest for Orthologs	同源基因数据集	`questfororthologs.org`

蛋白质模块性

资源	说明	URL
ELM	人工审查的 linear motifs	`elm.eu.org`
Pfam	功能区域与结合结构域	`pfam.xfam.org`
Phospho.ELM	经实验验证的磷酸化位点	`phospho.elm.eu.org`

结构信息

资源	说明	URL
DSSP	由 PDB 三级结构推导出的二级结构	`swift.cmbi.ru.nl/gv/dssp`
Homology models / SWISS-MODEL	根据与已解析结构的序列相似性指派三级结构	`swissmodel.expasy.org`
Protein Data Bank（PDB）	经实验解析的蛋白质三级结构	`www.rcsb.org`

基因组数据

资源	说明	URL
1000 Genomes	single-nucleotide polymorphism（单核苷酸多态性）	`www.1000genomes.org`
dbSNP	single-nucleotide polymorphism，包含疾病关联与 genotype（基因型）信息	`www.ncbi.nlm.nih.gov/SNP`
Isoforms	alternative splicing（可变剪接）	`www.uniprot.org`

其他人工审查数据

资源	说明	URL
Mutagenesis	经实验验证的点突变及其效应	`www.uniprot.org`
Regions of interest	经实验验证的功能区域	`www.uniprot.org`
Switches.ELM	经实验验证、基于 motif 的 molecular switches（分子开关）	`switches.elm.eu.org`

预测

资源	说明	URL
Anchor	无序区域中的结合位点	`anchor.enzim.hu`
Conservation	比对中残基的保守性	`bioware.ucd.ie`
ELM	由正则表达式识别的 linear motifs	`elm.eu.org`
IUPred	intrinsically disordered regions（内在无序区域）	`iupred.enzim.hu`
MobiDB	多种无序预测方法的集合	`mobidb.bio.unipd.it`
PsiPred	人类蛋白质的二级结构	`bioinf.cs.ucl.ac.uk/psipred`

参考文献（References）

以下参考文献题录按原书英文原文保留：

Altschul, S.F., Madden, T.L., Schäffer, A.A. et al. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25(17):3389–3402.

Bernhart, S.H., Hofacker, I.L., Will, S. et al. (2008). RNAalifold: improved consensus structure prediction for RNA alignments. BMC Bioinf. 9:474.

Blackshields, G., Sievers, F., Shi, W. et al. (2010). Sequence embedding for fast construction of guide trees for multiple sequence alignment. Algorithms Mol. Biol. 14(5):21. https://doi.org/10.1186/1748-7188-5-21.

Chatzou, M., Magis, C., Chang, J.M. et al. (2016). Multiple sequence alignment modeling: methods and applications. Brief. Bioinform. 17(6):1009–1023.

Cline, M., Hughey, R., and Karplus, K. (2002). Predicting reliable regions in protein sequence alignments. Bioinformatics. 18(2):306–314.

Darty, K., Denise, A., and Ponty, Y. (2009). VARNA: interactive drawing and editing of the RNA secondary structure. Bioinformatics 25(15):1974–1975.

Do, C.B., Mahabhashyam, M.S., Brudno, M., and Batzoglou, S. (2005). ProbCons: probabilistic consistency-based multiple sequence alignment. Genome Res. 15(2):330–340.

Drozdetskiy, A., Cole, C., Procter, J., and Barton, G.J. (2015). JPred4: a protein secondary structure prediction server. Nucleic Acids Res. 43(W1):W389–W394. https://doi.org/10.1093/nar/gkv332.

Eddy, S.R. (2009). A new generation of homology search tools based on probabilistic inference. Genome Inf. 23(1):205–211.

Edgar, R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32(5):1792–1797.

Edgar, R.C. (2010). Quality measures for protein alignment benchmarks. Nucleic Acids Res. 38(7):2145–2153. https://doi.org/10.1093/nar/gkp1196.

Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach. J. Mol. Evol. 17(6):368–376.

Feng, D.F. and Doolittle, R.F. (1987). Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J. Mol. Evol. 25(4):351–360.

Finn, R.D., Clements, J., and Eddy, S.R. (2011). HMMER web server: interactive sequence similarity searching. Nucleic Acids Res. 39(Web Server issue):W29–W37. https://doi.org/10.1093/nar/gkr367.

Finn, R.D., Bateman, A., Clements, J. et al. (2014). Pfam: the protein families database. Nucleic Acids Res. 42(Database issue):D222–D230. https://doi.org/10.1093/nar/gkt1223.

Finn, R.D., Coggill, P., Eberhardt, R.Y. et al. (2016). The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44(D1):D279–D285. https://doi.org/10.1093/nar/gkv1344.

Fox, G., Sievers, F., and Higgins, D.G. (2016). Using de novo protein structure predictions to measure the quality of very large multiple sequence alignments. Bioinformatics. 32(6):814–820. https://doi.org/10.1093/bioinformatics/btv592.

Galtier, N., Gouy, M., and Gautier, C. (1996). SEAVIEW and PHYLO_WIN: two graphic tools for sequence alignment and molecular phylogeny. Comput. Appl. Biosci. 12(6):543–548.

Gouy, M., Guindon, S., and Gascuel, O. (2010). SeaView version 4: a multiplatform graphical user interface for sequence alignment and phylogenetic tree building. Mol. Biol. Evol. 27(2):221–224. https://doi.org/10.1093/molbev/msp259.

Guindon, S. and Gascuel, O. (2003). A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52(5):696–704.

Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA. 89(22):10915–10919.

Higgins, D.G., Bleasby, A.J., and Fuchs, R. (1992). CLUSTAL V: improved software for multiple sequence alignment. Comput. Appl. Biosci. 8(2):189–191.

Hogeweg, P. and Hesper, B. (1984). The alignment of sets of sequences and the construction of phyletic trees: an integrated method. J. Mol. Evol. 20(2):175–186.

Iantorno, S., Gori, K., Goldman, N. et al. (2014). Who watches the watchmen? An appraisal of benchmarks for multiple sequence alignment. Methods Mol. Biol. 1079:59–73. https://doi.org/10.1007/978-1-62703-646-7_4.

Jehl, P., Manguy, J., Shields, D.C. et al. (2016). ProViz-a web-based visualization tool to investigate the functional and evolutionary features of protein sequences. Nucleic Acids Res. 44(W1):W11–W15. https://doi.org/10.1093/nar/gkw265.

Katoh, K., Kuma, K., Miyata, T., and Toh, H. (2005a). Improvement in the accuracy of multiple sequence alignment program MAFFT. Genome Inf. 16(1):22–33.

Katoh, K., Kuma, K., Toh, H., and Miyata, T. (2005b). MAFFT version 5: improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33(2):511–518.

Kimura, M. (1983). The Neutral Theory of Molecular Evolution, 75. Cambridge, UK: Cambridge University Press.

Konagurthu, A.S., Whisstock, J.C., Stuckey, P.J., and Lesk, A.M. (2006). MUSTANG: a multiple structural alignment algorithm. Proteins 64(3):559–574.

Larkin, M.A., Blackshields, G., Brown, N.P. et al. (2007). Clustal W and Clustal X version 2.0. Bioinformatics. 23(21):2947–2948.

Lassmann, T. and Sonnhammer, E.L. (2005). Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinf. 6:298.

Le, Q., Sievers, F., and Higgins, D.G. (2017). Protein multiple sequence alignment benchmarking through secondary structure prediction. Bioinformatics. 33(9):1331–1337. https://doi.org/10.1093/bioinformatics/btw840.

Liu, K., Raghavan, S., Nelesen, S. et al. (2009). Rapid and accurate large-scale coestimation of sequence alignments and phylogenetic trees. Science. 324(5934):1561–1564. https://doi.org/10.1126/science.1171243.

Löytynoja, A. and Goldman, N. (2005). An algorithm for progressive multiple alignment of sequences with insertions. Proc. Natl. Acad. Sci. USA. 102(30):10557–10562.

Marks, D.S., Colwell, L.J., Sheridan, R. et al. (2011). Protein 3D structure computed from evolutionary sequence variation. PLoS One. 6(12):e28766. https://doi.org/10.1371/journal.pone.0028766.

Mirarab, S., Nguyen, N., Guo, S. et al. (2015). PASTA: ultra-large multiple sequence alignment for nucleotide and amino-acid sequences. J. Comput. Biol. 22(5):377–386. https://doi.org/10.1089/cmb.2014.0156.

Mizuguchi, K., Deane, C.M., Blundell, T.L., and Overington, J.P. (1998). HOMSTRAD: a database of protein structure alignments for homologous families. Protein Sci. 7(11):2469–2471.

Morgenstern, B., Frech, K., Dress, A., and Werner, T. (1998). DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics 14(3):290–294.

Muth, R. and Manber, U. (1996). Approximate multiple string search. In: Proceedings of the 7th Annual Symposium on Combinatorial Pattern Matching, Laguna Beach, CA (10–12 June 1996), vol. 1075, 75–86. Berlin, Germany: Springer.

Needleman, S.B. and Wunsch, C.D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48(3):443–453.

Notredame, C., Higgins, D.G., and Heringa, J. (2000). T-Coffee: a novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302(1):205–217.

Notredame, C., Holm, L., and Higgins, D.G. (1998). COFFEE: an objective function for multiple sequence alignments. Bioinformatics. 14(5):407–422.

Pettersen, E.F., Goddard, T.D., Huang, C.C. et al. (2004). UCSF Chimera: a visualization system for exploratory research and analysis. J. Comput. Chem. 25(13):1605–1612.

Price, M.N., Dehal, P.S., and Arkin, A.P. (2010). FastTree2–approximately maximum-likelihood trees for large alignments. PLoS One. 5(3):e9490. https://doi.org/10.1371/journal.pone.0009490.

Raghava, G.P., Searle, S.M., Audley, P.C. et al. (2003). OXBench: a benchmark for evaluation of protein multiple sequence alignment accuracy. BMC Bioinf. 4:47.

Russell, R.B. and Barton, G.J. (1992, 1992). Multiple protein sequence alignment from tertiary structure comparison: assignment of global and residue confidence levels. Proteins. 14(2):309–323.

Saitou, N. and Nei, M. (1987). The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 4(4):406–425.

Sankoff, D., Morel, C., and Cedergen, R.J. (1973). Evolution of 5S rRNA and the non-randomness of base replacement. Nature. 245:232–234.

Sauder, J.M., Arthur, J.W., and Dunbrack, R.L. Jr., (2000). Large-scale comparison of protein sequence alignment algorithms with structure alignments. Proteins. 40(1):6–22.

Schmollinger, M., Nieselt, K., Kaufmann, M., and Morgenstern, B. (2004). DIALIGNP: fast pair-wise and multiple sequence alignment using parallel processors. BMC Bioinf. 5:128.

Sievers, F., Wilm, A., Dineen, D. et al. (2011). Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal omega. Mol. Syst. Biol. 7:539. https://doi.org/10.1038/msb.2011.75.

Sievers, F., Dineen, D., Wilm, A., and Higgins, D.G. (2013). Making automated multiple alignments of very large numbers of protein sequences. Bioinformatics. 29(8):989–995. https://doi.org/10.1093/bioinformatics/btt093.

Sievers, F., Hughes, G.M., and Higgins, D.G. (2014). Systematic exploration of guide-tree topology effects for small protein alignments. BMC Bioinf. 15:338. https://doi.org/10.1186/1471-2105-15-338.

Söding, J. (2005). Protein homology detection by HMM-HMM comparison. Bioinformatics. 21(7):951–960.

Sokal, R. and Michener, C. (1958). A statistical method for evaluating systematic relationships. Univ. Kans. Sci. Bull. 38:1409–1438.

Taylor, W.R. and Orengo, C.A. (1989). Protein structure alignment. J. Mol. Biol. 208(1):1–22.

Thompson, J.D., Higgins, D.G., and Gibson, T.J. (1994). CLUSTALW: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22(22):4673–4680.

Thompson, J.D., Gibson, T.J., Plewniak, F. et al. (1997). The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Res. 25(24):4876–4882.

Thompson, J.D., Plewniak, F., and Poch, O. (1999). A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27(13):2682–2690.

Thompson, J.D., Koehl, P., Ripp, R., and Poch, O. (2005). BAliBASE3.0: latest developments of the multiple sequence alignment benchmark. Proteins. 61(1):127–136.

Troshin, P.V., Procter, J.B., and Barton, G.J. (2011). Java bioinformatics analysis web services for multiple sequence alignment–JABAWS:MSA. Bioinformatics 27(14):2001–2002.

Van Walle, I., Lasters, I., and Wyns, L. (2005). SABmark–a benchmark for sequence alignment that covers the entire known fold space. Bioinformatics. 21(7):1267–1268.

Waterhouse, A.M., Procter, J.B., Martin, D.M. et al. (2009). Jalview version 2–a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25(9):1189–1191. https://doi.org/10.1093/bioinformatics/btp033.

Wheeler, T.J. and Kececioglu, J.D. (2007). Multiple alignment by aligning alignments. Bioinformatics. 23(13):i559–i568.

Chapter 9

Molecular Evolution and Phylogenetic Analysis

065

Introduction

PDF page 271-272；印刷页码 251-252

▶

第9章分子进化与系统发育分析

9.1 引言（Introduction）

> “离开进化之光，生物学中的一切都将失去意义。”

> ——Theodosius Dobzhansky

宇宙已经存在了很长时间。根据计算，它的年龄超过 130 亿年（Planck Collaboration 2015）。太阳系被认为大约有 46 亿年历史（Bouvier and Wadhwa 2010），地球则在稍晚一点的时间形成，约为 45 亿年前（Wilde et al. 2001）。长期以来，地球上最早的生命证据被认为是西澳大利亚发现的 fossilized microbial mats（化石化微生物席），即 stromatolites（叠层石），其年代可追溯到 34 亿年前（Wacey et al. 2011）。不过，来自加拿大 hydrothermal vent precipitates（热液喷口沉淀物）中 biogenic carbon（生物成因碳）的新证据，把生命起源的时间进一步推到距今约 41 亿年前（Dodd et al. 2017）。对于生物而言，这是一段极其漫长的时间：它们在其中生存、繁殖、相互作用、争夺资源，并且不可避免地死亡。在这段时间里，地球经历了大量气候、大气和地质变化，改变了地球的化学组成和温度（Allegre and Schneider 2005）。

由于细胞生命在 metabolism（代谢）、physiology（生理）和 architecture（结构组织）上具有相似性，人们知道地球上所有生命都共享一个共同祖先，即 last universal common ancestor（LUCA，最后 universal common ancestor），时间早于 38 亿年前（Doolittle 2000; Weiss et al. 2016）。Charles Darwin 在《On the Origin of Species》（1859）中提出的 natural selection（自然选择）进化理论认为，evolution（进化）是生物种群中可遗传特征在连续世代中的变化，并且“所有生物都由共同祖先经分支过程而来”（Darwin 1859）。Darwin 的奠基性著作首次描述了这种进化变化机制，也支持了进化过程产生 biodiversity（生物多样性）的理论。地球生物多样性的早期估计范围很宽，从 300 万到 1 亿个物种不等；而较新的数字提示，现存物种可能接近一万亿种，其中真正被命名的只有 190 万种，收录于数据库的只有 160 万种（Mora et al. 2011; Ruggiero et al. 2015; Locey and Lennon 2016）。

Systematics（系统学）研究生物之间的相互关系。如何命名所有这些物种，并把它们归入更高阶的类群，是一门称为 taxonomy（分类学）的科学分支。过去曾使用过许多不同方式来归类生物，后文会继续讨论。本章的重点是 phylogenetics（系统发育学）：它是系统学中专门研究生物、若干生物群体（例如物种或种群），甚至生物体内基因和蛋白质之间 evolutionary relationships（进化关系）的领域。所谓物种、基因或蛋白质等实体之间的“phylogenetic relationship（系统发育关系）”，是指这些实体在过去某个时间点如何共享共同祖先。系统发育分析总是使研究者能够推断关系。

现在的系统发育分析通常使用 cladistics（分支分类学），这是一种针对生物、基因或蛋白质之间关系提出假设的方法。这类分析基于 branching patterns（分支模式）：这些模式用类似人类家谱的树状表示来呈现，并依据 traits 或 characters（性状或字符）的相似性构建。传统上，这类分析使用的 characters 是生物的 morphological features（形态特征）；但随着 genomics（基因组学）的兴起，以及来自多种生物的大量 whole genome sequencing（WGS，全基因组测序）数据可用，这一领域已经转向以基因或蛋白质序列作为分析基础。在这种语境下，每一个核苷酸或氨基酸残基都非常字面意义地成为一个“character”。

基因传统上被视为可遗传单位，会随着时间积累突变。具有共同进化历史的生物，会共享某些突变；这些突变可以通过不同算法和软件进行追踪与比较。因此，cladistics 的三个核心原则可以概括如下：

任何一组生物、基因或蛋白质，都通过共同祖先的传承而相关联。
cladogenesis（clade formation，支系形成）呈现 bifurcating pattern（二分分支模式）。
特征变化会随着时间在 lineage（谱系）中发生。

除了基础生物学研究，理解基因、蛋白质和物种彼此之间如何相关，也有许多实际应用，例如 bioprospecting（生物勘探）、控制疾病暴发、法医学、药物治疗的选择与监测、生态退化追踪、食品与农业研究，以及更多其他场景。为此，本章将回顾早期分类方案，以及把分子序列作为 molecular clocks（分子钟）的用法；解释系统发育学的基础，以及如何解释系统发育树（包括必要的警示）；描述常见系统发育方法和软件之间的差异及其适当用法；并提供系统发育分析在真实世界中的应用示例。

066

Early Classification Schemes

PDF page 272-273；印刷页码 252-253

▶

Early Classification Schemes｜早期分类方案

纵观历史，早期用于命名和组织 taxa（分类单元）的分类方案，传统上主要建立在一系列生理、生物形态以及生物化学特征之上。

希腊哲学家 Aristotle（亚里士多德，384–322 BC）提出了两个关键概念：按生物类型进行分类，以及 binomial nomenclature（二名命名法）（Archibald 2014）。Aristotle 会根据生物之间的相似性来分组，例如“有血动物”和“无血动物”，然后再把这些组组织成层级结构。然而，Aristotle 的“ladder of nature（自然阶梯，scala naturae）”或其分类系统，并不是建立在共同进化历史之上的；阶梯上的不同物种彼此之间也不存在明确的遗传关系（Archibald 2014）。Aristotle 的 binomial definition scheme（二名定义方案）会为每种动物或植物赋予一个名称，这个名称由“genus and difference（属加区别特征）”构成，用以按照独特特征区分家族内部的不同亚群。

不过，正式的 binomial nomenclature（二名命名法）直到两千年后才被系统性采用，其标志是著名瑞典医师兼植物学家 Carolus Linnaeus（1707–1778）出版《Systema Naturae》（1735）。Linnaeus 常被视为 taxonomy（分类学）之父（Linnaeus 1735）。到二十世纪后期，Robert Whittaker 提出的 five-kingdom classification system（五界分类系统）已经成为生物学教材中的标准内容。该系统主要依据代谢差异进行划分（Whittaker 1969），将生物分为 Protista（原生生物界，单细胞真核生物）、Animalia（动物界）、Plantae（植物界）、Fungi（真菌界）和 Monera（原核生物界，单细胞原核生物，包括绝大多数细菌）。在这一阶段之前，分类方案大多仍依赖形态特征或代谢特征，或者依赖某位科学家主观赋予较大权重的 character（性状）；而不是去考察不同生物共享了多少总体特征。

一种更客观的生物分类方法，是依据共同祖先所导致的 shared derived characteristics（共享衍生特征）来对生物进行归类，这就是 cladistics（支序分类学）所提供的路径。在 cladistics 中，共享较多 derived characters（衍生性状）的 taxa，会被归为彼此关系更近的一组；而共享较少者则距离更远。这样一来，这些特征集合（即 characters，性状）就可以被科学家用来推断 phylogenetic（系统发育）或 evolutionary（进化）关系。

德国昆虫学家 Willi Hennig 在第二次世界大战期间身为战俘时，起草了 cladistics 的奠基性著作《Basic Outline of a Theory of Phylogenetic Systematics》（1950）（Schmitt 2003）。Hennig 说明，推断出的关系应当以一种分支式层级树状结构来表示，这种图称为 cladogram（支序图）。构建 cladogram 时，应尽量使一个 character state（性状状态）到下一个 character state（即下一个 branch 或 clade）之间所需的变化次数最少。cladistics 的这些原则，构成了现代 phylogenetic analysis（系统发育分析）的基础。

067

Sequences As Molecular Clocks

PDF page 273-274；印刷页码 253-254

▶

Sequences As Molecular Clocks｜作为分子钟的序列

基因以及调控区域中的 nucleic acid sequences（核酸序列）会随着时间推移，通过多种机制积累不同类型的 mutation（突变）。这些突变包括 DNA 复制过程中产生的 missense（错义）、nonsense（无义）或 frameshift（移码）错误；DNA 片段的 insertion（插入）和 deletion（缺失）；重复序列的扩增；甚至还包括基因乃至整条染色体的 duplication（重复）（Griffiths et al. 2000）。遗传序列的化学性质会影响其结构，也会影响它们与其他分子相互作用的能力。遗传物质中的突变可以影响细胞功能；同时，遗传变化的下游后果也会影响蛋白质的结构、理化性质和催化能力（Griffiths et al. 2000）。

蛋白质序列和结构与功能紧密相连。由于蛋白质是细胞的“工作主力”，其 primary sequence（一级序列）的变化可能改变细胞表型，甚至改变整个生物体的表型。分子序列中的某些区域对功能至关重要。如果生物在这些区域积累突变，往往会导致有害的功能扰动，从而降低 fitness（适合度）。因此，selection pressure（选择压力）会倾向于保守这些区域；相比之下，其他不那么关键的区域则更能容忍变化。不同分子序列位置的变化速率并不相同；不同基因和蛋白质类型之间、不同物种之间，以及不同环境条件下，变化速率也会不同。一般来说，生物之间的序列差异越多，它们独立积累突变的时间就可能越长；因此，它们之间的进化关系也通常越远。

20 世纪 60 年代和 70 年代，蛋白质与核酸测序技术的发展，极大推进了科学家认识和研究生物的方式。1965 年，Emile Zuckerkandl 和 Linus Pauling 借一篇受邀撰写、但未经过同行评议的手稿之机，试图就使用分子序列推断进化历史中的变化速率“说一些惊人之语”。这个想法后来被称为 molecular clock hypothesis（分子钟假说）（Zuckerkandl and Pauling 1965）。molecular clock（分子钟）的概念，是利用生物分子的突变速率来推断两个或多个生命形式、基因或蛋白质发生分化的时间点。Zuckerkandl 和 Pauling 利用古生物学信息，对人和马的血红蛋白链中的氨基酸变化速率进行校准，从而推断许多动物物种的 last common ancestor（最近共同祖先）。尽管该研究假设一个序列中所有位置的变化速率都是均一的——而现实中这种情况很少成立——但“molecules as documents of evolutionary history（作为进化历史文献的分子）”这一观点，打开了用 DNA 与蛋白质序列追踪进化事件的大门（Zuckerkandl and Pauling 1965）。

这一概念对 microbiology（微生物学）产生了深远影响。传统上，微生物分类常常基于表型性状，而这些性状往往带有主观性。相比之下，序列比较可以提供更客观、可量化的指标。事实上，1977 年 Carl Woese 使用 16S ribosomal RNA（16S rRNA，16S 核糖体 RNA）序列比较，构建了现代意义上的 Tree of Life（生命之树），进一步革新了微生物学领域。Tree of Life 将生物划分为三个 domain（域）：Eukarya（真核生物，也称 eukaryotes）、Bacteria（细菌；Woese 最初称其为 eubacteria）以及 Archaea（古菌；最初称为 archaebacteria）（Woese and Fox 1977; Woese et al. 1990）。16S rRNA 基因（在 Eukarya 中对应 18S）看起来是一种理想的分子钟，因为它不受 coding sequence（编码序列）的约束或偏倚影响，并且序列中的不同部分会以不同速度发生突变（Woese and Fox 1977）。变化较快的区域可用于分类亲缘关系较近的生物，而进化较慢的区域则可用于识别亲缘关系较远的生物。

Woese 使用 16S rRNA 基因构建 Tree of Life 的思路，后来被扩展到多种其他单基因和蛋白质，用于构建 phylogenetic trees（系统发育树）。其中还包括利用某个基因内部、发生在三大生命域形成之前的 duplication（重复）事件，来为 Tree of Life 定根（Lawson et al. 1996）。由于 selection pressure、环境影响、复制机制准确性差异以及其他因素不同，由这些不同序列构建出的树，其 topology（拓扑结构）并不总是一致；这反映了不同生物中的基因序列会随着时间积累各自的变化。换言之，一个生物体的进化历史，很少能完全由单个基因的进化历史来代表。

这一认识促成了 concatenated gene and protein sequence datasets（串联的基因与蛋白质序列数据集）的使用。所谓串联数据集，是指把一系列不同序列首尾相接地连接起来；这种方法通过在多个基因历史之间获得共识，增强 phylogenetic signal（系统发育信号）的解析度（Gadagkar et al. 2005）。随着 genome sequencing（基因组测序）的化学方法和技术不断改进，WGS（whole-genome sequencing，全基因组测序）已经成为理解 biodiversity（生物多样性）的有力工具。如今，成千上万个基因的序列都可以被解析，并用于系统发育分析以及许多其他应用。

068

Background Terminology and the Basics

PDF page 274-279；印刷页码 254-259

▶

9 分子进化与系统发育分析

背景术语与基础概念

如前所述，系统发育分析（phylogenetic analysis）是推断或估计进化关系的方法。所有系统发育分析都基于特征（characters）或性状（traits）的分析。对于形态学数据，特征可以是毛发是否存在或骨骼的某种特定形状。分子系统发育学（Molecular phylogenetics）是通过比较序列中的核苷酸或氨基酸来研究进化关系的学科。在序列数据分析中，比对中的每一列都被视为一个特征或性状，列中的每个氨基酸残基或 DNA 碱基代表该特征的特定状态。

最终的关系通常以各种类型的层级树（hierarchical trees）表示。树的绘制方式可以有多种，但都包含相同的基本元素：由分支（branches）连接节点（nodes）和叶子（leaves），将祖先与后代联系起来。分类单元（taxon）代表任意分类级别的分类群，如物种、科或目。单一共同祖先衍生的所有后代组成一个单系分支（monophyletic branch），称为支系（clade）。系统发育图（cladogram）是一种以树的形式呈现进化关系的图，其中分支的长度是任意的；相比之下，系统发育树（phylogenetic tree）中的分支长度通常表示所发生的特征变化量。树的形状，或者说节点和分支如何连接不同分类单元的方式，称为树的拓扑结构（tree topology）。这些系统发育树的基本组成元素如图 9.1 所示。

构建系统发育树的基本步骤包括：定义生物学问题、来源与选择具有同源性（homologous）的序列（即拥有共同祖先）、比较保守与可变特征、量化序列间的变化，以及用树的形式呈现数据。以下将逐一讨论这些步骤。

定义所提出的生物学问题对于确定分析方法以及采样程度（sampling，即应包含的序列和物种的范围与类型）至关重要。值得注意的是，并非所有基因都存在于所有物种中。序列可以在实验室中生成，也可以从 GenBank（美国国家生物技术信息中心，NCBI）等私人或公共数据库中获取（见第 1 章）。无论序列是新测得还是从数据库下载，都应确保其质量高、错误少，并经过仔细筛选以保证其同源性。在报告方法时，同样重要的是要注明序列数据的来源。公共数据库常使用基于自动化序列相似性的算法来为基因组注释基因/蛋白质名称。然而，不同的研究人员和不同的物种往往有不同的命名惯例，因此不应仅凭名称来选择序列，而应基于序列相似性来选择。

序列一致性（sequence identity）是一种可量化的度量，描述被比较的序列之间相同的字符数量。序列相似性（sequence similarity）也是一种可量化的度量，描述序列之间相同或化学相似的字符数量；须记住，这种度量并不一定反映亲缘关系（见第 3 章）。例如，同一化学基团的氨基酸共享电荷、极性和疏水性等特性。丙氨酸和缬氨酸都具有疏水性侧链，因此两条序列在相同位置分别含有这两种不同氨基酸时，应被视为相似而不一致（图 9.2）。因编码这些序列的基因遗传自共同祖先而具有匹配字符（核苷酸或氨基酸）和相似结构的序列称为同源序列（homologs）。同源序列因遗传而具有序列相似性。不同物种中由物种分化事件产生的同源序列称为直系同源物（orthologs）。然而，某些物种由于基因复制（gene duplication）过程会包含一个基因（或蛋白质）的多个拷贝。一旦一个基因在生物体内被复制，系统就会有一定的冗余，使选择过程可以在基因的不同拷贝上以不同方式发挥作用。不同的拷贝以不同方式和速率积累变化，导致分歧，并常常使一个或两个拷贝产生新功能。因基因复制而相关的序列称为旁系同源物（paralogs）。有时生物体会通过水平基因转移（horizontal gene transfer / lateral gene transfer）从其他物种获得基因。这些基因的不同拷贝称为异源序列（xenologs）。

在选择比较序列或进行后续分析时，识别和区分这些关系类型非常重要（图 9.3）。选择比较序列的最佳方法是通过 BLAST 搜索等计算方法进行相似性搜索（见第 3 章）。

为了测量不同核苷酸或氨基酸序列之间的变化量，必须首先进行序列比对。这样做是为了确保正在比较的是基因或蛋白质中相同的位置。有不同类型的比对适用于不同的目的，也有许多工具可以执行成对比对和多重序列比对（见第 8 章）。成对比对（pairwise alignment）是将两条序列的字符对齐以实现最大一致性（对于氨基酸序列还考虑保守性）的过程，使人们能够评估相似程度及同源性的可能性。多重序列比对（multiple sequence alignments）对系统发育分析特别有用，可以聚焦于序列的一部分（称为局部比对，local alignment），也可以涉及完整序列（称为全局比对，global alignment）。识别具有许多完全相同或高度相似字符以及一些可变字符的位置，可以指示序列的保守区域。这些保守区域更容易比对，包含了最有信息量的系统发育信号（phylogenetic signal）。高度分化的位置往往难以比对，因此被认为是系统发育噪声（phylogenetic noise），通常不包含在大多数分析中（图 9.4）。关于不同类型软件以及初学者进行系统发育分析所需的各种比对考虑的概述，将在下面的树构建部分讨论（见"多重序列比对与比对编辑"）。

分歧路径，或者说序列通过积累突变随时间变化的方式，将影响所描绘推断进化过程的系统发育树的形状。量化比对序列间的变化并确定序列间的分歧路径需要一些假设，这些假设基于所研究的明确定义的生物学问题。替换模型（substitution models）估计一个碱基或氨基酸变为另一个的似然率；同时估计序列中不同位点的总体变化相对速率。一般来说，在生化性质更相似的碱基或氨基酸残基之间，替换更为频繁。对于 DNA，四种转换（transition）类型（A → G、G → A、C → T 和 T → C）通常比八种颠换（transversion）类型（A → C、A → T、C → G、G → T 及其反向）更为频繁。这种偏差会影响两条序列之间估计的分歧程度。

相对替换速率的具体规定通常以一个方阵的形式呈现（称为替换矩阵，substitution matrix；见第 3 章）。不太可能的替换的替换成本高于更可能的替换。矩阵的非对角线元素对应于从一个碱基到另一个碱基的相对成本。对角线元素代表不同序列中相同碱基的"成本"。不同的 DNA 和蛋白质替换模型将在下面的树构建部分回顾（见"确定替换模型"）。一个值得注意的因素是基因如何将遗传变化从基因传播到蛋白质再到表型表达。非同义替换（non-synonymous substitution）是改变蛋白质氨基酸序列的核苷酸突变。相比之下，不改变氨基酸序列的核苷酸变化称为同义替换（synonymous substitution）。由于非同义替换导致生物体的生物学变化，它们更容易受到选择。

随着测序技术的发展，人们已开发了多种统计检验方法来量化作用于蛋白质编码区的选择压力。其中，dN/dS 比值是最广泛使用的指标之一，部分原因是其简单性和稳健性。该指标通过比较假定为中性的静默位点的替换率（同义替换率，即 dS）与可能受选择影响的非静默位点的替换率（非同义替换率，或 dN）来量化选择压力。dN/dS > 1 仅在选择促进蛋白质序列变化时才会出现，而 dS/dN 比值 < 1 则仅在选择抑制蛋白质变化时期望出现。因此，除了替换类型的变异外，不同位点之间替换速率的变异已被证明会深刻影响树的构建结果——这被称为速率异质性（rate heterogeneity）（Swofford et al. 1996）。

最明显的位点间速率变异（或异质性）例子是编码序列中密码子的三个位点。由于遗传密码的简并性，第三个密码子位点的变化能够在不影响最终蛋白质序列的情况下发生得多。因此，这个第三密码子位点往往变化大得多。出于这个原因，许多编码 DNA 的系统发育分析会排除第三密码子位点。然而，在某些情况下，速率变异模式更为微妙，特别是对应于蛋白质保守区域或 rRNA 的那些。因此，在执行任何系统发育分析之前，应尽可能多地了解给定基因或序列的相关信息；包括所提议的结构域、整体保守程度、编码和非编码区域，以及如果是分析非蛋白质编码基因则应了解其 RNA 结构。为了校正生物分子中各位点突变率的异质性，可以采用 Gamma 分布来建模变异（Yang 1994）。Gamma 分布是一种概率分布（类似于更为人所知的泊松分布），描述变化速率的统计概率，取决于某些参数。Gamma 分布的不同形式（例如峰值振幅和曲线宽度）由一个称为"形状参数"的单一 alpha 参数高度控制。alpha 值越高，异质性或位点变异越低。

树构建方法在细节上有所不同，但本质上都是基于进化模型将物种放入相关分支和节点。树构建方法可以分为基于距离的方法（distance-based methods）和基于特征的方法（character-based methods）。基于特征的方法在树构建过程中直接使用比对序列。基于距离的方法则先将序列数据转换为成对距离（calculated values，将最相似的序列连接在一起的计算值），然后使用这些派生值而非直接使用特征来构建树（图 9.5）。虽然基于距离的方法计算量远小于基于特征的方法，但基于距离的方法会校正各位点的突变饱和。换言之，在发散对的一条序列的某个位点发生突变后，任一序列中的后续突变都无法再使该位点变得更"不同"。事实上，后续突变可以使它们再次相同——例如，如果缬氨酸突变为异亮氨酸但又突变为缬氨酸，这将导致一次"看不见的"替换。这些方法还计算分支长度，表示节点之间或节点与叶子之间发生的变化次数。长分支长度表示更多变化；短分支长度表示更少变化。不同的基于距离和基于特征的方法将在下面的树构建部分讨论（见"树构建"）。

将代表物种的数据拟合到一个树中有许多不同的方法，这通常随所用序列数量的增加而增加。有多种程序可用于评估数据中的系统发育信号和树拓扑结构的稳健性。最流行的方法是统计重采样，称为自展法（bootstrapping）。自展法基于这样的前提：如果系统发育信号均匀分布在整个序列中，不同位点应足以提供相同的树拓扑结构（Efron 1979; Felsenstein 1985）。判断这一前提是否成立很重要，因为某些序列区域可能错误地影响树。例如，具有序列相似性但存在于功能非常不同的蛋白质中的结构域（如结合盒，binding cassettes）可能对系统发育树产生不利影响。因此，自展法可被视为一个两步过程：第一步是从原始数据集中通过随机有放回抽样生成许多新的扰动数据集；第二步是像原始系统发育分析一样处理这些数据集。根据产生的树集合（通常为 100 或 1000 棵树），计算特定分支（例如某个分类单元）在树中出现的比例，并将该值放在共识树（consensus tree）的相应分支上。该值通常称为自展值（bootstrap value）。

需要注意的是，这些新数据集是通过从原始数据集随机抽样字符列创建的。这种随机抽样意味着每个位点与其他位点被抽中的概率相同。因此，每个新创建的数据集与原始数据集具有相同数量的总位点，但有些位置被重复或三倍复制，有些则缺失。因此，某些新创建的数据集可能与原始数据集完全相同——或者在极端情况下，可能只有一个位点被复制了 500 次，而原始数据集中剩余的 499 个位点都丢失了。因此，自展分析允许人们识别给定的分支顺序对序列的某些修改是否稳健，特别是关于某些位点的移除和替换。简而言之，每个自展值都作为对节点置信度的度量。

系统发育树可以表示为有根树或无根树。树的根代表祖先谱系，分支的顶端代表该祖先的后代。随着从根移动到顶端，时间向前推进。通过定义树中（假定的）祖先的位置来对树进行加根，通常通过引入一个"外群"（outgroup）来实现。外群可以是任何未从正在分析的生物体或序列的最近共同祖先衍生的生物体或序列。例如，选择外群的一个例子是用沙门氏菌（Salmonella）序列作为大肠杆菌（Escherichia coli）序列集合分析的外群。Salmonella 序列适合作为外群，因为它足够相似以识别所有分类单元之间的系统发育信号，但又在大肠杆菌属之外（"内群"，ingroup；图 9.6）。

同样，由于已知爬行动物是哺乳动物物种的祖先，爬行动物序列可用于哺乳动物序列分析的外群。外群序列必须在系统发育分析开始时选择，并且必须包含在所有后续步骤中：比对、替换和进化建模，以及树评估。然而，外群加根可能会有问题。接近内群的外群可能只是被错误排除的内群成员。明显较远的外群（例如植物分析中的真菌）可能具有高度分化的序列，其与内群的连接会受到"长枝吸引"（long branch attraction）问题的影响（见下文"树构建"）。明智的做法是检查有外群和无外群两种情况下产生的树拓扑结构。另一种加根方法涉及重复基因或具有内部重复的基因分析（Lawson et al. 1996）。如果所有生物体的旁系同源物都包含在分析中，那么假设没有长枝问题，可以逻辑地将树在旁系同源物基因树汇聚的节点处加根。

树查看软件以不同的格式或"视图"呈现节点、分支和叶子，可以包括加根、自展值和其他置信度指标、分支长度以及叶子标注（例如分类单元、基因或蛋白质的名称；序列 ID 及其他信息），根据需要或喜好设置。在下一节中，我们将概述树构建方法和常用的系统发育分析软件。

---

图 9.1 树的两种可视化方式。 本例中同一棵树以（a）和（b）两种方式呈现。分类单元被组织成由一系列分支和节点组成的支系，节点标记分支中的分叉点。在（a）中，注意分支长度没有意义——它们不表示分歧程度，树仅提供分支顺序。判断树仅说明分支顺序的线索是分支长度相等且与每个分类单元名称平齐。（b）同一棵树，但分支长度表示从分析中推断的分歧程度。通过相加每个分类单元之间的分支，可以估计它们之间的分歧程度。在本例中，将分支 1、2 和 3 长度相加表示果蝇和小鼠之间的分歧程度。将分支 1、2 和 4 长度相加表示果蝇和人类之间的分歧程度。在这个人为的示例中，分支长度的差异推断果蝇和小鼠彼此之间比果蝇和人类更近。需要注意的是，在像（b）所示的情况下，仅水平分支有意义。垂直分支仅用于分隔分类单元，便于观察。

图 9.2 说明序列相似性与序列一致性之间差异的比对。 展示了两个比对，比较序列 1 与序列 2 和序列 3。比对 1 比较序列 1 和序列 2，含有四个替换（高亮）。这些替换在同一化学基团内，因此被认为是相似的；A → V、I → V 和 A → L 都是疏水性氨基酸组内的变化，N → T 都是极性不带电氨基酸。有 16 个相同位置，因此一致性为 80%；而相似位置为 20 个（16 个相同加 4 个相似），总相似性为 100%。比对 2 比较序列 1 和序列 3，含有五个替换（高亮）。其中三个替换发生在同一化学基团内，因此被认为是相似的：H 和 R 都是碱性氨基酸，S 和 T 都是极性不带电氨基酸，D 和 E 都是酸性氨基酸。然而，两个替换发生在化学无关的氨基酸之间，因此不被认为是相似的：P 和 V 来自不同基团，R 和 E 也来自不同基团。有 15 个相同位置，因此一致性为 75%；而相似位置为 18 个（15 个相同加 3 个相似），总相似性为 80%。

图 9.3 直系同源物、旁系同源物和异源序列之间的差异。 右边的祖先生物体含有某一特定基因的单一拷贝（以白色矩形表示）。蓝色谱系（带有灰色基因的后代）积累了许多不同的突变，在第一次物种形成事件中形成了一个新的独特物种。每个谱系都有自己的基因拷贝，通过突变和选择分化，这些不同版本称为直系同源物。基因复制事件在同一生物体中产生两个不同的基因拷贝（重复基因以黑色显示），这些拷贝被传递给后代并独立积累突变。仅因基因复制而分化的基因称为旁系同源物。水平基因转移（HGT）事件（也称为侧向基因转移）将基因拷贝传递给新谱系（以虚线轮廓显示），导致不同支系或分类单元共享更近缘的基因，尽管这些谱系本身并非通过垂直传递紧密相关。通过 HGT 过程共享基因产生了异源序列。

图 9.4 系统发育信号与系统发育噪声之间的差异。 系统发育信号由序列保守区域提供，在这些区域中不同位置可以被比对并包含一些变异。这些位置包含有关进化过程或速率的信息（本图中为位置 1–22 和 35–40）。系统发育噪声由更快进化的位点产生，这些位点通常难以比对，可能包含多个空位。这种噪声可能误导系统发育推断，导致弱支持或对错误假设的支持。

图 9.5 基于特征的方法与基于距离的方法。 基于特征的方法（如最大简约法和最大似然法）在树推断过程中直接使用比对序列，而基于距离的方法（如邻接法）首先将序列数据转换为成对距离。

图 9.6 用外群对树加根。 大肠杆菌通常存在于温血动物的下肠道。大多数大肠杆菌菌株是无害的，但某些类型（称为血清型）是有致病性的，可导致人类严重的食物中毒。本例中，将大肠杆菌致病谱系（O157:H7 EDL933 和 APEC01）与野生型实验室菌株进行比较，构建了一个小型大肠杆菌系统发育树。虽然可以从无根树推断序列之间的关系，但除非对树加根，否则无法推断祖先序列。通过用外群（此处为 Salmonella 序列，已知更远缘并是该研究群组的祖先）对树加根，可以确定哪些谱系是祖先的，哪些是后代的。

069

How to Construct a Tree

PDF page 280-287；印刷页码 260-267；止于 `Marker-Based Evolution Studies` 标题前

▶

How to Construct a Tree — 中文翻译

原文信息

来源：Bioinformatics: A Practical Guide to the Analysis of Sequences, 4th Edition
范围：PDF page 280-288；印刷页码 260-268；止于 Marker-Based Evolution Studies 标题前
版权声明：

翻译说明

术语统一采用项目术语库（bioinformatics_glossary.xlsx）
工具名、数据库名、URL、文献题录保留英文原文
内部子标题（Multiple Sequence Alignment and Alignment Editing / Determining the Substitution Model / Tree Building / Tree Visualization）作为 ### 处理，不作为 peer entries 暴露

---

正文

如何构建一棵树

究竟是使用核苷酸数据集还是氨基酸数据集进行系统发育分析，这一问题一直存在争议，焦点集中在系统发育信号的强度与总体使用的便捷性之间。使用氨基酸序列推断系统发育的主要论据在于，氨基酸具有比核苷酸（4个）更多的可能特征状态（20个）。因此，特征状态数目的增加可以提高比对过程中的分辨率。然而，核苷酸序列中特征数目的增加往往能够更好地解析树的拓扑结构，尤其在研究亲缘关系较近的序列时。当然，有些序列（如16S rRNA序列）本身没有相应的蛋白质编码序列。在这种情况下，分析者需要综合考虑生物学问题、所研究序列的分化程度、可用于采样的序列以及现有工具，做出最终判断。

一个简洁的系统发育分析包含四个步骤：多序列比对、替换模型确定、构建系统树，以及系统树评估。每个步骤对分析都至关重要，理应得到相应的重视。一棵树的优劣完全取决于它所基于的数据质量。

多序列比对与比对编辑

系统发育序列分析始终从多序列比对开始。在系统发育分析中，比对步骤的重要性不亚于甚至超过后续步骤，因为它决定了后续进化模型所依据的数据集。在比对过程中，被纳入系统发育分析的比对位置代表了先验的系统发育结论，因为这些位点本身（而非实际碱基）实际上被假定为具有谱系关系或同源关系。典型的比对流程是：先应用 Clustal（ClustalW、ClustalX 或 Clustal Omega）等程序进行比对，再进行手工比对编辑，最后提交给树构建程序（Chenna et al. 2003）。许多现有方法（包括 Clustal、PileUp 和 ProPack 中的 ALIGN）按照明确的系统发育标准（即基于初始成对序列比对生成的"引导树"）来比对序列。执行全局成对比对最广泛使用的算法是 Needleman–Wunsch 算法，该算法同时在 Clustal 和 MUSCLE 比对程序包中实现；该算法在输入数据集的所有序列对之间尽可能多地匹配字符（无论序列长度如何），以获得成对评分（Needleman and Wunsch 1970）。不同程序的具体实现方法略有不同：Clustal 使用实际序列进行比对，而 MUSCLE 在比对的第一阶段仅通过调查序列中的 k-mer（即长度为 k 的短序列）来节省时间（Needleman and Wunsch 1970）。这些评分随后被用于构建引导树，引导树再用于生成多序列比对。

顾名思义，引导树实际上引导构建更稳健的比对。其原理是：亲缘关系更近的序列应优先比对，然后产生的序列组虽然在组间同源性较低，但仍有共同祖先，因此可以更准确地进行彼此之间的比对。多序列比对方法和常用比对软件的示例详见第8章。

比对软件中有许多参数控制比较的速度和敏感性，如空位罚分和打分矩阵的选择，第3章有更全面的介绍。在一种比对方法中，最重要的参数是那些决定长度可变序列比对中插入和缺失（indels 或 gaps）放置的参数。比对的参数应随估计的进化分歧程度增加或减少，因为当序列分歧程度增大时，碱基错配的可能性也随之增大（Thompson et al. 1994）。偏斜的采样（例如近缘序列过度代表）会影响引导树中的成对评分和算法 entrainment，对代表性不足的序列的比对产生不利影响（Thompson et al. 1994; Hughey et al. 1996）。在这种情况下，比对参数也应动态调整。Clustal 等部分软件包提供了动态参数调整功能。然而，除非事先知道系统发育关系，否则没有明确的方法来确定给定系统发育分析的最佳比对程序。

一般来说，不建议简单地将计算机生成的比对直接提交给树构建程序，因为后者无法识别前者的错误。然而，只要在整个比对过程中结合独立系统发育证据进行审视，Clustal 等利用一定程度系统发育标准的方法就是目前最好的选择。例如，如果比对中有几个彼此非常接近的空位，应将它们合并为一个包含所有空位的单一 indel，因为从进化角度来看，一次插入或缺失比多次更合理。同样，Clustal 鼓励在亲水性氨基酸序列中形成空位，这与在球状蛋白表面或膜蛋白的亲水环区域发生插入或缺失一致，而在疏水蛋白核心中则不然。然而，必须强调的是，目前没有任何方法能够依据系统发育模型来判断一个多序列比对是否显著优于另一个。

远缘序列的比对可能存在问题。如前所述，生物大分子结构与功能之间存在重要联系。远缘分子之间的序列分歧往往导致比对不确定，要么"间隙过多"，要么在许多位置高度可变。有时，使用二级或三级结构信息来指导比对被认为在系统发育上比纯序列比对更可靠。这是因为当比较复杂特征（如结构）时，同源性评估的信心更高，而比较简单特征（如可能已高度分化的核苷酸和氨基酸）时则会产生系统发育"噪音"。16S rRNA 基因的情况即是如此（见第6章）。此外，有时需要进行比对"手术"或比对编辑，以确保保留系统发育信号并移除模糊信息；这涉及手动删除数据集中的列。手动解决歧义时，应考虑系统发育关系、替换过程和碱基组成。根据系统发育证据解决歧义是完全合理的，在某些情况下，删除比对中的模糊或噪声区域（图9.4）是可取的。根据一系列稍作修改的比对进行系统发育分析是有用的，这可以观察比对的模糊区域如何影响结果，以及结果的哪些方面更为可靠。

替换模型确定

替换模型的选择应与比对和树构建给予同等重视。如前文所述，替换模型同时影响比对和树构建。虽然替换模型中的任何参数在特定数据集中都可能是关键的，但具有最多参数的模型并不总是最好的——恰恰相反，参数越少越好。这是因为每个参数估计都有关联的方差或不确定性。不幸的是，目前没有一种明确的方法优于其他方法，每种方法都有其自身的优缺点，具体取决于所执行的分析类型和研究者秉持的哲学理念。

过去50年间，不同的科学家提出了许多不同的核苷酸替换模型。这些模型对核苷酸碱基频率（即某特定核苷酸在序列中出现的频率估计）和替换率（即进化过程中一个核苷酸被另一个替换的速率）的估计方式各不相同。JC69 模型（Jukes and Cantor 1969）是最简单的替换模型。JC69 假设碱基频率相等且替换率相同。该模型唯一需要估计的参数是总体替换率。K80 模型（Kimura 1980）假设所有碱基出现频率相等，但区分转换与颠换事件并对其赋予不同的权重，从而影响替换率。Felsenstein 1981年的模型（F81 模型）是 JC69 模型的扩展，允许碱基频率变化（即 A ≠ G ≠ C ≠ T 的频率；Felsenstein 1981）。Hasegawa 等人（1985）的 HKY85 模型可以看作是 K80 和 F81 模型扩展的组合。具体而言，HKY85 区分转换与颠换的不同速率，同时也允许不等的碱基频率。T92 模型将 Kimura 的两参数 K80 方法扩展到存在 GC 含量偏差的情况（Tamura 1992）。

在所有条件相等的情况下，生物体的 GC 含量应等于 50%，相应的 AT 含量应占另外 50%。然而，GC 含量在不同物种间存在差异，这些差异的原因被认为是多因素的，且常常存在争议。例如，分析表明，在某些生物体的某些基因组区域中，GC 含量与最优生长温度之间存在相关性，但并非对所有情况都成立。具体而言，已证明原核生物较高的最优生长温度与结构化 RNA（如 rRNA、tRNA 和许多其他非编码 RNA）较高的 GC 含量之间存在强相关性（Galtier and Lobry 1997; Dutta and Chaudhuri 2010）。TN93 模型（Tamura and Nei 1993）区分两类碱基转换（即 A ↔ G 的速率可以与 C ↔ T 的速率不同）。颠换被认为以相同的速率发生，但该速率允许与转换的两种速率均不同。当存在强转换-颠换和 GC 含量偏差时（如 Tavaré 1986 的通用时间可逆模型的情况），此方法很有用。该模型假设六个替换率参数（C ↔ G、C ↔ T、C ↔ A、A ↔ T、A ↔ G 和 G ↔ T）以及四个不同的碱基频率参数（Tavaré 1986）。

除了核苷酸替换模型外，还有许多氨基酸替换模型。最广泛使用的氨基酸替换模型是 PAM（接受点突变）系列矩阵和 BLOSUM（块替换矩阵）系列矩阵（Dayhoff et al. 1978; Henikoff and Henikoff 1992）。这些替换模型的细节在第3章有进一步讨论。对于系统发育分析，PAM 矩阵被认为适合比较近缘物种，而 BLOSUM 矩阵通常被认为更适合进化上较远缘的序列（Henikoff and Henikoff 1992）。对于精细调整的分析，可能需要使用多种打分矩阵分析一组序列，以确定每个矩阵对结果的影响。由于 BLOSUM62 矩阵在检测远缘序列相似性方面取得的成功，该替换模型被许多序列搜索算法（如 NCBI 的 BLAST）作为默认参数。

树构建

树构建过程始于比对。有时，比对程序的输出格式与树构建程序不兼容，需要对比对进行重新格式化；例如，分类群或分子名称标签可能有字符限制，以及关于序列是否必须以交叉格式排列的规范。因此，在尝试进一步分析之前，数据输入说明尤为重要。系统发育程序包需要输入：比对结果、所选替换模型及其伴随的模型参数（默认设置是一个好的起点），以及关于 bootstrapping 和根化的规格说明。

如前所述，树构建算法分为基于距离的方法（通常计算量较小）和基于特征的方法。基于距离的常用算法包括邻接法（Neighbor-Joining, NJ）、非加权组对法算术平均法（UPGMA）、Fitch–Margoliash（FM）法和最小进化（ME）法。NJ 算法通过多次迭代步骤将一棵未解析的"星形"树逐步分解（Saitou and Nei 1987）。该算法首先根据所选替换模型，识别出彼此距离最短的一对不同序列（标注为分类群、基因或蛋白质）。然后将这些分类群、基因或蛋白质连接到一个新创建的节点上，该节点再与中心节点相连。计算每个分类群到该节点的距离，并使用该值识别下一个亲缘关系最近的序列，然后用于创建一个新节点（因此称为"邻居的连接"）。重复此迭代过程，直到所有分类群都被解析到树中的各个节点。

考虑到替换模型之间的差异以及 bootstrapped 数据集之间的差异，此过程可能生成不同拓扑结构的树，且各节点的 bootstrap 支持度也不同。在这种情况下，会识别一棵共识树，即一棵包含所有可能树中具有最多共识节点的树。有些研究者认为 bootstrap 值超过 70% 的节点是良好支持的，而另一些研究者则认为只有超过 95% 才算良好支持——bootstrap 值越高越好。需要记住的是，节点的高 bootstrap 值并不意味着这些分类群（或基因或蛋白质）之间的关系实际上是真实存在的。它仅仅表明该节点在所选数据和分析方法下是得到支持的。对比对的修改（如包含或排除编辑区域、添加或移除物种，或更改所使用的计算参数）可能以不同方式影响所得的系统发育树。此外，在比对中包含一个严重错排的序列可能导致非常高的 bootstrap 值来支持其作为一个独特分支的分离，但这仅仅是因为错排所致。在系统发育分析之前始终建议手动检查比对。一棵得到良好支持的树增强了分析的信心，但如果没有时间机器回到数百万年前检查实际发生了什么，研究者必须记住，系统发育分析的结果仅仅代表一个非常好的假设。人们始终是在推断一种关系。这就是为什么经常使用"系统发育推断"这一术语的原因。

UPGMA 是另一种聚类算法，它计算所有最近的邻居（Sokal and Michener 1958）。该方法与 NJ 的不同之处在于，NJ 会考虑所有其他叶子到其他叶子的平均距离。UPGMA 隐含假设所有谱系以相同的速率进化（依据分子钟假说），因为它生成的树中所有叶子到根的距离相等。如果各谱系以不同速率进化（事实上它们确实如此），UPGMA 树可能不太适合距离数据。因此，UPGMA 通常不被认为是构建基于距离树的理想方法。ME 和 FM 系统发育推断方法基于以下假设：分支长度估计总和最小的树最可能是真实的树（Fitch and Margoliash 1967; Rzhetsky and Nei 1992）。在基于距离的方法组中，FM 和 ME 方法表现最佳，但它们比 NJ 慢得多，而 NJ 通常会生成与这些方法非常相似的树。

常用的基于特征的方法算法包括最大简约法（Maximum Parsimony, MP）和最大似然法（Maximum Likelihood, ML）。简约原则是所有科学的基础，其观点是：在其他条件相同的情况下，最简单的可能解释是最好的。就树构建而言，MP 方法需要最少的进化变化或最少的特征状态变化（Swofford et al. 1996）。分析中使用所有特征数据；但在确定序列之间的关系时不计算分支长度。虽然通过计数特征状态变化来对系统发育树进行评分很容易，但没有算法能够快速生成最简约的树。相反，最简约的树必须在通常所说的"树空间"中寻找，即在所有可能的树中寻找。MP 分析往往产生大量树（常常数以千计），它们得分相同但拓扑结构不同。在这种情况下，拓扑结构与所有等可能树中最多节点一致的树被认为是最好地支持数据的树。

当考虑的分类群数量较少时，可以进行穷举搜索，对每棵可能的树进行评分并选择最佳的一棵。对于更多的分类群，则必须执行启发式搜索，即在无法获得精确解时找到一个近似解。应当指出，MP 方法在存在大量位点间速率异质性时表现不佳（Huelsenbeck 1995）。此外，最优 MP 树会最小化同塑性（convergent evolution，即特征的独立趋同进化）。因此，MP 方法有时会受到长枝吸引的影响（Bergsten 2005）。长枝吸引发生在不同快速进化的谱系被误判为亲缘关系较近的情况下，无论其真实关系如何。通常，这种情况的出现是因为分析中包含的一个或多个特征在多个分类群中发生了趋同进化。MP 程序可能错误地将这种同塑性解释为在两个谱系共同祖先中进化一次的共裔性（synapomorphy）。

相比之下，ML 方法寻找在给定用户指定的序列进化模型下最好地解释数据的树（由用户指定的参数和分布设置）。四分法（quartet puzzling）是一种相对快速的树搜索算法，用于 ML 树构建（Strimmer and von Haeseler 1996）。使用 ML 时，如果已知数据集的其他信息（例如跨位点的高变化速率），最简单的解释可能不被认为是最正确的。虽然 ML 方法非常慢且计算量大，但据认为它能产生进化过程的最佳表征。因此，ML 方法一直是被称为贝叶斯推断的强大统计方法的基础（Huelsenbeck et al. 2002）。

贝叶斯推断是一种统计推断方法，在算法进行过程中，随着更多证据或信息的获得，进化假设的概率会得到更新。结果的更新概率由先验概率和似然函数确定。先验概率是在检查任何数据之前就确定的一组结果的参数和分布。先验概率有助于在了解实际发生了什么之前确定可能结果的机会。"似然函数"由一组结果的参数和分布组成，当已知可能发生的情况时使用。在分析过程中，通过使用马尔可夫链蒙特卡洛算法来更新结果的概率，该算法迭代地将结果的似然度（及其参数和分布的集合）与数据进行比较，并解析出最可能的结果；然后告知进一步采样的似然度范围（Yang and Rannala 1997）。此过程按研究者指定的次数重复进行。贝叶斯方法与 ML 方法使用相同的方法，即根据进化模型将最好地代表数据的树视为"最佳树"；然而，似然度计算被认为更加"有据可依"。

表 9.1 列出了一些实现不同系统发育分析方法的主流软件包。

表 9.1 实现不同系统发育分析方法的部分常用软件包

软件包	说明
BEAST	• 跨平台程序，用于使用马尔可夫链蒙特卡洛对分子序列进行贝叶斯分析• 使用严格或宽松分子钟模型生成有根的时间测量系统发育树
MEGA	• 用户友好的 Windows 平台，可上传序列并比对（ClustalW 或 MUSCLE），以及通过多种方法（最大似然、进化距离和最大简约法）进行系统发育推断
MrBAYES	• 使用马尔可夫链蒙特卡洛变体进行系统发育贝叶斯推断的程序
PHYLIP	• 基于菜单的包含 35 个不同程序的软件包，用于推断进化树• 涵盖简约法、距离矩阵和似然法、bootstrap 和共识树• 可处理的数据类型包括分子序列、基因频率、限制性位点和片段、距离矩阵
PhyML	• 快速搜索最大似然树的程序• 可使用核苷酸或氨基酸序列
PAUP	• 基于简约法的系统发育分析（及 v4.0 之后版本的其他方法）• 可作为 Geneious 的插件使用

实现这些不同方法的流行软件见表 9.1。使用经典 PHYLIP 程序包进行 NJ DNA 序列分析的示例工作流程如图 9.7 所示。

在构建系统发育树时，从尽可能多的角度审视数据是很重要的。由不同方法生成的树拓扑结构的一致性表明，该分析是对真实系统发育的良好估计。不幸的是，不同方法获得的结果之间的一致性并不一定意味着该结果在统计上是显著的或代表了真实的系统发育，因为这种一致性可能有多种原因。外群分类群的选择对分析的影响可能与内群分类群的选择一样大。特别是当外群与一个或多个内群分类群共享异常属性（如组成偏差或分子钟速率）时，会出现复杂情况。因此，建议使用多个外群计算每次分析，并检查内群拓扑结构的一致性。此外，要注意程序可能根据输入文件中序列的排列顺序生成不同的树。PHYLIP、PAUP 和其他系统发育软件提供了一个"jumble"选项，可以以不同的（随机排列的）输入顺序重新运行分析。

如果无论出于什么原因必须单次运行计算树，应将怀疑有"问题"的序列放在输入文件的末尾，以降低树重排方法受到任何问题序列导致的较差初始拓扑负面影响的可能性。一般来说，当生物信息学分析基于进化假设时，应始终将其置于进化背景下进行考虑。例如，如果执行了 BLAST 分析，应该提出以下问题：BLAST 分析中的哪些命中可能是直系同源物而非旁系同源物？在搜索中识别出的哪些跨膜蛋白可能是同源物（祖先相关）还是因跨膜 α 螺旋序列相似性而偶然相似？在比对序列中，哪些结构域似乎是保守的？是否有与某个进化支相关而与其他进化支无关的 indels，表明它们可能具有功能性意义？

树可视化

系统发育树由多个部分组成。树的骨架由节点（nodes）、分支（branches）、叶片（leaves）以及（如果有的话）根（root）构成。叶片的标签通常对应基因、蛋白质或物种名称，但也可以包括生物体的俗名、物种名称可以采用粗体、斜体或彩色字符格式化。典型的系统发育树还会在各自节点旁边标注 bootstrap 值，以及分支长度比例尺。这是一个位于图底部的刻度条，旁边有一个数字（通常是一个分数），用于校准给定字符数下的变化次数。分支长度也可以被量化并标注在树上。一般而言，如果不从比对中移除这些序列，就无法从树可视化中移除分支、节点和叶片并重新进行分析。

系统发育树可以用不同的方式可视化。例如，树可以绘制为水平、垂直、圆形或放射状视图（图 9.8）。叶片和分支可以绕节点旋转而不改变推定的关系。目前有多种树绘制程序可在各种计算平台上使用，包括 TreeTool、TreeDraw、PHYLODENDRON、TREEVIEW、FigTree 以及 PAUP 内的树绘制工具；所有这些程序都处理标准的树文件。这些程序不仅便于生成适合发表或其他演示的树，也便于一般性地查看数据。例如，免费的 TREEVIEW 等程序使用户能够操作分支顺序视图、对树进行重根化，以及执行其他有助于用户的图形操作。

更全面的系统发育树可视化软件列表（包括预计算树的基于网络的视图）可通过互联网资源部分中的"系统发育树可视化软件"链接找到。树图像/文件也可以经常导出到 PowerPoint 或 Photoshop 等其他常用演示和图形软件中，并叠加其他生物学相关特征，例如在疫情调查中涉及的与疾病相关的系统发育相关分离株的聚类，这些可与散发病例区分开来。

070

Marker-Based Evolution Studies

PDF page 288-289；印刷页码 268-269

▶

Marker-Based Evolution Studies — 中文翻译

原文信息

来源：Bioinformatics: A Practical Guide to the Analysis of Sequences, 4th Edition
范围：PDF page 288-289；印刷页码 268-269；止于 Phylogenetic Analysis and Data Integration 标题前
版权声明：

翻译说明

术语统一采用项目术语库（bioinformatics_glossary.xlsx）
工具名、数据库名、URL、文献题录保留英文原文
Figure 9.9 归属本节；下一节 Phylogenetic Analysis and Data Integration 未纳入本文件

---

正文

基于标记的进化研究

遗传分子标记是与基因组中特定位置相关联的 DNA 片段。分子标记已被用于诊断囊性纤维化等疾病，利用 16S rRNA 基因解析分类亲缘关系，也在分子生物学中作为 DNA 条形码使用，从而能够在未知 DNA 混合池中识别特定序列。可用于建立生物体之间关系层级，或建立诸如疾病易感性等性状层级的分子标记类型很多。如前所述，这些标记可以是基因中的 single-nucleotide variants（SNVs），也可以是不同蛋白中的氨基酸替换。虽然 indels 可以是任意的插入或缺失，但 conserved signature indels 特指那些位于蛋白保守区域内、并且仅限于某一特定进化支或某一类物种中的蛋白 indels（Gupta and Griffiths 2002）。Conserved signature indels 是推断进化关系的有用分子标记，因为同一个插入或缺失事件不太可能在两个彼此独立的进化谱系中的同一位置重复发生。

SNVs 也可以在整个基因组之间被追踪和比较，从而以多种方式对序列进行分组。SNV 标记包括序列 motif，或 DNA 中反复出现的短模式，这些模式通常被认为具有生物学功能，例如转录因子结合位点中的模式。当 SNV 出现在酶切限制性位点中时，它们会影响基因组 DNA 的酶切图谱，而这种图谱可以通过 pulsed-field gel electrophoresis（PFGE；Gerner-Smidt et al. 2006）检测到。具有相同酶切片段图谱的不同分离株被认为彼此亲缘关系最近。PFGE 方法已用于微生物分子分型；它也被用于临床或环境样本中分离株的分类（达到亚种水平），例如用于暴发调查中的食源性病原体。另一种微生物分型技术称为 multi-locus sequence typing（MLST），它根据特定遗传位点上 SNV 模式的差异来为微生物分离株分配“sequence types”；其依据是 DNA 片段测序结果，而不是像 PFGE 那样依据电泳迁移率。MLST 可以在一组标准 housekeeping genes 上实施，并通过其独特的等位基因谱来表征菌株（Margos et al. 2008）。或者，也可以在 whole genome 或 core genome 层面实施 MLST；此时，该方法产生的大量等位基因将通过成对差异矩阵进行比较，并以树的形式展示（Achtman et al. 2012）。MLST 关系通常用 minimum spanning trees 可视化；这类树以最短可能路径连接全部节点。Minimum spanning trees 将 sequence types 聚类在一起，并试图识别每一组的 founding（或 ancestral）sequence type（Salipante and Hall 2011）。随后，这些祖先类型会在径向视图中连接起来（Figure 9.9）。

不同微生物的分子分型依赖不同的 MLST schema（即 loci 与 alleles 的集合），因为不同谱系中的不同位点由于变化速率和选择压力不同，其信息量也不同。有些 schema 甚至能够在 in silico 层面表示某些生物学现象，例如 serotypes - 即细胞表面的免疫学性质，可用于区分不同菌株。一个基于 core genome MLST schema 进行 Salmonella 血清型预测的 Web 可访问工具是 SISTR（Salmonella In Silico Typing Resource；Yoshida et al. 2016）。这类工具使得研究者能够快速识别 Salmonella 污染，从而支持食品安全与公共卫生调查。随着流行病学中基因组分析被越来越广泛地用于理解感染的分布与传播，eBURST（Feil et al. 2004）和 SISTR 等软件，以及存放 schema 与分离株数据的数据库，将在减少可预防传染病病例数量方面发挥关键作用。

尽管大多数真核生物 DNA 被包装在细胞核内的染色体中，线粒体也拥有少量自身的 DNA。Mitochondrial DNA（mtDNA）是存在于大多数真核生物中的一类小型双链 DNA（例如，人类 mtDNA 仅包含 37 个基因），并且遵循母系遗传（Anderson et al. 1981）。由于动物 mtDNA 的进化速度快于核基因（Brown et al. 1979），它携带的 SNVs 因而成为法医学、群体遗传学和医学遗传学中的有价值工具（Kundu and Ghosh 2015; Sturk-Andreaggi et al. 2017; Theurey and Pizzo 2018）。用于考察 mtDNA 序列间关系的工具之一是 mtDNAprofiler（Yang et al. 2013）。

植物分子标记研究已被用于作物改良。研究者已经开发出大量功能性分子标记，这些标记可以在小麦、水稻、玉米、高粱、黍类及其他作物中通过遗传序列分析直接识别（Kage et al. 2016）。例如，在小麦 30 个不同基因中识别出的等位基因，已被证明与食品品质、农艺性状和抗病性状相关，并已成功用于育种计划（Liu et al. 2012）。众所周知，植物分子标记研究推动了 20 世纪 60 年代全球粮食生产力的提升，这场进步被称为“Green Revolution”（Hedden 2003）。小麦 Rht1 和 Rht2 基因中的点突变使植株发生“矮秆化”，从而增强了茎秆强度，并最终提高了籽粒产量（Hedden 2003）。基于这类分析开发出的检测方法，至今仍使农民和科学家能够筛查新品种基因型中是否具有目标性状。

071

Phylogenetic Analysis and Data Integration

PDF page 289-292（从 `Phylogenetic Analysis and Data Integration` 标题起，排除页首 mtDNA 残留；到 `Future Challenges` 标题 y=380.2 前）；印刷页码 269-272

▶

Phylogenetic Analysis and Data Integration

翻译

范围：PDF page 289-292；从 Phylogenetic Analysis and Data Integration 标题起，到 Future Challenges 标题前。

---

Phylogenetic Analysis and Data Integration

系统发育和进化分析可用于回答多种类型的生物学问题。例如，当所研究的蛋白质与注释完整的序列紧密聚类时，可通过分支模式推断假设蛋白的功能，这一过程称为功能预测（function prediction）。类似地，旁系同源蛋白与直系同源蛋白之间由于序列分化而产生的分支模式差异，可能提示功能的分化。目前已有多种基于系统发育的蛋白质功能预测工具，例如 SIFTER（Statistical Inference of Function Through Evolutionary Relationships；Sahraeian 等，2015），但许多功能预测算法实际上是建立在基于比对的相似性之上的——其中包括 BLAST 和 PredictProtein。在许多情况下，必须将来自多个来源的不同类型数据与系统发育信息整合，才能回答生物学问题。SNV 的频率可以在群体中进行评估，而 SNV 在地理区域间的传播则可通过系统地理学（phylogeography）这一学科来理解。GenGIS 是一个将地理、生态和系统发育生物多样性数据整合在一起的软件平台，用于在多种环境中可视化系统发育关系。GenGIS 曾被用于评估"全球海洋采样考察"（Global Ocean Sampling expedition）的分类多样性（Parks 等，2009）以及 HIV-1 亚型在非洲的传播（Parks 等，2013）。类似地，MicroReact 将基因组学数据与时间、地理和其他元数据整合，以创建与健康相关的可视化图表（Argimón 等，2016）。该平台曾用于重建西非埃博拉疫情以及全球多种耐药微生物的传播事件研究。除了研究工具之外，23andMe 等个人基因组学公司（见网络资源）也利用标记基因和系统地理学分析来识别健康风险并追溯全球家族谱系。

基因组流行病学（genomic epidemiology）是将全基因组测序（WGS）数据应用于理解微生物种群（无论微生物还是病毒）的基因组变异如何影响疾病的发病率、分布及可能防控措施的学科，同时也涉及与公共卫生相关的其他因素。微生物分离株的基因组数据以及临床、暴露、地理和人口统计学数据，通过系统基因组树和其他比较工具进行比较（Tang 等，2017）。感染了被认定与疫情相关的聚集菌株的患者，将被追踪调查其共同的感染来源和传播方式，进而用于控制疾病传播（Robinson 等，2013）。基因组流行病学技术已在全球范围内用于控制多种传染病，包括结核病、沙门氏菌、大肠杆菌及各种病毒性疾病（Gardy 等，2011；Croxen 等，2017；Moran-Gilad 等，2017）。例如，参与 2016 年新加坡寨卡疫情的科学家利用基因组流行病学技术，通过贝叶斯分析将医院和蚊子病毒株进行匹配；这些结果随后被用于指导后续防控措施，例如在哪些区域增加幼虫杀灭剂的投放，以及在哪些区域启动公共卫生宣传活动（Singapore Zika Study Group，2017）。

系统发育学在新兴的微生物取证（microbial forensics）领域也已被证明具有重要价值，该领域旨在将生物恐怖主义行为或无意中释放的微生物/毒素的微生物 DNA 证据与潜在来源进行关联，以支持溯源（Schmedes 等，2016）。例如，2001 年，美国邮政局遭受了炭疽生物恐怖袭击。通过精确的菌株分型鉴定和系统发育分析，来自康涅狄格州、纽约州、佛罗里达州和华盛顿特区的看似互无关联的感染病例被聚类到单一作案者，同时排除了自然原因导致的病例（Yang 和 Keim，2012）。当美国卫生和执法官员追踪作案者时，准确知道炭疽芽孢杆菌（Bacillus anthracis）的精确菌株类型对于缩小潜在来源范围、确定犯罪现场本身都极具价值（Yang 和 Keim，2012）。测序技术和生物信息学分析的持续进步，继续影响着生物防御、刑事调查和情报获取方面的政策和实践（Schmedes 等，2016）。

癌症是一种遗传疾病，当正常细胞功能被 DNA 突变破坏时就会发生。癌症研究涉及范围广泛的临床和流行病学数据，以及分子和进化分析方法。突变发生在单个细胞水平，随后在细胞分裂过程中传播到亚群。亚群之间生长率的差异产生了复杂的肿瘤微环境，其中包含许多相互作用且不断进化的细胞（Beerenwinkel 等，2016）。由此产生的肿瘤内遗传多样性（intratumor genetic diversity）为肿瘤的正确诊断和治疗带来了巨大挑战，尤其是活检样本可能无法代表整个肿瘤（Beerenwinkel 等，2016）。肿瘤系统发育学（tumor phylogenetics）可揭示导致疾病的进化机制，同时也正在为癌症进展、转移和治疗反应的预测与控制提供新见解（Box 9.1）。

---

Box 9.1 Using Phylogenetic Approaches to Predict Cancer Progression and Drug Response

利用系统发育方法预测癌症进展和药物反应

肿瘤系统发育学为揭示导致疾病的进化机制提供了重要视角。癌症是一种遗传性疾病，现已认识到突变的积累、多样化和选择会促进肿瘤细胞增殖，并根据复杂的进化机制影响存活率。图示展示了肿瘤如何包含积累了不同类型突变的混合细胞群。一些突变使癌细胞能够发生转移，而另一些突变则使癌细胞对治疗不那么敏感。系统发育分析已被应用于理解和预测癌症进展、转移及治疗反应的控制。肿瘤系统发育学的目标是利用可能的树空间探索从基因组变异中重建肿瘤进化过程，以解释数据集。特别是在肿瘤细胞异质性判断方面——尤其是与不同临床结局相关的突变类型——已经发展出了相应的进化论和分析方法；这些突变类型包括拷贝数变异（copy number variants）、微卫星（microsatellites，即某些 DNA 模体重复的重复 DNA 序列）以及"突变特征"（mutation signatures），如与环境触发因素相关的核苷酸偏好。突变率以及选择压力的程度和强度极大地影响着治疗方案的选择和预后。不同的治疗方案会导致选择作用，进而改变肿瘤内占主导地位的克隆。单药治疗可能通过选择不应答克隆和提高突变率（肿瘤内异质性）而导致复发，并且与抵抗不同类型治疗的能力相关。这些肿瘤多样性研究高度依赖于适当的参数估计和对不同突变过程的建模，这些过程已通过观察数据得到验证。迄今为止，大多数肿瘤系统发育研究都沿用了为不同物种系统发育树构建而开发的经典算法（Schwartz and Schaffer，2017）。

肿瘤细胞进化导致混合肺细胞群

正常肺细胞 → 肿瘤细胞 → 可治疗性肿瘤 / 导致转移的突变 / 耐治疗的突变

---

系统发育学也正在通过新兴的药物基因组学（pharmacophylogenomics）领域推动药物开发（Searls，2003）。药物基因组学是一门结合基因、蛋白质定位、基因/蛋白质相关性、药物和药物靶点知识来识别新型治疗来源的研究领域（Searls，2003）。最著名的药物基因组学发现之一是"可成药基因组"（druggable genome）——即人类基因组中约 3000 个能够表达可与类药物分子结合的蛋白质的基因（Hopkins and Groom，2002；Sakharkar 等，2007）。对于既有相互作用又不断进化的蛋白质——如受体和肽配体（即趋化因子及其 G 蛋白偶联受体）——它们的共同进化反映在其系统发育树拓扑结构的相似性上（Searls，2003）。识别进化趋势的研究可用于创建分子相互作用的从新（de novo）预测算法。由于通路和网络经常与其相互作用伙伴平行共同进化，这些研究也将系统发育分析从单个基因和蛋白质扩展到了整个代谢和生理网络，从而拓宽了新型药物来源的搜索范围（Searls，2003）。

宏基因组学（metagenomics）和代谢组学（metabolomics）（见第 14 章）也正在迅速扩展我们探索陆地和水生环境遗传多样性的能力。宏基因组学是直接从环境样本中回收遗传物质进行研究的方法，用于探索复杂微生物生态系统的多样性，包括无法培养的菌株（Handelsman，2004）。NCBI 公共库提供了来自多种环境群落的序列访问，包括沉没的鲸鱼尸体、活性污泥、农田土壤、酸性矿山排水点、亚热带环流和深海沉积物等（NCBI Resource Coordinators，2016）。对这些基因谱系的系统发育分析（phylogenetic profiling）提供了一种计算机内（in silico）分析形式，可帮助确定体外实验的方向。例如，针对 β-内酰胺类以及 A 和 B 型链阳性菌素的细菌耐药基因产物的多样性和流行率，最初是在人类病原体中发现的（D'Costa 等，2007）。通过宏基因组系统发育分析，在许多环境物种中也发现了这些序列，表明土壤耐药基因组（soil resistome）的规模被严重低估，这也得到了体外研究的支持（D'Costa 等，2007）。这些发现为更好的抗生素管理和在临床上审慎使用抗生素提供了重要动力。

072

Future Challenges + Internet Resources + References

PDF page 292 `Future Challenges` 标题起 - PDF page 298；印刷页码 272-278；合并 Future Challenges、Internet Resources、References；References 题录保留英文原文；PDF page 298 为空白页

▶

第9章分子进化与系统发育分析

9.8 Future Challenges、Internet Resources 与 References

范围：PDF page 292 Future Challenges 标题起 - PDF page 298；合并 Future Challenges、Internet Resources、References。

---

Future Challenges

系统发育分析是回答多种生物学问题的有力工具。不过，系统发育树本质上是一种推断出来的动态结构：它依赖于所采用的方法、纳入或排除的序列区域、物种取样方式、参数设定、定根方式以及其他因素。听起来似乎有些悖论，但在构建系统发育关系时，最重要的因素并不是具体采用哪一种系统发育推断方法，而是原始数据本身的质量。数据选择与序列比对过程的重要性怎么强调都不过分。即便是最复杂的系统发育推断方法，也无法自动纠正带有偏差或错误的输入数据。因此，研究者始终都应从尽可能多的角度检查原始数据和分析结果，确认结论在一般生物学意义上说得通。

随着 DNA 测序技术的成本持续下降，而速度、读长和准确性不断提升，我们对序列数据进行人工审查、分析、存储和共享的能力也必须同步提升。用于开展系统发育分析和其他生物信息学分析的工具与整合平台仍在不断涌现，因为科学家正在持续开发序列信息的新用途与新应用。在“big data”时代，系统发育学和生物信息学面临的障碍，已经不再是能否产生数据，而是是否有足够多具备专业能力的人来完成分析，以及是否有足够的基础设施来支撑这些计算（Muir et al. 2016）。因此，能够对基因、基因组、蛋白质以及其他分子与系统层面信息开展系统发育分析的分析人员和生物信息学家，今后仍会持续保持高需求。

此外，工具和算法的accuracy、sensitivity 和 specificity（见 Box 5.4）必须以系统化、定量化的方式进行评估，才能明确各自的优势与局限。只有这样，研究共同体才能判断哪些工具和算法最适合特定任务，以及不同方法得到的结果应如何进行比较与整合。

展望未来，针对海量可用数据开展的各种整合式生物信息学与系统发育分析，将为我们理解世界提供新的路径，也会帮助我们学习如何适应不断变化的环境。系统发育学的发展，以及地球生命本身的演化，都可以借用一条广为流传的 Charles Darwin 名言变体来概括——这句话被镌刻在 California Academy of Sciences 总部石地板上：

> “It is not the strongest of the species that survive, nor the most intelligent, but the one most responsive to change.”

---

Internet Resources

资源	URL
ALIGN	`www.sequentix.de/software_align.php`
BEAST	`beast.community`
BLAST (NCBI)	`blast.ncbi.nlm.nih.gov/Blast.cgi`
ClustalW / ClustalX	`www.clustal.org/clustal2`
eBURST	`eburst.mlst.net`
EnteroBase	`enterobase.warwick.ac.uk`
FigTree	`tree.bio.ed.ac.uk/software/figtree`
GenGIS	`kiwi.cs.dal.ca/GenGIS/Main_Page`
MEGA	`www.megasoftware.net`
Microreact	`microreact.org/showcase`
MrBayes	`mrbayes.sourceforge.net`
MUSCLE	`www.drive5.com/muscle`
mtDNAprofiler	`mtprofiler.yonsei.ac.kr`
PAUP	`paup.phylosolutions.com`
PHYLIP	`evolution.genetics.washington.edu/phylip.html`
Phylogenetic Tree Visualization Software	`en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software`
PhyML	`www.atgc-montpellier.fr/phyml`
PileUp	`www.biology.wustl.edu/gcg/pileup.html`
PredictProtein	`www.predictprotein.org`
SIFTER	`sifter.berkeley.edu`
SISTR	`lfz.corefacility.ca/sistr-app`
TreeDraw	`webconnectron.appspot.com/Treedraw.html`
TreeTool	`github.com/neherlab/treetool`
TREEVIEW	`taxonomy.zoology.gla.ac.uk/rod/treeview.html`
23andMe	`www.23andme.com`

---

References

以下参考文献题录按原书英文原文保留：

Achtman, M., Wain, J., Weill, F.X. et al., and the S. Enterica MLST Study Group (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776.

Allegre, C.J. and Schneider, S.H. (2005). Evolution of Earth [online]. Sci. Amer. 293.

Anderson, S., Bankier, A.T., Barrell, B.G. et al. (1981). Sequence and organization of the human mitochondrial genome. Nature 290(5806):457-465.

Archibald, J.A. (2014). Aristotle's Ladder, Darwin's Tree: The Evolution of Visual Metaphors for Biological Order. New York, NY: Columbia University Press.

Argimón, S., Abudahab, K., Goater, R.J.G. et al. (2016). Microreact: visualizing and sharing data for genomic epidemiology and phylogeography. Microb. Genom. 2. https://doi.org/10.1099/mgen.0.000093.

Beerenwinkel, N., Greenman, C.D., and Lagergren, J. (2016). Computational cancer biology: an evolutionary perspective. PLoS Comput. Biol. 12(2):e1004717.

Bergsten, J. (2005). A review of long-branch attraction. Cladistics 21:163-193.

Bouvier, A. and Wadhwa, M. (2010). The age of the solar system redefined by the oldest Pb-Pb age of a meteoritic inclusion. Nat. Geosci. 3:637-641.

Brown, W.M., George, M. Jr., and Wilson, A.C. (1979). Rapid evolution of animal mitochondrial DNA. Proc. Natl. Acad. Sci. USA 76:1967-1971.

Chenna, R., Sugawara, H., Koike, T. et al. (2003). Multiple sequence alignment with the Clustal series of programs. Nucleic Acids Res. 31:3497-3500.

Croxen, M.A., Macdonald, K.A., Walker, M. et al. (2017). Multi-provincial Salmonellosis outbreak related to newly hatched chicks and poults: a genomics perspective. PLoS Curr. 9:9.

D'Costa, V.M., Griffiths, E., and Wright, G.D. (2007). Expanding the soil antibiotic resistome: exploring environmental diversity. Curr. Opin. Microbiol. 10:481-489.

Darwin, C. (1859). On the Origin of Species. London, UK: John Murray.

Dayhoff, M.O., Schwartz, R.M., and Orcutt, B.C. (1978). A model of evolutionary change in proteins. In: Atlas of Protein Sequence and Structure (ed. M.O. Dayhoff), 345-362. Washington, DC: National Biomedical Research Foundation.

Dodd, M.S., Papineau, D., Grenne, T. et al. (2017). Evidence for early life in Earth's oldest hydrothermal vent precipitates. Nature 543:60-64.

Doolittle, W.F. (2000). Uprooting the tree of life. Sci. Am. 282:90-95.

Dutta, A. and Chaudhuri, K. (2010). Analysis of tRNA composition and folding in psychrophilic, mesophilic and thermophilic genomes: indications for thermal adaptation. FEMS Microbiol. Lett. 305:100-108.

Efron, B. (1979). Bootstrapping methods: another look at the jackknife. Ann. Stat. 7:1-26.

Feil, E.J., Li, B.C., Aanensen, D.M. et al. (2004). eBURST: inferring patterns of evolutionary descent among clusters of related bacterial genotypes from multilocus sequence typing data. J. Bacteriol. 186:1518-1530.

Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach. J. Mol. Evol. 17:368-376.

Felsenstein, J. (1985). Confidence intervals on phylogenies: an approach using the bootstrap. Evolution 39:783-791.

Fitch, W.M. and Margoliash, E. (1967). Construction of phylogenetic trees. Science 155:279-284.

Gadagkar, S.R., Rosenberg, M.S., and Kumar, S. (2005). Inferring species phylogenies from multiple genes: concatenated sequence tree versus consensus gene tree. J. Exp. Zool. B Mol. Dev. Evol. 304:64-74.

Galtier, N. and Lobry, J.R. (1997). Relationships between genomic G + C content, RNA secondary structures, and optimal growth temperature in prokaryotes. J. Mol. Evol. 44:632-636.

Gardy, J.L., Johnston, J.C., Ho Sui, S.J. et al. (2011). Whole-genome sequencing and social-network analysis of a tuberculosis outbreak. N. Engl. J. Med. 364:730-739.

Gerner-Smidt, P., Hise, K., Kincaid, J. et al., and the Pulsenet Taskforce (2006). PulseNet USA: a five-year update. Foodborne Pathog. Dis. 3:9-19.

Griffiths, A.J.F., Miller, J.H., Suzuki, D.T. et al. (eds.) (2000). How DNA changes affect phenotype. In: An Introduction to Genetic Analysis, 7e. New York, NY: W.H. Freeman.

Gupta, R.S. and Griffiths, E. (2002). Critical issues in bacterial phylogeny. Theor. Popul. Biol. 61:423-434.

Handelsman, J. (2004). Metagenomics: application of genomics to uncultured microorganisms. Microbiol. Mol. Biol. Rev. 68:669-685.

Hasegawa, M., Kishino, H., and Yano, T. (1985). Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. J. Mol. Evol. 22:160-174.

Hedden, P. (2003). The genes of the Green Revolution. Trends Genet. 19(1):5-9.

Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89:10915-10919.

Hopkins, A.L. and Groom, C.R. (2002). The druggable genome. Nature Rev. Drug Discov. 1:727-730.

Huelsenbeck, J.P. (1995). Performance of phylogenetic methods in simulation. Syst. Biol. 44:17-48.

Huelsenbeck, J.P., Larget, B., Miller, R.E., and Ronquist, F. (2002). Potential applications and pitfalls of Bayesian inference of phylogeny. Syst. Biol. 51:673-688.

Hughey, R., Krogh, A., Barrett, C., and Grate, L. (1996). SAM: sequence alignment and modelling software. University of California, Santa Cruz, Baskin Center for Computer Engineering and Information Sciences.

Jukes, T.H. and Cantor, C.R. (1969). Evolution of protein molecules. In: Mammalian Protein Metabolism (ed. H.N. Munro), 21-123. New York, NY: Academic Press.

Kage, U., Kumar, A., Dhokane, D. et al. (2016). Functional molecular markers for crop improvement. Crit. Rev. Biotechnol. 36(5):917-930.

Kimura, M. (1980). A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol. 16:111-120.

Kundu, S. and Ghosh, S.K. (2015). Trend of different molecular markers in the last decades for studying human migrations. Gene 556(2):81-90.

Lawson, F.S., Charlebois, R.L., and Dillon, J.A. (1996). Phylogenetic analysis of carbamoyl phosphate synthetase genes: complex evolutionary history includes an internal duplication within a gene which can root the tree of life. Mol. Biol. Evol. 13:970-977.

Linnaeus, C. (1735). Systema Naturae (trans. M.S.J. Engel-Ledeboer and H. Engel. 1964. Nieuwkoop B de Graff, Amsterdam). Leyden, Netherlands: Johann Willem Groot.

Liu, Y., He, Z., Appels, R., and Xia, X. (2012). Functional markers in wheat: current status and future prospects. Theor. Appl. Genet. 125:1-10.

Locey, K.J. and Lennon, J.T. (2016). Scaling laws predict global microbial diversity. Proc. Natl. Acad. Sci. USA 113:5970-5975.

Margos, G., Gatewood, A.G., Aanensen, D.M. et al. (2008). MLST of housekeeping genes captures geographic population structure and suggests a European origin of Borrelia burgdorferi. Proc. Natl. Acad. Sci. USA 105:8730-8735.

Mora, C., Tittensor, D.P., Adl, S. et al. (2011). How many species are there on Earth and in the ocean? PLoS Biol. 9:e1001127.

Moran-Gilad, J., Rokney, A., Danino, D. et al. (2017). Real-time genomic investigation underlying the public health response to a Shiga toxin-producing Escherichia coli O26:H11 outbreak in a nursery. Epidemiol. Infect. 145(14):2998-3006.

Muir, P., Li, S., Lou, S. et al. (2016). The real cost of sequencing: scaling computation to keep pace with data generation. Genome Biol. 17:53.

NCBI Resource Coordinators (2016). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 44(Database issue):D7-D19.

Needleman, S.B. and Wunsch, C.D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48:443-453.

Parks, D.H., Porter, M., Churcher, S. et al. (2009). GenGIS: a geospatial information system for genomic data. Genome Res. 19:1896-1904.

Parks, D.H., Mankowski, T., Zangooei, S. et al. (2013). GenGIS2: geospatial analysis of traditional and genetic biodiversity, with new gradient algorithms and an extensible plugin framework. PLoS One 8:e69885.

Planck Collaboration (2015). Planck 2015 results. XIII. Cosmological parameters. Astron. Astrophys. Rev. 594:A13.

Robinson, E.R., Walker, T.M., and Pallen, M.J. (2013). Genomics and outbreak investigation: from sequence to consequence. Genome Med. 5:36.

Ruggiero, M.A., Gordon, D.P., Orrell, T.M. et al. (2015). A higher level classification of all living organisms. PLoS One 10:e0119248.

Rzhetsky, A. and Nei, M. (1992). Statistical properties of the ordinary least-squares, generalized least-squares, and minimum-evolution methods of phylogenetic inference. J. Mol. Evol. 35(4):367-375.

Sahraeian, S.M., Luo, K.R., and Brenner, S.E. (2015). SIFTER search: a web server for accurate phylogeny-based protein function prediction. Nucleic Acids Res. 43:W141-W147.

Saitou, N. and Nei, M. (1987). The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 4:406-425.

Sakharkar, M.K., Sakharkar, K.R., and Pervaiz, S. (2007). Druggability of human disease genes. Int. J. Biochem. Cell Biol. 39(6):1156-1164.

Salipante, S.J. and Hall, B.G. (2011). Inadequacies of minimum spanning trees in molecular epidemiology. J. Clin. Microbiol. 49:3568-3575.

Schmedes, S.E., Sajantila, A., and Budowle, B. (2016). Expansion of microbial forensics. J. Clin. Microbiol. 54:1964-1974.

Schmitt, M. (2003). Willi Hennig and the rise of cladistics. In: The New Panorama of Animal Evolution (eds. A. Legakis, S. Sfenthourakis, R. Polymeni and M. Thessalou-Legaki), 369-379. Moscow, Russia: Pensoft Publishers.

Schwartz, R. and Schäffer, A.A. (2017). The evolution of tumour phylogenetics: principles and practice. Nat. Rev. Genet. 18(4):213-229.

Searls, D.B. (2003). Pharmacophylogenomics: genes, evolution and drug targets. Nat. Rev. Drug Discov. 2:613-623.

Singapore Zika Study Group (2017). Outbreak of Zika virus infection in Singapore: an epidemiological, entomological, virological, and clinical analysis. Lancet Infect. Dis. 17:813-821.

Sokal, R. and Michener, C. (1958). A statistical method for evaluating systematic relationships. Univ. Kans. Sci. Bull. 38:1409-1438.

Strimmer, K. and von Haeseler, A. (1996). Quartet puzzling: a quartet maximum likelihood method for reconstructing tree topologies. Mol. Biol. Evol. 13:964-969.

Sturk-Andreaggi, K., Peck, M.A., Boysen, C. et al. (2017). AQME: a forensic mitochondrial DNA analysis tool for next-generation sequencing data. Forensic Sci. Int. Genet. 31:189-197.

Swofford, D.L., Olsen, G.J., Waddell, P.J., and Hillis, D.M. (1996). Phylogenetic inference. In: Molecular Systematics (eds. D.M. Hillis, C. Moritz and B.K. Mable), 407-514. Sunderland, MA: Sinauer Associates.

Tamura, K. (1992). Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G + C-content biases. Mol. Biol. Evol. 9:678-687.

Tamura, K. and Nei, M. (1993). Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Mol. Biol. Evol. 10:512-526.

Tang, P., Croxen, M.A., Hasan, M.R. et al. (2017). Infection control in the new age of genomic epidemiology. Am. J. Infect. Control. 45:170-179.

Tavaré, S. (1986). Some probabilistic and statistical problems in the analysis of DNA sequences. Lectures on Mathematics in the Life Sciences 17:57-86.

Theurey, P. and Pizzo, P. (2018). The aging mitochondria. Genes 9(1):22.

Wacey, D., Kilburn, M.R., Saunders, M. et al. (2011). Microfossils of sulphur-metabolizing cells in 3.4-billion-year-old rocks of Western Australia. Nat. Geosci. 4:698-702.

Weiss, M.C., Sousa, F.L., Mrnjavac, N. et al. (2016). The physiology and habitat of the last universal common ancestor. Nat. Microbiol. 1:16116.

Whittaker, R.H. (1969). New concepts of kingdoms of organisms. Science 163:150-160.

Wilde, S.A., Valley, J.W., Peck, W.H., and Graham, C.M. (2001). Evidence from detrital zircons for the existence of continental crust and oceans on the Earth 4.4 Gyr ago. Nature 409:175-178.

Woese, C.R. and Fox, G.E. (1977). Phylogenetic structure of the prokaryotic domain: the primary kingdoms. Proc. Natl. Acad. Sci. USA 74:5088-5090.

Woese, C.R., Kandler, O., and Wheelis, M.L. (1990). Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya. Proc. Natl. Acad. Sci. USA 87:4576-4579.

Yang, Z. (1994). Maximum likelihood phylogenetic estimation from DNA sequences with variable rates over sites: approximate methods. J. Mol. Evol. 39:306-314.

Yang, R. and Keim, P. (2012). Microbial forensics: a powerful tool for pursuing bioterrorism perpetrators and the need for an international database. J. Bioterr. Biodef. S3:007.

Yang, Z. and Rannala, B. (1997). Bayesian phylogenetic inference using DNA sequences: a Markov chain Monte Carlo method. Mol. Biol. Evol. 14:717-724.

Yang, I.S., Lee, H.Y., Yang, W.I., and Shin, K.J. (2013). mtDNA profiler: a web application for the nomenclature and comparison of human mitochondrial DNA sequences. J. Forensic Sci. 58(4):972-980.

Yoshida, C.E., Kruczkiewicz, P., Laing, C.R. et al. (2016). The Salmonella In Silico Typing Resource (SISTR): an open web-accessible tool for rapidly typing and subtyping draft salmonella genome assemblies. PLoS One 11(1):e0147101.

Zuckerkandl, E. and Pauling, L. (1965). Molecules as documents of evolutionary history. J. Theor. Biol. 8:357-366.

Chapter 10

Expression Analysis

073

Introduction

PDF page 299；印刷页码 279

▶

第10章 Expression Analysis

10.1 Introduction

范围：PDF page 299；对应印刷页码 279。下一小节 Step 0: Choose an Expression Analysis Technology 已排除。

---

2003 年人类基因组完成测序，使我们第一次获得了一个相对完整的人类全部基因初步目录（Lander et al. 2001；Venter et al. 2001）。尽管自第一版草图序列发布以来，基因组本身以及其中编码的基因集合又经历了大量演化，但围绕基因表达如何被调控、以及这些表达数据如何用于刻画不同表型状态并探索其性质的问题，至今仍有许多尚未解决。事实上，我们已经知道：即便在同一个个体体内，同一套基因组也会在不同细胞类型中呈现出截然不同的表现形式，而这些基因表达谱还会随着不同条件而变化，包括健康状态与疾病状态之间的变化。

科学家在基因组完成测序之前就已经意识到这些问题的重要性，并发展出多种方法来检测不同表型之间 RNA 表达的差异。早期技术一次只能检测一个或少数几个基因，但 DNA microarray 技术的出现，使研究者能够同时检测大量基因，从而把表达分析扩展到全基因组尺度（Schena et al. 1995）。此后，DNA microarray 被广泛用于探索模式生物和人类疾病中的基因表达模式（DeRisi et al. 1996；Spellman et al. 1998；Golub et al. 1999；Perou et al. 1999；Callow et al. 2000；Konstantinopoulos et al. 2011）。

不过，基于 microarray 的早期基因表达分析也带来了明显挑战，许多早期研究都受到可重复性不足问题的困扰（Ioannidis et al. 2009；Ishmael et al. 2009）。随后，计算生物学家与实验生物学家在实验流程和分析方法上投入了大量工作，逐步建立起更加稳定的实验室操作规范和分析流程，使 DNA microarray 研究结果的一致性显著提高，同时也进一步凸显出严谨实验设计与重复设置的重要性（Hegde et al. 2000；Simon et al. 2002；Irizarry et al. 2003, 2005；Bolstad et al. 2004；Larkin et al. 2005；Quackenbush 2005）。

随后，ultra-high-throughput sequencing 技术的引入，又推动了 RNA sequencing (RNA-seq) 的发展。这类实验不再像 microarray 那样强烈依赖预先设定“要测哪些分子”的假设，而是能够以更开放的方式检测转录本（Kahvejian et al. 2008；Nagalakshmi et al. 2008）。虽然 RNA-seq 在表达测定的技术路径上与 microarray 明显不同，但稳健 RNA-seq 分析方法的建立，实际上仍然继承了许多在 DNA microarray 发展过程中总结出来的基本经验教训。

本章的目标，是按步骤介绍开展基因表达评估时需要考虑的问题与常用方法：从实验设计出发，逐步进入数据标准化、样本比较与结果解释等核心环节。虽然本章属于入门性介绍，但作者希望这里提供的内容能够成为读者后续深入研究的起点，并引导读者进一步系统学习本章涉及的各种方法。

074

Step 0: Choose an Expression Analysis Technology

PDF page 300 - PDF page 301（"The Choice is Yours" 结尾）；印刷页码 280-281

▶

Ch10 Step 0: Choose an Expression Analysis Technology

第10章表达分析 / 第0步：选择表达分析技术

---

引言

尽管 RNA-seq 目前是主流技术，看似从这个角度切入不太寻常，但 DNA microarray（DNA 微阵列）至今仍被广泛使用，并且在开发实验和分析方案时，它相对于 RNA-seq 的一些优势值得纳入考量。这两种技术的应用流程都始于从感兴趣样本中提取和纯化 RNA，并利用来自逆转录病毒的逆转录酶（reverse transcriptase）将这些 RNA 逆转录为互补 DNA（cDNA）。随后，通过测序或杂交的方式测定基因组中各基因的相对丰度。这些丰度数据再被用于下游分析，以理解不同生物状态之间基因表达模式的变化规律，并揭示这些变化如何帮助我们认识所研究系统的生物学特性。尽管现有技术在原理上存在共性，但它们之间也确有值得关注的差异。

---

DNA 微阵列（DNA Microarrays）

DNA 微阵列是首个实现全基因组层面基因表达分析的技术。DNA 微阵列的工作原理是检测溶液中标记的 cDNA 靶分子与固定在固相载体表面单链基因特异性 DNA 探针之间的杂交事件。尽管 DNA 微阵列在早期曾受到噪声问题的困扰，经常出现结果不可重复的情况，但技术的进步和分析方法的完善已大幅提升了其所产生数据的质量。DNA 微阵列还具有其他多项值得考虑的优势。

第一，DNA 微阵列的基因内容（gene content）是明确已知的，即每个被检测表达情况的基因或转录本都由一个或多个探针（或探针组）来代表。这种设计的一个好处是，我们事先就知道哪些基因会被检测；因此，通常可以相当有把握地判断某个特定基因是否表达以及其相对表达水平。虽然可能存在交叉杂交或其他伪影（如不同的杂交效率），但商业化阵列的质量和当今实验室操作流程的稳健性已经使检测质量和可重复性大幅提升。

第二，由于该技术已经相当成熟，几乎在微阵列分析的各个环节都有经过充分验证的分析方法可用。DNA 微阵列分析工具最核心的单一资源库是 Bioconductor，其中拥有大量、成熟的微阵列分析全流程方法。

第三，通过 Gene Expression Omnibus（GEO）和 ArrayExpress 数据库，可以获取海量的 DNA 微阵列数据资源。这些数据库提供了额外的独立数据集，可用于估算验证单个实验结果所需的样本量。

值得注意的是，尽管 Bioconductor 也包含许多 RNA-seq 数据分析方法，但在最佳实践的共识形成方面，RNA-seq 远不如微阵列分析成熟。此外，虽然 GEO 和 ArrayExpress 中也包含 RNA-seq 数据，但这些数据仅占这两个资源库总数据量的一小部分。虽然可以通过比较微阵列数据与 RNA-seq 数据来判断大致趋势，但无法直接将微阵列的杂交信号强度与 RNA-seq 的 reads 计数进行对比。

---

RNA-seq

RNA-seq 的历史可以追溯到 1990 年代的 cDNA 测序，以及 2000 年代初的基因表达系列分析（Serial Analysis of Gene Expression, SAGE）——一种允许对短 cDNA 片段进行测序的技术。然而，RNA-seq 真正发展成为独具特色的方法，是在过去十年间随着超高通量测序（ultra-high-throughput sequencing）的出现而实现的：从极少量的 RNA 出发，即可产生数千万条（甚至更多）序列 reads。

RNA-seq 之所以迅速成为基因表达谱分析的主流技术，原因有以下几点。

第一，RNA-seq 不仅能够测量"基因"的表达水平，还能提供单个等位基因（allele）和转录变体（transcript variant）表达水平的信息。尽管这种灵活性使得该技术具有独特性和开放性，但实际上很少有研究真正利用了这一能力，大多数分析仍回归到考察转录本的总表达水平。此规律的最显著例外是在癌症中利用 RNA-seq 识别融合转录本（fusion transcripts）——这是 DNA 微阵列完全无法实现的应用。

第二，RNA-seq 方法随着时间推移已显著改进，如今只需更少量的 RNA 即可作为起始材料。RNA-seq 的应用还包括来自单个细胞的转录组分析，这需要专门的分析方法来应对数据的稀疏性（见 Single-Cell Sequencing）。使用少量起始材料还意味着可以从单个生物样本中采集小型活检样本，或获取多种不同类型的数据（如 RNA-seq 和 DNA 甲基化数据），从而使整合分析变得可行。

第三，RNA-seq 不受预定义转录本集合的限制。RNA-seq 实验能够揭示尚未被描述的"新"基因的表达情况，包括非编码 RNA（non-coding RNA）的转录水平。RNA-seq 数据也可用于检测聚腺苷酸化病毒转录本序列（polyadenylated viral transcript sequences）。

---

选择权在你手中（The Choice is Yours）

尽管微阵列仍是一种可行的替代方案，但微阵列与 RNA-seq 之间的成本差距已降至使 RNA-seq 通常成为默认选择的程度。有鉴于此，本章将重点介绍 RNA-seq 分析，并在读者有兴趣了解微阵列表达分析方法时，引用本书的前版内容。然而，表达分析的许多通用原则是相通的，可以作为思考各类大规模基因组研究的通用模板，因此在下面的讨论中也会包含一些相关案例。

---

> 边界说明：PDF page 301 底部出现的 "Step 1: Design the Experiment" 及后续正文已排除，不属于本节范围；下一节将处理实验设计相关内容。

075

Step 1: Design the Experiment

PDF page 301 - PDF page 302（止于 Step 2 标题前）；印刷页码 281-282

▶

Ch10 Step 1: Design the Experiment

第10章表达分析 / 第1步：设计实验

---

实验设计的基本逻辑

在生物学中，大多数成功的实验都建立在成熟的假设检验（hypothesis testing）思想之上。我们首先识别一个问题，并提出一个可能的机制。随后，设计一种能够检验该假设的扰动方式，对系统施加干预，并收集数据，以观察是否出现与所提出机制一致的变化。我们在系统中观察到的响应，将支持或否定原先的假设。

在这类实验中，我们通常会尽量严格控制变量，从而精确测量它们的影响，并且一次只扰动一个参数。良好的实验设计还要求有足够的重复，以便估计我们希望测量的效应大小。

全基因组基因表达技术改变了我们处理生物学问题的方式。过去我们常常只关注单个基因，而现在可以同时考察某个系统中数千个基因的响应，并寻找与表型变化相关的表达模式改变。我们既可以利用这类大规模实验来检验既有假设，也可以根据基因表达模式的变化生成新的假设，再在后续实验中进一步验证。不过，基因组尺度技术所带来的观察范围和数据规模，并不意味着我们可以忽视实验设计与数据分析的严谨性。

像所有实验一样，一个基因表达谱实验应当始于一个定义明确的问题，并且实验必须收集足以回答该问题的数据。最常见的实验设计，是比较两组实验组别（groups 或 cohorts），例如处理组与对照组，或患病人群与健康人群。设计这类研究时，一个关键要素是确保实验具有足够数量的独立生物学重复（independent biological replicates），从而使处理组和对照组在样本规模上足以支持合理比较。

---

功效、验证与样本量

在大规模转录表达谱实验中，功效与样本量（power size）计算 notoriously difficult，也就是出了名地难做，原因很大程度上在于：表达水平本身波动很大，而相对效应大小在实验开展前通常并不清楚。一个可行策略，是先做一个小规模预实验（pilot experiment），从中识别潜在信号，用来估计效应大小，然后据此进行更严格的统计功效计算，并设计完整实验。

另一种策略，则是把视野放到原始实验之外，在整体方案中预先纳入验证阶段（validation stage）。例如，可以使用一种独立技术——如 reverse transcription polymerase chain reaction（逆转录聚合酶链式反应，RT-PCR）——去验证一个较小的“显著基因集”（significant gene set）；更理想的做法，是纳入一个独立的验证人群（validation population），再对其单独进行表达谱分析，以评估原始结果是否成立。

---

混杂因素、批次效应与元数据

另一个重要考虑，是设计一种能够避免混杂（confounding）并消除批次效应（batch effects）的实验策略。这既包括样本采集的实验安排，也包括基因表达数据采集的实施策略。具体而言，应尽量确保“处理组”和“对照组”样本在同一时间、相同条件下被采集；并且在 RNA 提取、文库构建以及测序数据生成等环节中，对样本进行合理混合（mixing）。

一个重要却常被忽视的问题是：待分析样本是否具有充分的元数据（metadata）。例如，如果分析的是乳腺癌样本，就必须了解每个样本的疾病亚型（disease subtype），并在实验设计阶段考虑各亚型的分布情况。如果缺少这些信息，再考虑到 RNA-seq 实验中样本数相对于被检测基因数往往很少，就很容易出现这样的情况：观察到的表达差异，其实只是样本被分配到不同组别时某种偏倚的结果。

作者举了一个具体例子：他们曾分析过一个据称能够根据原发肿瘤表达谱预测乳腺癌肺转移（lung metastasis）的基因特征（gene signature），后来却发现，用于识别该特征的所有发生转移的样本都属于 basal subtype（而这正是最容易向肺转移的亚型）。换句话说，这个特征实际上预测的是 basal subtype，而不一定是真正预测转移本身。因此，在分析数据之前，必须考虑处理组与对照组之间是否存在人口统计学差异（demographic differences），不同亚群患者所接受的治疗是否不同，患者是否来自不同医院或国家，以及样本是否以不同方式采集和处理。

信不信由你，这些混杂因素都曾在已发表研究中真实出现过，而且几乎都本可以事先避免。与其在数据分析阶段再费力解释这些问题，不如在实验开始之前就主动识别潜在混杂因素，这样更值得投入精力。

---

从分析策略反推实验设计

作者提出了一种非常实用的方法：先从你在数据收集完成后打算采用的分析策略（analytical strategy）出发，再反向推导实验设计。这样可以确保你拥有足够数量的样本，以及恰当且完整的元数据，从而保证所获得的数据和信息真正能够回答你的实验问题。

---

> 边界说明：本节止于 PDF page 302 中 Step 2 标题前；Step 2: Collect and Manage the Data – and Metadata 及其正文已排除，不属于本节范围。

076

Step 2: Collect and Manage the Data – and Metadata

PDF page 302 底部真实标题起 - PDF page 303 中部 Step 3 标题前；印刷页码 282-283

▶

Ch10 Step 2: Collect and Manage the Data – and Metadata

第10章表达分析 / 第2步：收集并管理数据——以及元数据

---

为什么这一步不能被忽视

一次转录表达谱实验，通常包括对对照系统施加某种扰动、采集生物学样本，然后生成最终要被分析的数据。乍看之下，收集并管理这些相关数据似乎是理所当然的事情，但现实中，这恰恰是一个经常被忽视、并且日后很容易“反噬”研究者的环节。

---

数据存在哪里不是最关键，关键是要有组织

处理这类问题的方法有很多。最简单的做法，是把数据存放在共享硬盘的某个文件夹中；更系统的做法，则是建立数据库，把最终数据统一纳入其中。无论采用哪一种策略，最重要的一点始终不变：必须保持组织有序，并清楚记录每一份数据分别对应哪个项目。

换句话说，这一步的核心并不在于你选用了多复杂的存储平台，而在于数据管理是否可追踪、可核对、可复现。如果样本、文件、项目和后续分析之间的对应关系没有被明确记录，那么即便前面的实验做得再认真，后面的分析也会很容易陷入混乱。

---

> 边界说明：本节从 PDF page 302 底部真实标题 Step 2: Collect and Manage the Data – and Metadata 开始，包含其在 PDF page 303 顶部延续的正文；PDF page 303 中部再次出现的 Step 3: Data Pre-Processing 标题及其后正文均已排除，不属于本节范围。

077

Step 3: Data Pre-Processing

PDF page 303 - PDF page 304 Step 4 标题前；印刷页码 283-284

▶

第 10 章表达分析

第 3 步：数据预处理（Step 3: Data Pre-Processing）

在数据分析的初始阶段，人们可以采用多种策略来管理数据：既可以将数据简单地存放在共享磁盘的某个文件夹中，也可以创建一个数据库来统一存放所有数据。无论选择哪种策略，最重要的是保持有序的组织习惯，并清楚地记录每份数据对应哪个项目。

在数据能够用于实验组之间的比较或其他任何用途之前，必须首先将原始数据映射到具体的基因或基因转录本。尽管这一步看起来相当简单，但实际上可以采用多种不同的方法——而这些不同的方法，自然也可能导致不同的最终结果。虽然存在许多公认的进行数据预处理的方法，但研究者应当注意并仔细记录自己在从原始数据中识别基因转录本时所做的选择。

DNA 微阵列

对于 DNA 微阵列而言，原始数据的映射似乎很简单，因为人们通常认为微阵列不过是由一系列针对每个目标基因设计的固定探针组成的阵列。然而，许多微阵列——最著名的是 Affymetrix GeneChip——实际上使用成组的探针（即"探针组"）来共同定义一个基因的表达。事实上，Affymetrix 芯片的设计不仅包含利用参考基因序列设计的"完全匹配"（perfect match, PM）探针组，还包含了"错配"（mismatch, MM）探针——这些探针的序列中央仅有一个碱基与参考序列不同。PM 探针用于提供杂交信号的估计值，而 MM 探针则用于估计由非特异性杂交和背景荧光造成的背景信号。

探针到基因的映射信息通常包含在"芯片设计文件"（chip design file, CDF）中，该文件作为输入进入任何分析流程的早期阶段，用于建立荧光强度与基因表达水平之间的映射。研究界对于究竟应该使用哪些数据来进行探针映射，存在相当大的争议：有人主张仅使用 PM 探针，有人开发了非标准的 CDF 文件，而大多数研究者则使用 Affymetrix 提供的 CDF 文件。与基因表达分析的许多其他方面一样，这里没有绝对正确的答案——只需要做出一个合理的选择，并记录下这一决定，以便他人能够重现分析。然而，研究者必须始终清楚探针映射到的是哪些基因标识符（以及这些标识符的哪个版本）——无论这些标识符是官方基因名、RefSeq ID、Ensembl ID 还是其他类型，因为这些决策都会影响后续涉及将表达数据映射到生物通路或功能分类系统（如 Gene Ontology, GO）以及使用基因集富集分析等技术时的分析结果。

RNA-seq

RNA-seq 面临着类似的一系列挑战，不过其映射过程的神秘性要低一些。RNA-seq 的原始输出是一组序列 reads，这些 reads 被映射到一组基因或基因转录本上。为此，最常用的方法是"基于参考序列的组装"（assembly on reference）：先将 reads 映射到基因转录本，然后进行组装，最后量化每个基因的整体代表性。在此过程中，参考数据库的选择决定了映射结果。研究者可以选择 RefSeq、Ensembl 基因或其他任何合适的参考序列。目前已开发出大量用于 reads 映射、组装和量化的算法，包括 Burrows-Wheeler aligner（BWA）（Li and Durbin, 2009）、Bowtie/Bowtie2（Langmead et al., 2009; Langmead and Salzberg, 2012）以及 STAR aligner（Dobin et al., 2013）。

近年来，为了应对日益庞大的 RNA-seq 数据集，研究者开发了伪比对（pseudo-alignment）和拟映射（quasi-mapping）方法，包括 Salmon（Patro et al., 2017）、Sailfish（Patro et al., 2014）和 Kallisto（Bray et al., 2016）。这些方法专门设计用于削弱大数据带来的计算复杂性，包括内存限制问题。伪比对和拟映射绕过了全比对的过程，其核心思想是用 k-mer 来表示转录组，然后通过哈希表将 k-mer 映射到 de Bruijn 图表示（一种表示 k-mer 之间重叠关系和映射路径的图形化方法）或后缀数组（suffix array，即一个 k-mer 的所有扩展或后缀的有序数组）。通过合理定义哈希函数，可以忽略参考序列的大部分内容，从而将 reads 查询映射到有限的潜在目标上。

小结

与基因组数据分析的许多方面一样，对于最优方法的选择目前尚无明确共识，而且方法本身也在不断演进。重要的是从标准方法中进行选择，对希望分析的数据始终如一地应用同一方法，并以确保分析可被重现的方式记录自己的选择——包括记录所使用的软件版本和数据库版本。

078

Step 4: Quality Control

PDF page 304 - PDF page 307 before Step 5；印刷页码 284-287

▶

Step 4: Quality Control

作为科学家进行的任何测量都包含误差。有些误差是随机的，分析所用的统计方法正是用来在自然变异中估计真实信号；有些误差是系统性的，同样可以用统计方法进行估计和处理。然而，有些误差源于失败的实验，最佳处理方式是识别并剔除这些失败实验产生的数据。在基因表达分析实验过程中，这类误差可能来自 RNA 样本中的污染物、劣质的实验试剂，或者简单的实验室操作失误。

一旦获得原始数据，最重要的问题之一就是判断这些数据是否具有足够的质量，能够进入后续的分析流程。尽管生物变异是任何数据集中都希望体现的特征，但毫无疑问，失败的实验应当从待分析数据集中剔除。实验室中的表达分析涉及许多复杂步骤，从降解的输入 RNA 到劣质试剂再到简单的操作失误，任何环节出问题都可能产生噪声水平极高的数据，使任何有意义的分析都无法进行。幸运的是，现已有一系列工具可用于分析微阵列表达分析和 RNA-seq 实验产生的数据，为微阵列和基于测序的数据提供了成熟的指标体系。与该领域的所有内容一样，用于分析这些数据的工具也在快速发展，因此建议读者关注相关文献综述或向正在进行基因表达分析的同行了解可能出现的新方法。

Quality Control Tools

Bioconductor 软件包 arrayQualityMetrics 提供了一套广泛的工具（包括许多从其他 Bioconductor 软件包整合而来），用于评估单色和双色微阵列数据的质量。作为 arrayQualityMetrics 包的输入，用户需提供一个微阵列强度矩阵，并可选地提供样本和探针信息，这些信息以 Bioconductor 对象形式组织，如 AffyBatch、ExpressionSet、NChannelSet 或 BeadLevelList 对象——这些对象将不同技术的表达数据与表型信息相关联。arrayQualityMetrics 的输出包括每个阵列的伪彩色图像和 MA 图，用于评估数据质量。在 MA 图中，M 值是两个强度的对数比，A 值是强度的对数平均值。对于双色阵列，这些图使用每个通道的强度；对于单色阵列，M 值使用每个样本的中位强度作为比值的分母。图 10.1 展示了一个在标准化前后 MA 图的示例，其中可见标准化过程消除了水平轴以下的系统性曲率。

还有其他多种诊断图可用于识别单个劣质阵列或整体较差的数据集。这些包括来自 affy 包的 RNA 降解图（Gautier et al. 2004）、来自 affyPLM 包的相对对数表达（RLE）箱线图和归一化未缩放标准误差（NUSE）箱线图（Brettschneider et al. 2008），以及来自 simpleaffy 包的 QC 统计图（Wilson and Miller 2005）。这些质量控制工具的结果被整合到一个 HTML 文档中，为理解已收集的原始数据提供了宝贵的资源。

对于 RNA-seq，FastQC 是一个广泛使用的软件包，以与微阵列 arrayQualityMetrics 包非常相似的方式，为原始高通量测序数据提供了一系列简单的质量控制检查。FastQC 包含多个分析模块，允许用户探索序列质量的各个方面，提供多个汇总图和表格，并将结果导出为基于 HTML 的报告。FastQC 中的模块可提供基本统计信息，包括 reads 数量、读长和 GC 含量。用户还可以查看箱线图，显示沿所有 reads 每个位置上序列质量分数的逐位评估，以及每个序列质量分数的分布图。这两种图都可以对测序运行的整体质量提供良好的评估。

另一个用于评估整体序列质量的有用图是 per base sequence content（逐碱基序列组成）。对于任何基因组，GC 含量应沿任意随机序列 reads 的长度保持一致，即 %A = %T 且 %G = %C。然而，文库制备方案通常会在待测 DNA 的 5' 端连接短的引物和接头序列，而这正是预期看到 GC 分布显著偏离的位置。相关的度量是 per base N content（逐碱基 N 含量），用于量化因无法以足够置信度调用碱基而将定义核苷酸替换为 N 的频率；该信息有助于识别测序反应中的失败循环。

图 10.2 展示了一组 RNA-seq 样本相对于参考序列的碱基错配（MM）率直方图示例。虽然大多数样本的 MM 率较低，但仍有一些离群值可从下游分析中移除。还有其他工具可识别异常的序列重复水平、过度代表的序列、未检出的接头和过度代表的 k-mers。FastQC 还包含用于分析 microRNA、宏基因组序列和表观遗传学检测（如甲基-seq）的工具。

提供研究整体质量概览的一个令人兴奋的新工具是 MultiQC。该工具将多个样本的质量控制报告（来自 FastQC 以及其他工具）聚合在一起，在单个易于阅读和理解的 HTML 报告中呈现，可帮助识别并随后从分析中移除低质量样本。

Screening for Misidentified Samples: PCA on Y Chromosome Expression

我们尚未触及的一个要素是与每个样本关联的注释质量。任何分析最终都依赖于将样本分配到不同组别、比较组间表达水平，以及确保没有可能扭曲分析的混杂因素。分析的质量（以及我们对结论的信心）取决于个体被分配到特定组的可靠性；这反过来又取决于我们是否能准确地将每个样本与适当的注释元数据（如个体的性别、年龄、治疗状态和其他表型数据）相关联。虽然这看起来相对简单，但样本的错误注释是一个比人们预期更常见的问题。例如，发现 GEO 中 46% 的研究存在劣质或错误的注释——这些错误在提交前通过简单的验证步骤就可以很容易地识别出来（Toker et al. 2016）。

通常很难测试样本注释的准确性，因为大多数实验的目的通常是发现组间差异，而不是利用已知差异将样本分配到组别。不过，对于几乎任何数据集都可以运行一项测试来了解样本注释的质量：男性和女性的注释是否正确。如果简单地查看 Y 染色体基因的表达并进行主成分分析（PCA；见 Principal Component Analysis），则预期会发现两个明显不同的组，因为女性不表达 Y 染色体基因（Paulson et al. 2017）。

作为一个示例，我们分析了来自 The Cancer Genome Atlas（TCGA；来自 Genomic Data Commons [GDC] Data Portal）的结直肠癌基因表达数据，以及来自 GEO 的五个结直肠癌数据集（GSE14333、GSE17538、GSE33113、GSE37892 和 GSE39582）。当我们使用 PCA（见 Principal Component Analysis）分析 Y 染色体基因的表达时，发现了两组明显不同的样本——一组表达这些基因（因此可能是男性），另一组仅有背景噪声水平的表达（因此可能是女性）。然而，我们发现 TCGA 的 456 个样本中有 11 个（2%）存在性别错标：有些样本虽标注为女性，却与男性样本聚类（因此表达 Y 染色体基因）；另一些则应为相反情况。相比之下，在 GEO 数据集中，我们发现 1376 个样本中有 85 个（6%）按性别错误聚类。虽然我们可以从下游分析中移除这些错标样本，但我们放弃了其中一个 GEO 研究，因为其错标率接近 15%，这让我们对其余样本注释的真实性也产生了怀疑。

079

Step 5: Normalization and Batch Effects

PDF page 307-311（含 Figure 10.4 图注；止于 Step 6 正文前）；印刷页码 287-291

▶

Step 5: Normalization and Batch Effects

The Importance of Normalizing and Batch-Correcting Data

任何基因表达分析的输出，都可以表示为一个由正值填充的表达矩阵，这些数值代表每个样本中每个探针或基因的观测表达水平。对于 RNA-seq 数据，这类数据也可表示为“计数矩阵（count matrix）”C：其中每一行对应一个基因，每一列对应一个样本，而矩阵中每个位置的条目则表示在该特定样本中比对到该基因的 reads 数目。

可将其形式化写为：C = [c11 c12 … c1n; c21 c22 … c2n; … ; cm1 cm2 … cmn]。

如果世界足够完美，我们只需逐基因比较不同样本组之间的表达值或 read counts，就能直接比较它们的表达水平。但现实中有许多因素会扭曲这些数据，例如起始 RNA 量不相等、文库制备中的伪差、杂交或测序效率差异，以及其他各种问题。

标准化（normalization）是数据分析中的常规步骤，它使我们能够在不同样本或不同数据集之间进行可比的比较。比如在 northern blot 分析中，常会使用 actin 或 GAPDH 这类 housekeeping genes 来校正每个样本中其他基因的杂交信号，以补偿实验中样本量的变化。这里隐含的假设是：一个或多个基因在所有样本中的表达水平保持一致，因此可以把这种“基线”用作校正其他基因测量值的参照。总体而言，存在若干类标准化过程，可用于实现样本间或基因间的比较。

FPKM and Count Data

在 DNA microarray 中，每个基因通常由一组大体等价的探针表示。例如，在 Affymetrix 芯片上，基因由 probe sets 表示。每个 probe set 中的探针长度均为 25 bp，并包含一一对应的 PM 和 MM probes，它们只在一个碱基上不同（而且恰好位于探针正中间）。此外，每个 probe set 所含探针数相同，并定位于其目标转录本的 3' 端附近，以尽量保证从 RNA 制备杂交文库时具有近似一致的效率。

但在 RNA-seq 数据分析中，按基因进行标准化时考虑的问题会有所不同。RNA-seq 需要先制备文库并测序；如果只是简单统计每个基因获得的 reads 数，那么较长的基因天然更可能获得比短基因更多的 reads。因此，原始计数数据通常会被转换为 reads per kilobase million（RPKM）、fragments per kilobase million（FPKM）或 transcripts per million（TPM）等数值。三者的计算方式略有差别，但都以将 reads 比对到转录本并对结果进行缩放为起点。

RPKM 的计算方式是：先统计比对到某个转录本的 reads 数目，再除以“每百万比对到基因组的 reads 数”，并进一步按该基因长度进行标准化。最后这一步是为了校正这样一个事实：一个 2 kb 的基因天然会比一个 1 kb 的基因多获得大约两倍的 reads。例如，若有 400 万条 reads 比对到某个基因组，其中 5000 条比对到一个长度为 2 kb 的特定基因，则该基因的 RPKM 值为 625（[5000/2]/4）。FPKM 是 RPKM 的扩展形式，适用于 paired-end sequencing，因为在这种情形下，一个 RNA-seq 文库片段的两端都会被测序。FPKM 的基本思想与 RPKM 相同，只是额外考虑到两条 reads 可能来自同一个片段。

TPM 与上述指标相似，但它被标准化到统一的“每百万”尺度上，因此更便于样本间比较。TPM 的计算方法是：先对每个基因，用 reads（或转录本数）除以该基因的长度（单位为 kb），得到每个基因的 reads per kilobase（RPK）值；然后将基因组中所有基因的 RPK 值求和，得到累计 RPK；再将该累计值除以 100 万，得到一个“scaling value”；最后，再用每个基因的 RPK 除以这个 scaling value，即得到每个基因的 TPM。概念上，TPM 与 microarray 的测量值最为接近，因为它既考虑了每个基因的长度，也比较了标准化后的转录本计数。

Sample and Quantile Normalization

随着使用 DNA microarrays 产生的高通量基因表达数据分析越来越多，人们很快发现，所谓存在“恒定不变”的 housekeeping genes 这一假设并不成立；事实上，所有基因的表达水平都会发生变化。在缺乏可靠参照的情况下，新一代标准化方法的重点转向：考察一个样本中所有基因表达水平的分布，再将不同样本的分布调整得彼此相似。

最初，人们曾采用对单个样本的平均表达水平或中位表达水平进行校正的方法，但这类方法无法补偿由实验伪差导致的分布差异。如果我们假设一个细胞所能产生的 RNA 总量是有限的，那么当某些基因表达升高时，其他基因的表达就应相应降低，从而使相关样本的整体表达分布保持一致。

从概念上讲，一种简单做法是观察基因表达值的分布，并将其切分为更小的区间，也就是 quantiles（分位区间）。随后，可以按 quantile 逐段调整数据，使实验中的所有样本都具有相同的分布，从而能够比较任意特定基因在不同样本之间的表达变化。这个思路听起来相对简单，但仍值得更细致地看一看它的具体过程。

图 10.3 用一个包含 4 个样本和 6 个基因的例子展示了 quantile normalization 的过程。我们把这些测量值表示为一个 genes-by-samples 矩阵，并用三个简单步骤实现标准化。第一步，按照图中的蓝色箭头，对每个基因计算其在所有样本中的中位值，并将这些中位值从低到高排序。第二步，按照绿色箭头，对每个待分析样本，将每个基因的表达值替换为它在该样本内从低到高的秩（rank），从而得到一个 rank matrix。第三步，按照金色箭头，将 rank matrix 与上述排序后的中位值集合结合起来，用对应秩次的中位值替换 rank matrix 中的秩值。

在该图示例中，所有 rank 1 的基因都被赋予表达值 6，所有 rank 2 的基因都被赋予表达值 9，依此类推，于是原始数值就被这些按秩排序后的中位值所替代。这种方法背后的一个重要假设是：所选参考对于所有样本都适用；但在底层生物学差异较大的情况下（例如同时分析多种组织类型），这一假设未必成立。尽管这一过程乍看之下有些反直觉，但研究表明，这种方法能产生稳健且具有可重复性的表达值，从而可在样本间进行比较（Bolstad et al. 2003）。

Figure 10.3 展示了 quantile normalization 的总体思路：左上角方框中给出了 4 个样本、6 个基因的表达数据；首先计算每个基因的中位表达值并从低到高排序（蓝色箭头）；然后根据各样本中的表达高低对基因排序（绿色箭头）；最后，用排序后中位值中对应秩次的数值替换 rank matrix 中的秩（黄色箭头）。

Additional Methods of Sample Normalization

标准化方法的选择几乎是任何基因表达分析讨论中最容易引发争议的问题之一，因为每种方法都依赖一组特定假设，而这些假设对具体数据集而言，可能有人认为合理，也可能有人认为并不充分。下面介绍 4 种已被广泛使用的补充标准化方法（Li et al. 2015）。

Counts per Million

counts per million（CPM）缩放方法与 TPM 相似，都是把计数值标准化到统一的“每百万”尺度上，以便更容易在样本之间进行比较。CPM 及其他缩放方法的基本假设是：每个细胞产生的 RNA 总量大致相同，因此总 reads 数或总 counts 应该保持恒定。计算 CPM 时，只需先汇总每个样本的 reads 总数，再对所有样本的 read counts 做缩放，使其总量相等。CPM、TPM 以及按基因长度标准化后的数值，都是 RNA-seq 早期基因表达分析中最常见的标准化方法。

Upper Quantile Normalization

这种缩放方法假定：在低到中等表达水平范围内，各样本的计数分布彼此相似，但在高于第 75 个分位点后开始出现偏离。该方法的做法很直接：将各样本中低于第 75 分位点的 counts 规模调整为彼此一致，并令标准化后的计数 yij 按如下方式缩放：yij = cij / q75j。

Relative Log Expression

这种方法假设：各样本中的计数值与跨样本的基因表达几何均值高度一致，并且 read count 的频率会随着测序深度呈指数增长。RLE 使用每个样本的几何均值，并对样本中的 reads 进行缩放，使所有样本的几何均值相同。对于每个样本，其标准化因子被定义为：特征 read counts 与所有样本对应 read counts 几何均值之比的中位数。DESeq（Anders and Huber 2010）和 DESeq2（Love et al. 2014）都采用该方法作为默认标准化策略，后文还会继续介绍这两个框架。

Trimmed Mean of M Values

trimmed mean of M values（TMM）方法建立在“绝大多数基因并不存在差异表达”这一假设之上。TMM 选取一个样本作为参考，然后将其余每个样本与该参考进行比较，计算 log fold-change（在 microarray 分析中通常称为 “M” 值），去掉最外侧 30% 的 M 值，再计算平均 M0 值，并将其缩放到所有样本之间相等。TMM 被用于 edgeR（Robinson et al. 2010）的检验框架中，后文也会进一步讨论 edgeR。

Batch Correction

batch correction（批次校正）是任何大规模基因组学分析中的另一个关键环节；更广泛地说，凡是以分组方式采集测量值、或者在不同时间采集不同样本的科学研究，都会面临这一问题。所谓 batch effects，是指由系统性误差带来的偏差来源，例如使用了不同批次的试剂、处于不同实验室条件、处理了不同时间采集但相似的样本，或者仅仅因为不同实验人员执行同一实验时存在内在差异。由于每个样本通常都会产生大量测量值，因此在高通量实验中，batch effects 尤其明显。

抵御 batch effects 的第一道防线，是良好的实验设计。理想情况下，应尽量在同一时间采集所有样本，并在同一时间、同样条件下、使用同一批试剂完成检测。对于样本量很大的研究，这通常并不现实；这时次优但非常重要的策略，是在实验的每个环节都混合安排 cases 和 controls，避免样本分组与批次效应发生混杂。举例来说，如果周一测 controls、周二测 cases，那么任何可能出现的 batch effect 都会与 case/control 状态完全纠缠在一起，使得差异根本无法分辨。而若将 cases 与 controls 混合处理，就能在很大程度上抵消潜在的批次影响。

检测 batch effects 的一个非常简便的方法，是基于基因表达数据绘制 PCA 图（见 Principal Component Analysis），其中图中的每个点代表一个样本。首先，可以按实验条件给点着色（例如 cases 与 controls）。在理想情况下，我们希望看到不同条件之间有清晰分离；但现实中看到的结果，会取决于信号、噪声以及潜在 batch effects 的共同作用。接着，还可以根据其他相关变量重新给这些点着色，比如样本采集日期、RNA 提取日期、标记或文库构建日期、芯片批次或测序运行批次等，以观察是否出现某种模式。理想状态下，PCA 图中除条件分离外不应出现其他结构；但事实上，经常会看到同一批次的样本聚在一起，或不同批次彼此分离。批次效应校正试图控制的，正是这些差异。若希望更高通量地识别问题，则突出显示 PCA 成分与表型变量、批次变量之间的相关性，通常是一种很有用的技术。图 10.4 就给出了一个逐步展示这一过程的示例。

需要指出的是，尽管 PCA 非常有用，但它通常只能捕捉较大的 batch effects。实际上，单个基因或某些基因子集也可能受到实验条件的不利影响，从而改变任何下游分析的结论。

幸运的是，目前已经发展出一些方法，能够处理 batch artifacts：它们通过识别与批次相关的实验信号，并对这些信号进行校正，从而更好地识别真正与实验分组相关的差异表达基因。

两种广泛使用的批次校正方法是 COMBAT（Johnson et al. 2007）和 surrogate variable analysis（SVA；Leek et al. 2012）。这两种方法都会检查表达数据，寻找那些与 batch 相关的基因；而在 SVA 中，相关对象还可以是其他非生物学变量。然而，正如前文所述，只有在相关生物学变量没有与这些非生物学变量发生混杂时，才能识别并纠正这些关联。例如，如果所有 cases 都在一个批次中运行，而所有 controls 都在下一个批次中运行，那么 batch effects 就会与表型完全混杂；这样一来，某些本来由非生物学因素导致的差异，就会被误判为真实的生物学差异。要发现并消除 batch effects，就必须尽可能让每一个实验组都在每一个实验室批次中得到代表。

Figure 10.4 展示了一个 batch effects 的 PCA 示例。图中使用 BatchQC 软件及其 vignette 所模拟的数据：(a) 为前两个主成分的 PCA 散点图，点代表样本，并按 phenotype condition 着色；(b) 为模拟基因表达数据在各样本中的箱线图，同样按 phenotype condition 着色；(c, d) 则展示了相同数据，但按测序“batch”着色，此时可以看到第一主成分以及基因表达值都出现了显著的批次差异。

080

Step 6: Exploratory Data Analysis

PDF page 311 - PDF page 316（止于 Step 7 标题前）；印刷页码 291-296

▶

第六步：探索性数据分析

在大规模基因组数据的分析过程中，一个常见的问题是：某一群体中是否存在由独特基因表达模式所定义的亚群？这个问题只有在拥有足够数据来搜索可用于识别和区分群体的模式时，才能得到合理的回答。这类无偏倚搜索所使用的方法称为无监督方法（unsupervised methods），因为它们是去发现模式，而非去验证是否能区分预先定义的组别。在这一大类方法中，最常用的三种是：层次聚类、主成分分析（PCA）和非负矩阵分解（NMF）。

如前所述，表达数据的一种便捷表示方式是表达矩阵（expression matrix）——一个基因×样本矩阵，其中每一行是一个"基因向量"（gene vector），代表某一基因在所有样本中的表达水平；每一列是一个"样本向量"（sample vector），代表单个样本中所有基因的表达水平；矩阵中的每个元素代表某一基因在某一样本中的表达值。热图（heatmap）是该矩阵的一种可视化形式，其中每个单元格的着色取决于其信号的强度。层次聚类与 NMF 都根据共有的表达模式对样本和/或基因的子集进行分组，并在热图背景下可视化结果。PCA 则对样本或基因的表达向量（即矩阵的行或列）进行运算。

层次聚类

层次聚类（Hierarchical Clustering）已成为基因表达数据分析中应用最广泛的技术之一，其优势在于方法简单、结果易于可视化（Eisen et al. 1998; Michaels et al. 1998; Wen et al. 1998）。初始时，以 N 个聚类开始，其中 N 为目标数据集中的样本数（或基因数）。层次聚类是一种聚合式方法（agglomerative approach）：单个表达谱被逐步连接形成节点，这些节点又进一步连接，直到过程完成，最终形成一棵层次树。

层次聚类的核心逻辑是：找出彼此最接近的向量，然后根据它们之间的距离将样本归为一组。当然，根据表达谱来测量样本（或基因）之间的距离有多种方式，其中最常用的两种是：欧氏距离（Euclidean distance measure，适用于基因表达的绝对水平重要的情况）和皮尔逊相关系数距离（Pearson correlation distance measure，适用于关注相关性模式的情况）。

选择好距离度量方法后（图 10.5），算法以直接的方式推进。以下说明假设是对样本进行分组，但聚类过程同样适用于基因。

计算所有待聚类样本之间的成对距离矩阵。
在距离矩阵中搜索最相似的两个样本或两个聚类。初始时，每个聚类仅包含一个样本。如果若干对样本恰好具有完全相同的相似度得分，通常随机选择其中一对，但也可以用其他方法来决定选择哪一对。
将选中的两个聚类合并，生成一个新的聚类，该聚类现在包含两个或更多对象。
计算这个新聚类与所有其他聚类之间的距离。无需重新计算所有距离，因为只有涉及新聚类的距离发生了变化。
重复步骤 2–4，直到所有对象归入一个聚类。

图 10.5 展示了层次聚类过程的简化示意。(a) 反复搜索彼此"接近"的样本或样本组，并将它们逐步合并形成更大的聚类。(b) 对应的层次聚类树状图（dendrogram），根据评估得到的相似性将样本连接在一起。

层次聚类方法有多种变体，反映了计算新定义聚类与其他基因或聚类之间距离的不同策略（即所谓的聚合方法，agglomeration methods）：

单连锁聚类（single linkage clustering）：使用一个聚类与另一聚类之间的最短距离。
完全连锁聚类（complete linkage clustering）：取任意两个聚类之间的最大距离。
平均连锁聚类（average linkage clustering）：使用两个聚类之间的平均距离。

通常，样本之间的关系使用树状图（dendrogram）来表示，树中的分支根据聚类过程中的连接关系构建。为了可视化样本之间的关系，用树状图重新排列表达矩阵热图中的行（或列，视情况而定），以显示数据集中的模式（图 10.6）。

图 10.6 热图展示了三个不同心脏组织中 100 个变异性最高基因的基因表达聚类。该热图中的表达水平经过行 Z-score 标准化，以最佳呈现表达差异。低表达用蓝色表示，高表达用红色表示。顶部的树状图使用欧氏距离进行层次聚类，表明三个组织（顶部颜色条）的样本聚为三组。左侧组织（绿色）对这组基因的表达较低，而中间组织（灰色）和右侧组织（橙色）的表达较高。基因集中有一小部分在右侧组织高表达，而在其他两个组织中低表达。

树状图的树形结构使其有助于识别在外观上可以将样本分成若干聚类的位置。然而，与其使用"肉眼检验"，不如使用客观方法来确定聚类的数量及其成员——幸运的是，有多种方式可以搜索这样的分组。

一种方法是直接利用构建聚类时计算的距离，作为每个单独聚类连通性的度量。当从单个元素沿着树状图向上移动时，聚类之间的距离增加；因此，随着距离阈值的增加，有效聚类数减少。另一种方法是使用自助法（bootstrapping）或刀切法（jack-knife）来测量树状图中关系的稳定性，并以此作为聚类数的度量。有多种自助法可以使用，但最简单的一种是：带放回地对数据集进行抽样，每次计算一棵新的层次聚类树状图，然后简单地统计树状图中每个分支被恢复的频率；以树状图上的百分比截断值来设定聚类数。在对基因聚类稳定性进行自助法估计时，应对生物样本集合进行重抽样；而在估计生物样本中的聚类数时，则应对基因表达向量进行自助法。刀切法类似，但并非重抽样，而是依次留出相应的向量，计算新的树状图，直到所有向量都被考虑过。同样，根据每个分支关系在树状图中被恢复的频率来估计每个聚类的稳定性。

许多层次聚类方法存在一个潜在问题：随着聚类的增长，用于计算距离的聚类表达向量可能不再准确地代表聚类内部的任何元素。例如，在对基因进行聚类时，每个聚类的"中心"通常是该聚类中所有基因的平均值；由此产生的基因表达向量的线性组合有时被称为元基因（metagene）。因此，随着聚类的推进，基因本身的实际表达模式变得不那么相关。此外，如果在过程早期做出了错误的聚类分配，该错误将被固定下来且无法纠正。一种可以避免这些问题的替代方案是使用分裂式聚类方法（如 k-means），将数据（基因或样本）划分为具有相似表达模式的组。

尽管聚类方法适用于任何数据集，但在实践中，对于其中许多基因在样本间并不变异的大型数据集，聚类往往效果不佳。因此，可以首先对数据应用统计过滤，选择在实验组之间变异性最大的基因。然而，这种过滤可能会给聚类带来偏差。如果选择能够区分两个实验组的基因，那么过滤最可能产生的结果将是两个聚类恰好落入预先定义的两个实验组中。更无偏的方法是：直接计算每个基因在样本群体中的方差，然后删除在数据集中变化不显著的基因——因为这些基因最不可能揭示样本收集中存在的亚类。但这种方法依赖于各实验组之间有良好的样本平衡。

主成分分析

如果我们观察一个样本×基因的表达矩阵，可以想象每个样本在每个被评估的约 25 000 个基因上都有其独特的表达水平。那么，每个样本都可以表示为该 25 000 维"基因表达状态空间"中的一个点。不难想象，样本集合可以可视化为该 25 000 维空间中的一团点云。然而，许多基因的表达水平可能是相关的，因此它们并不能提供太多可用于分离样本和区分点云中不同样本组的信息。

PCA（图 10.7）是一种降维方法（dimensionality reduction method），它搜索表达水平（即基因表达水平）变量的线性组合，以最佳解释样本之间的方差，然后将数据转换，使基因表达的特征向量（eigenvector。线性变换的特征向量是指当该变换作用于该非零向量时，所有值按相同的标量因子发生变化）按最佳分离数据的顺序排列。这样，数据被转换后，第一个"主成分"解释了数据集中最大的变异量，第二个主成分解释次大的变异量，依此类推。使用这些特征向量坐标来绘制数据，通常更容易可视化样本分离为不同组的情况。这反过来有助于理解表达数据集中的样本是否聚为具有基因表达巨大差异的特定子集。PCA 也是一个良好的质量控制工具，因为技术变异（如批次效应）可以通过直观检查 PCA 图来轻松检测。

图 10.7 对来自 GTEx（Genotype-Tissue Expression）项目 v6 版本的皮肤、全血及由这些组织衍生的细胞系的归一化基因表达矩阵进行主成分分析（PCA）得到的前两个主成分散点图。每个点代表一个样本，并根据其来源着色。第一主成分（PC1）分离了组织类型，第二主成分（PC2）将组织与细胞系分开。

PCA 建立在底层基因×样本表达矩阵的一系列简单线性代数变换之上。PCA 的工作流程示意图如图 10.8 所示。

首先对矩阵（这里是矩阵的行，即基因）进行标准化，使每个基因的表达范围处于相同的尺度。
计算协方差矩阵（covariance matrix），其中条目 ij 是基因 i 与基因 j 之间的协方差。两个基因之间的协方差基本上衡量的是它们在群体中所有样本的表达偏差是否相关。
计算协方差矩阵的特征向量和特征值。特征向量是与协方差矩阵相乘后返回相同向量的向量，其中每个值乘以一个标量因子（即相应的特征值）。特征向量（或主成分）是矩阵的不变量，是基因的线性组合（因此有时被称为"特征基因"，eigengenes）。
用特征向量来重新表述原始数据。这通过将原始表达矩阵乘以特征向量矩阵来实现。
在新特征向量（彼此正交，类似于 x–y–z 轴）的基上绘制结果。

图 10.8 主成分分析（PCA）是一种降维方法，用于识别数据中捕获最大变异的变量组合，然后在主成分空间中绘制数据。此处，点代表在更高维"表达空间"中的实验，每个样本都有自己独特的表达谱（因此有独特的坐标）。PCA 识别数据变异最大的正交轴，并计算作为各基因线性组合的新坐标轴。然后将样本投影到"PC 空间"，通常只绘制前几个主成分。从数学上讲，PCA 将基因×样本矩阵分解为基因×模式矩阵（其列为各主成分）和模式×样本矩阵。在这种情况下，主成分有时被称为"元基因"（metagenes），因为它们是基因的线性组合。

在这一框架下，第一个特征向量解释了数据中最大的变异量；第二个特征向量解释次大的变异量，依此类推。在二维或三维图中，通常会检查样本的分布，按批次、受试者性别或处理组等着色，观察各种系统性因素和生物因素如何影响数据中的变异。

非负矩阵分解

NMF 是另一种降维方法。它将基因表达数据建模为两个非负矩阵的乘积，通过将基因汇总为更少数量的所谓"元基因"（meta-genes）。在 NMF 中，我们从一个 n × m（基因×样本）的表达矩阵 R 开始。我们使用一个 n × k 的特征矩阵 P，它包含每个基因在 k 个聚类中的质心值。用一个 n × k 的权重矩阵 Q 乘以 P，Q 提供了将 R 的列表示为 P 列的非负线性组合的权重。得到的乘积 R̂ 是原始矩阵 R 的近似：

R ≈ P × Q^T = R̂

上述说明中隐藏了一个关键点：NMF 需要事先了解数据中可能存在多少个实验组（k）。

在实践中，往往并不知道数据集中预期有多少个实验组，因此常见的做法是用多个 k 值运行该方法，然后选择最能解释所研究系统生物学的划分方式。在此探索性分析中，一个有用的定量指标是共表型系数（cophenetic coefficient），它衡量的是基因必须有多相似才能被归入同一聚类——本质上是组内距离与组间距离之比。一种广泛使用的方法是绘制共表型系数图，然后寻找其值的急剧下降（表明真正的聚类正在被过度分割），以此来选择最优的 k 值。这种图的示例如图 10.9 所示。

图 10.9 NMF 共表型系数图——见 PDF 第 296/297 页。

---

第六步完

（下一节：第七步：差异表达分析——PDF 第 316 页）

081

Step 7: Differential Expression Analysis

PDF page 316 - PDF page 320 before Step 8；印刷页码 296-300

▶

第七步：差异表达分析

虽然探索性数据分析非常有用，但大多数基因表达实验的设计目的，仍然是检验这样一个假设：表型差异是否与功能相关基因的表达差异有关。检验这一假设最直接的方法，是判断是否存在一批基因在不同样本组之间表现出显著不同的表达水平。

在基因表达分析的早期应用中，人们常常先施加一个生物学过滤条件（biological filter），即寻找在不同条件之间平均变化达到 2 倍或以上的基因，这就是所谓的倍数变化过滤（fold-change filter）。这种做法对很多生物学家来说较为直观，但它忽略了基因表达的变化幅度与波动性。因此，差异表达的统计学评估很快就成为判断转录差异的标准方法。

然而，基因表达统计分析面临的最大问题在于：我们通常同时测量的是成千上万个基因，而样本数往往只有几十到几百个。这就带来了多重检验（multiple testing）问题——当测量项目远多于样本数时，即便完全出于随机波动，也很可能会出现一些看似在组间不同的基因。幸运的是，针对这一问题已经发展出了多种校正方法。为了理解如何更可靠地识别显著差异，首先需要了解常用差异检验方法及其背后的基本假设。

Student's t-Test: The Father of Them All

Student's t-test，通常简称 t 检验，是各学科中最常用的两组差异检验方法之一。它本质上可以看作一种信号与噪声的比较：先比较两组样本的平均表达水平，再利用标准差来判断两组均值差异是否足够显著。换句话说，t 检验衡量的是：均值差异相对于数据波动是否足够大，并据此估计观察到的差异由随机因素造成的概率。

根据具体问题不同，t 检验有多种形式：

双侧 t 检验（two-sided t-test）：检验某基因在两组之间是否存在高低任一方向的差异；
单侧 t 检验（one-sided t-test）：检验某基因在一组中是否显著高于另一组；
配对 t 检验（paired t-test）：用于配对样本设计，判断组间表达差异是否超过随机预期。

对于多于两组的比较，t 检验可以推广为 F-test 或 方差分析（analysis of variance, ANOVA）。

在表达分析中，如果实验具有配对设计（例如患者与匹配对照），配对 t 检验尤其常用。传统 t 检验默认数据近似服从正态分布，因此它不能直接修正基因表达研究中常见的均值—方差依赖关系（mean-variance dependency）。一种改进办法是使用经验 t 检验（empirical t-test）：在不同组之间反复置换样本，针对每个基因反复计算 t 统计量，再判断真实数据得到的 t 统计量是否显著高于置换数据的预期水平。

不过，t 检验的所有变体都面临同一个核心困难：多重检验问题。由于被检测的基因数远多于样本数，即便基因在真实生物学上并无差异，也可能仅因偶然而显得显著。因此，人们投入了大量工作来开发更稳健的方法，以识别实验组之间真正存在差异表达的基因。下面概览几类目前仍广泛使用的方法。

Limma

Limma（linear models for microarray and RNA-seq data）最初是为微阵列数据分析开发的，后来也被广泛用于 RNA-seq 数据分析。Limma 的做法是：为每个基因的表达水平拟合一个线性模型，然后使用moderated t-test 来识别显著差异表达基因。

这里的 moderated t-test 建立在一种经验贝叶斯方法（empirical Bayesian method）之上。与标准 t 检验不同，它会根据表达水平对方差进行缩放，并利用合并方差估计（pooled estimate of variance）和自由度（degrees of freedom）来更稳定地估计显著性。因此，即使样本量较小，Limma 也通常能够给出更稳定的统计推断。

此外，Limma 默认倾向于报告假发现率（false discovery rate, FDR）的估计，而不是只给出简单的 p 值。对于高维基因表达数据来说，这一点尤其重要，因为 FDR 比单个检验的 p 值更能反映整体显著结果中的错误发现风险。

Voom

负二项模型（negative binomial model）是处理计数型数据的重要方法之一，但在样本量较大时，直接计算负二项分布的代价可能较高，这会使一些方法（如 DESeq 和 edgeR）在某些场景下显得较为笨重。虽然对 RNA-seq 原始计数做对数转换（log transformation）有助于标准化数据，但这样做往往又会进一步扭曲方差估计。

Voom（variance modeling at the observational level）的核心思想，是为每个基因经验性建模其均值—方差关系：它把每个基因的 counts per million 的对数值（log-cpm）的标准差，建模为平均对数计数的函数。随后，Voom 将这一均值—方差趋势转化为每个观测值的精度权重（precision weight），并把这些权重纳入 Limma 的分析流程中。

这样做的好处在于：RNA-seq 数据仍然可以放进一个经验贝叶斯的线性建模框架中分析，同时又能无缝接入许多既有的 Limma 工作流。因此，Voom 因其兼容性和实用性，已经成为 RNA-seq 差异表达分析中最常用的方法之一。

Negative Binomial Models

DESeq（Anders and Huber 2010; Love et al. 2014）和 edgeR（Robinson et al. 2010）是两种广泛使用的 RNA-seq 差异表达分析方法。它们都直接处理 RNA-seq 的计数数据，而这类数据通常具有过度离散（over-dispersion）的特点，也就是其波动程度高于理想无偏计数数据的预期。

DESeq 与 edgeR 都会把一个基因表达水平的方差拆分为两部分：

生物学变异（biological variability）
技术变异（technical variability）

生物学变异是不同基因或不同条件之间真实差异的来源；技术变异则来自实验流程中的多个环节，例如样本采集、RNA 提取、文库构建、测序误差及其他实验条件，这些因素都会扭曲真实 RNA 计数。

这两类方法都假定：生物学变异的大小与过度离散程度成正比。因此，DESeq/DESeq2 与 edgeR 一般都假定数据服从负二项分布（negative binomial distribution），而不是泊松分布（Poisson distribution），并进一步拟合广义线性模型（generalized linear model），以估计并修正这种过度离散，从而更稳健地识别差异表达基因。

Fold-Change

如前所述，在 DNA 微阵列全基因组表达分析的早期阶段，倍数变化（fold-change）曾被广泛使用。统计学方法能够较为无偏地评估某个基因差异表达的证据强弱，但它们往往不符合许多生物学家的直觉：即某些基因表达水平仅有非常小的变化时，未必足以解释明显的表型差异。

当然，也有人会指出：对于转录因子（transcription factor）、激酶（kinase）等调控节点分子，即便很小的表达变化，也可能带来显著的下游效应。但对于大多数基因而言，绝对变化幅度很小时，其生物学解释通常并不容易。因此，很多研究会把统计显著性与倍数变化阈值结合起来使用：先找出统计学上显著的基因，再进一步筛选其中倍数变化大于 2 倍（或其他阈值）的基因，用于后续分析。

Correcting for Multiple Testing

如前所述，在任何 RNA-seq 实验中，被检测的基因数通常都非常大，而样本数相对较少，因此单纯由于偶然因素而找到“差异表达基因”的概率会显著升高。举例来说，假设我们分析 25 000 个基因，并按某种“组间差异显著性指标”（例如 t 统计量）对它们排序。每个基因对应一次单独检验，因此总共相当于进行了 25 000 次统计检验。

如果我们仅仅取其中“最显著”的前 5%，那么就相当于挑出了 1250 个基因，但我们并不能有把握地说这些基因中任何一个都是真正差异表达的。因此，差异表达分析必须引入多重检验校正。

Family-Wise Error Rate

家族错误率（family-wise error rate, FWER）用于估计：在进行多次统计检验时，出现一个或多个假阳性（false positives，也称 type I errors）的概率。

如果我们总共进行 c 次检验，并为每次检验设定显著性水平 $\alpha$，则有：

FWER ≤ 1 − (1 − α)^c

回到前面的 25 000 个基因示例，若显著性水平设为 0.05，那么几乎必然会至少出现一个假阳性，即：

FWER ≤ 1 − (3.8 × 10^-55)

处理多重检验问题的经典 FWER 方法之一是 Bonferroni 校正（Bonferroni correction）。其思路非常直接：把原本的 p 值阈值除以检验次数，即将 $\alpha$ 替换为 $\alpha / c$。

不过，对于基因表达分析来说，Bonferroni 往往过于严格。例如，当检测 25 000 个基因时，原本的 p < 0.05 会被压缩成 p < 2 × 10^-6。如此苛刻的阈值常常会导致：即便比较的是生物学上差异非常明显的样本，也很难找到哪怕一个满足阈值的基因。虽然也有一些 Bonferroni 的修正版本试图缓和这种过严问题，但实际使用中，更常见的是基于 FDR 的方法。

False Discovery Rate

Benjamini and Hochberg (1995) 提出了假发现率（false discovery rate, FDR）的概念，用于处理多重检验带来的统计问题；这一思想后来又由 Benjamini and Yekutieli (2001) 进一步扩展。与 FWER 试图估计“是否至少会出现一个假阳性”不同，FDR 承认假阳性不可避免，并进一步估计：在一组被判定为显著的结果中，有多大比例可能是假阳性。

换句话说，FDR 本质上是在回答：显著结果中预计有多少比例是错误发现。因此，研究者可以根据研究目的自行设定一个可接受的错误比例阈值。这里讨论的 FDR 专指多重检验中的 FDR-controlling procedure，它与二分类任务中其他语境下的 FDR 含义相似，但并不相同（参见 Box 5.4）。

在最简单的实现中，从任意统计检验的 p 值出发计算 FDR 并不困难。设我们有 N 次检验，并为每次检验都得到了一个 p 值，则可以按如下步骤计算：

将所有 p 值按从小到大排序：p1, p2, …, pk, …, pN。
对于给定的 FDR 水平 q，寻找满足下式的第 k 个 p 值：

pk ≤ (i/N)(q/c(N))，其中

c(N) = Σ(i=1 到 N) (1/i)

然后把排名位于 1 到 k 的那些基因判定为在 FDR = q 水平下显著。

许多计算 FDR 的方法还会为每个基因报告一个 q value，它可以写作：

qi = (piN/i)c(N)

其中 c(N) 的定义同上。

但按此方式直接计算得到的 q 值并不一定是 p 值的单调函数，因此 Benjamini 和 Yekutieli 引入了调整后的 q 值，定义为：

qi = min qk for k ≥ i

理解 FDR 及其正确用法，对于基因表达数据分析极其重要，因为绝大多数差异表达分析方法默认报告的都是 FDR 或 q 值。如果某个方法默认不提供 FDR，研究者也可以使用 R 中 stats 包的 p.adjust 等函数进行计算。

---

第七步完

（下一节：第八步：通过功能富集分析探索机制——PDF 第 320 页）

082

Step 8: Exploring Mechanisms Through Functional Enrichment Analysis

PDF page 320 - PDF page 322 before Step 9；印刷页码 300-302

▶

第八步：通过功能富集分析探索机制

在识别出一组“显著”差异表达基因之后，下一步就是利用这份基因列表来探索研究对象背后的生物学机制。如果你对所研究的系统已经有相当了解，那么直接查看显著基因列表，并挑出一个或几个基因来描述它们可能参与的过程，往往并不困难。然而，这种做法很容易沦为所谓的 "bio-poetry" ——也就是基于零散经验知识拼接出的解释。它虽然听起来合理，却未必能够真正捕捉数据中的整体趋势。

因此，与其逐个讨论单个基因，不如进一步追问：哪些生物学过程在不同状态之间整体上发生了表达模式改变？

幸运的是，我们可以借助多种资源为基因赋予更高层级的功能注释（见第 13 章）。其中最常用的注释体系之一是 GO（Gene Ontology）。GO 是一个建立成熟、人工审查较充分的功能注释系统，它结合生物学文献和其他信息来源，为每个基因在以下三个方面分别赋予分类（见第 7 章）：

cellular component (CC)：基因产物所在的细胞区域或细胞外环境；
molecular function (MF)：基因产物在分子层面执行的主要功能，例如运输或结合；
biological process (BP)：基因产物所参与的整体生物学过程，例如细胞生长、信号传导或能量代谢。

在这三类信息中，GO biological process 往往最具解释力。除了 GO 之外，还有许多 pathway database 和其他 gene set 数据库也可用于类似分类；在分析方法上，它们的核心思想基本一致。我们真正关心的问题是：在区分研究人群的显著基因中，是否有一个或多个生物学过程（或通路）出现了过度代表（over-represented）？

这类方法统称为 gene set enrichment analysis，也常被称作 functional enrichment analysis。目前已有许多不同的分析策略、R packages 和 online tools。最常用的方法大体可分为两类：

list-based methods：基于预先定义好的差异表达基因列表；
rank-based methods：不只看显著基因，而是使用按某种显著性指标排序后的完整基因列表，例如 p value 或 q value。

List-Based Methods

当我们得到一组差异表达基因后，一个自然问题是：映射到某个特定功能类别的基因数，是否多于随机情况下的预期？

大多数回答这一问题的方法，都基于 Fisher's exact test。它也常被称为 hypergeometric test，不过这里之所以称为“exact”，是因为它并不依赖对超几何函数的近似。

Fisher's exact test 需要两个集合：

一个是被选中的差异表达基因集合；
另一个是背景集合（background set）。

对于 microarray，背景集合通常是芯片上所有出现的基因；对于 RNA-seq，背景集合则常常取整个基因组。

该方法的核心是：针对每一个待检验的功能类别（例如每一个 GO BP term），构造一个 contingency table。具体来说，设总共有 n 个基因，其中：

a：显著且映射到该 BP term 的基因数；
b：不显著但映射到该 BP term 的基因数；
c：显著但不映射到该 BP term 的基因数；
d：既不显著也不映射到该 BP term 的基因数。

此时，就可以用超几何分布来估计观察到这种分布是由随机造成的概率。

直观地说，如果基因组中有 10% 的基因被注释到某个 BP term，那么在显著基因集合中也看到大约 10% 映射到该术语，并不奇怪；但如果显著基因中有 20% 都映射到同一 BP term，那么这就可能具有统计学意义。

这种方法的价值，在于它能帮助我们避免过度解读某些功能类别的出现频率。不过，由于通常会同时检验很多个功能类别，因此这些 p values 仍然必须进行 multiple testing 校正。

基于（修正版）Fisher's exact test 的一个经典 list-based pathway enrichment 工具是 DAVID（Database for Annotation, Visualization and Integrated Discovery；da Huang et al. 2009a,b）。DAVID 的做法是在列联表中把 a 替换为 (a − 1)，从而让检验更保守一些。DAVID 是一个较为友好的 online tool，可以针对给定的输入基因列表和背景基因列表，测试多种 pathway annotation databases，包括 GO terms、Biocarta pathways 以及 KEGG（Kyoto Encyclopedia of Genes and Genomes）pathways。它既提供常见 microarray platforms 的背景基因集，也支持 RNA-seq 分析所需的 whole genome 背景集合。

另一类执行相似分析的工具是 R package topGO（Alexa et al. 2006）。除超几何检验外，topGO 还能使用专门设计的算法，显式考虑不同 GO terms 之间的依赖关系。一个典型例子是其中的 elim algorithm：它会把已经注释到某个显著富集节点（即 GO term）的基因，从该节点所有祖先节点中移除。这样做的结果是：分析会减少对笼统、上层细胞功能术语的偏重，而更强调 GO 层级结构中位置更低、功能定义更具体的术语。

Rank-Based Methods

list-based methods 的一个主要问题，是它们对“阈值设在何处”非常敏感。实际分析中常会发现，只要把显著性的 FDR cut-off 稍微调高或调低，结果就可能明显改变，因为在阈值上下附近，也许恰好聚集着一批来自同一功能类别的基因。

rank-based approaches 正是为了解决这一问题。它们不依赖单一显著性阈值，而是先按照某种显著性度量，对实验中所有基因进行排序，例如：

p value
q value
t-statistic
signal-to-noise metric
或其他可反映差异程度的指标

随后，rank-based 方法会检验：某一特定功能类别对应的基因（例如某个 GO BP term 或 KEGG pathway），是否在排序列表的两端出现了过度聚集。

这一思路最早的经典实现是 Gene Set Enrichment Analysis (GSEA)（Subramanian et al. 2005）。GSEA 既可以作为 online tool 使用，也提供 stand-alone Java program，可被 R 等其他编程语言调用。GSEA 使用 weighted Kolmogorov-Smirnov test 来计算某个 gene signature 的 enrichment score，随后再通过置换（permutations）来判断该富集分数是否显著（见第 13 章）。

另一个相关工具是 R package GSEAlm（Oron et al. 2008）。它通过线性模型先计算 p values，然后检验：映射到某个特定注释类别的基因，其 p value 分布是否不同于背景基因集合的 p value 分布。

---

第八步完

（下一节：第九步：构建分类器——PDF 第 322 页）

083

Step 9: Developing a Classifier

PDF page 322-328（止于 t-SNE 内容；排除 Step 8 尾段与 Summary 标题）；印刷页码 302-308

▶

Step 9：构建分类器

许多分析的最终目标是识别和探索驱动表型差异的生物学过程。然而，基因表达谱分析还有另一个常见应用，特别是在临床或转化医学场景中——利用数据构建分类模型，将新样本分配到研究中的某一表型组。要构建这样的分类器，首先要选择一组特征（在我们的例子中即基因），以区分不同的生物学类别，然后拟合模型的参数，使分类器能够基于所选特征集的基因表达来准确分类样本。正如本章前述的基因表达分析其他步骤一样，在特征选择、分类器训练与测试方面都有大量可选方案，其中涉及多种可用于分类的统计学和机器学习方法，但该领域尚未就哪种方法最优达成明确共识。也就是说，生物标志物（包括特征集和分类方法）需要使用独立数据集进行仔细验证，这一点是明确的。

成功且可重复的分类器开发的一个关键要素是从良好的实验设计开始。迄今为止已发表了成千上万的基因表达生物标志物，但大多数在首次发表的研究之外再未被使用过。尽管这些问题在前述实验设计讨论中已有部分涉及，但仍有一些额外的标准需要考虑。

首先，所分类的不同组之间应该有良好的平衡。如果研究的是一种罕见疾病，人群中只有 10% 患有该病，那么只需简单地得出"没有人患有该病"的结论，就能构建一个准确率达 90% 的分类器。因此，研究者应认识到这一点，要么尽量平衡各组，要么更明确地阐述成功标准。

其次，需要考虑同时设置训练集和测试集。在标准范式中，先在单个训练集上执行特征选择和参数拟合/算法训练，然后在独立的测试集（即先前未以任何方式用于特征选择或算法训练的样本集）上验证预测模型。

如果研究群体较小（例如处理罕见疾病），交叉验证是一种可接受的方法，但每次"折"的交叉验证都应重新在训练子集上执行特征选择和算法训练，然后重新在独立测试子集上检验方法性能。交叉验证方法面临的挑战在于，其结果不是一个单一的分类器，而是一组分类器，其中任何一个都难以与其他分类器进行直接比较。

开发分类器时还需要注意的另一件事是，训练集和测试集都需要有客观真实值；否则，方法无法得到有效训练，其性能也无法得到客观评估。另一种替代方案是反转测试集和训练集范式——使用多个独立的训练集，在每个训练集上学得一个新的分类器，然后在单个测试集上检验多个分类器之间的一致性和稳定性。在许多方面，这提供了一种更好的分类器成功度量指标，因为它说明了无论算法在何处、以何种方式拟合，对同一患者做出相同分类的可能性有多大。

分类器性能度量

在度量分类器准确率时，两个常用指标是敏感度（sensitivity）和特异度（specificity）（见第 7 章）。假设已开发了一个分类器，要在已知样本类别的独立数据集上对其进行检验。我们可以使用分类方法，对测试数据集中的每个样本做出判定，然后检查效果。假设有病例和对照，并希望对病例进行分类，则将病例视为阳性，对照视为阴性。那么，预测可分为真阳性（TP）和真阴性（TN），表示预测结果与真实分类一致；相应的，假阳性（FP）和假阴性（FN）则表示与真实分类不一致。由此可以定义敏感度，即真阳性率（TPR，有时也称命中率或召回率），为检出的 TP 占实际阳性总数的比例：

TPR = TP / (TP + FN)

进而定义特异度，即真阴性率（TNR），为检出的 TN 占实际阴性总数的比例：

TNR = TN / (TN + FP)

第三个有时有用的指标是精确度，或称阳性预测值（PPV），为检出的 TP 占所有判定为阳性总数的比例：

PPV = TP / (TP + FP)

最后，一个整合了这些概念的有用诊断图是受试者工作特征曲线（ROC 曲线，得名于二战时期的雷达探测研究），它将敏感度对特异度（或 FPR）作图。这一图形表示非常有用，因为大多数分类方法都包含可调节敏感度或特异度的参数，理解两者如何相互影响有助于决定如何调整预测模型。随机分类器的 TPR 和 FPR 相等，在 ROC 曲线上表现为对角线（图 10.10）。

特征选择

如前所述，分类器包含两个组成部分：特征集和分类算法。特征选择的目的是利用训练集中样本组之间的比较，识别一组能够区分这些组、并具有足够判别力来分类新样本的基因。

差异表达检验 或许并不令人意外，特征选择最常用的方法之一是使用第 7 步所述的差异表达分析统计学方法。差异表达分析的统计检验会识别在给定数据集中最能区分实验组的基因。虽然直觉上这很合理，但差异表达分析可能识别出大量高度相关的基因，从而对任何下游分类系统产生偏倚。真正需要的是一组在类间具有最大判别能力的特征，这些特征基于可能需要的多重模式来提供完整的类判别。幸运的是，有多种方法可以用于选择此类特征，包括下面介绍的最小冗余最大相关（mRMR）和预后标志物显著性分析（SAPS）。

特征选择面临的挑战在 Venet 等人（2011）的研究中得到了突出强调，他们将已发表的基因集与随机基因集进行比较，检验其将乳腺癌病例分为具有显著生存差异组的能力。随机基因签名能够胜过"显著"基因集这一发现表明，仅凭统计显著性来选择用于分类的基因集是不够的。

最小冗余最大相关（mRMR） 统计学显著的基因集通常包含大量高度相关的基因，因为这些基因共表达，但都代表相似的生物学过程。如果仅使用最显著的基因构建分类器，就有过度采样大型相关基因集的风险，从而错过可能有助于区分不同表型的生物学过程范围。

考虑这样一种情况：比较不同的类别并按基因的显著性排序，选择最显著的基因，然后将与它高度相关的基因从候选中去除，再选择下一个最显著的基因，继续去除相关基因并重复这一过程。这样得到的一组基因应兼具高预测性和相对独立性。正如你可能已认识到的，衡量相似性的方法有很多，包括使用 Pearson 相关系数和欧氏距离。

一种有助于在衡量相似性时平衡不同生物学过程表示的方法称为最小冗余最大相关（mRMR）（Ding and Peng 2005）。mRMR 使用互信息（一种非线性关联方法）同时识别最能区分类别的基因，并减少基因之间表达谱的潜在重叠。R 中 survcomp 包提供了 mRMRe 的实现（De Jay et al. 2013），mRMRe 包的并行版本可在 mRMRe 包中找到。

预后标志物显著性分析（SAPS） Venet 等人（2011）的研究检验了随机基因集预测生存的能力，其发现对许多基于选定基因集发表的预测方法提出了质疑。造成这一发现的部分原因可能是许多已发表分类器使用了相对大量的基因，以及选定特征集中基因之间（以及与基因组中其他基因之间）的相关性等。SAPS（Beck et al. 2013）是一种启发式方法，可以解决前述问题，适用于确定疾病预后或生存的预测因子，尽管一般流程也可以改编用于其他分类问题。

该方法基于三个独立 p 值——P_pure、P_random 和 P_enrichment——为候选基因集计算 SAPS 分数，每个 p 值通过一系列检验来估算：

P_pure 的计算方式是：首先使用 k-means 聚类（k = 2）根据选定基因集将患者分为两组，然后计算 log-rank p 值，以估计两组患者样本在生存方面没有差异的概率。
接下来，选择与候选基因集大小相同的随机基因集，并按本列表步骤 1 所述进行检验，以评估它们将人群分为在生存方面存在差异的两组的效果。P_random 是 log-rank p 值至少与 P_pure 一样显著的随机基因集的比例。
P_enrichment 检查候选基因集与随机基因集的相对富集程度，以基于一致性指数确定高度预测性基因的相对富集。基因的一致性指数是指，对于数据集中随机选取的一对患者，表达该基因水平较高的患者的肿瘤比表达水平较低者预后更差（或更好）的概率。P_enrichment 的计算方式是：使用预排序基因集富集分析，确定候选基因集中与随机基因集相比，高或低一致性指数基因的富集程度（见本列表步骤 2 中选择的随机基因集）。富集显著性使用置换分析估算。
最后，将这三个分数与候选基因集和预后之间关联的方向（direction，正向关联为"1"，负向关联为"-1"）结合起来，计算 SAPS 分数：

SAPS score = -log₁₀ max(P_pure, P_random, P_enrichment) × direction

SAPS 分数绝对值越大，三个 p 值共同决定的预后关联就越显著。通过置换基因，可以估算 SAPS 分数的统计显著性：生成 SAPS 分数的零分布，计算零分布中与候选基因集的 SAPS 分数绝对值至少同样大的基因集所占的比例。如果评估了多个候选基因集，则每个基因集的原始 SAPS p 值可用于生成相应的 SAPS q 值，即经多重检验校正后的 SAPS p 值。

mRMR 和 SAPS 等方法的价值在于，它们提供了一种在训练和测试算法之前检验基因集质量的方法。使用最优基因集可以大大增加分类方法表现良好的可能性，尽管对基因集加分类算法的组合进行额外验证仍然必不可少。

分类方法

选定候选基因集后，流程中的下一步是选择、训练和验证一个分类算法，用于将新样本分配到研究中的某一表型亚组。为此目的，存在大量从统计学和机器学习领域借鉴的分类方法，包括最近质心法、压缩最近质心法、高斯亚型分类模型、k 近邻法、支持向量机、随机森林、线性判别分析、二次判别分析、偏最小二乘、逻辑回归、神经网络等（Hastie et al. 2001, 2009; Haibe-Kains et al. 2012）（另见第 18 章）。

虽然每种方法的具体细节可能存在很大差异，但每种分类方法都代表一个数学函数，其参数被"拟合"（统计学中称为"估计"，机器学习中称为"学习"），其输入变量是特定样本的基因表达水平，输出是样本的亚组分配。虽然如果能就最佳分类方法提供指导将非常理想，但对文献的调查将表明，就使用何种最佳方法尚无科学共识（尽管许多论文声称某方法优于其他方法）。然而，有一点是公认的：这些方法的性能应按照下述方式得到严格测试和验证。

训练分类器时需要考虑的一个重要问题是 FP 和 FN 的相对成本。大多数方法优化整体性能，但有时存在对某一类成员的过度或不足识别所带来的真实成本。例如，在临床环境中，识别所有患有某种疾病的患者（提高敏感度）可能要好得多，即使这会冒着有一定水平 FP 识别（降低特异度）的风险。根据具体应用，我们可能认为重要的是最小化 FPR、FN 率、PPV 或其他参数。在大多数情况下，以相同的权重优化 FP 和 TP 以及 FN 和 TN。因此，在拟合模型之前，了解这一假设是否适当，或者是否存在某些识别错误比其他错误成本更高，是有用的。这一决定将有助于指导模型拟合和验证的方法选择。

预测模型的验证

预测分类器只有在准确且可重复的情况下才有用。例如，在乳腺癌中，已发表了成千上万个亚型分类器，但临床中使用的不到 10 个。这些预测模型失败的常见原因之一是其性能往往因方法学错误而被高估，这种现象称为过拟合。导致过拟合的原因有很多，下面将考察三种有助于避免过拟合的策略。

使用独立测试集进行群体水平预测验证 大多数分类器的性能基于其将一组样本划分为由其底层生物学或其他指标（如治疗反应或疾病生存）定义的亚组的能力。如果我们从一个有亚组信息的测试数据集开始，可以执行特征选择，然后训练方法并拟合模型参数。如果将同一分类器应用于该测试数据集，应该得到 100% 的分类准确率，但这不是一个公平的检验。恰当的问题是：该分类器应用于真正独立的测试集时，能否提供足够高的准确率而有实际用途。独立验证需要满足以下条件：

从训练数据集出发，利用已知样本类别执行特征选择并拟合模型参数。
使用一个在先前任何研究中都完全未用过的独立测试数据集，且类别标签保持盲法，然后应用所开发的分类模型将样本分配到各亚组。
解盲样本类别标签，然后比较预测类别与真实类别，计算敏感度和特异度等指标，之后再报告结果。

这是一个相对简单且成熟的协议，但在使用时需要注意一些事项。首先，如果独立数据集是真正独立的，它将提供更可靠的答案。如果使用临床样本，尽量让训练样本和测试样本来自不同医院，由不同人员提取 RNA，在不同设施中测量表达量。如果能够生成与训练集以及彼此之间都独立的多个测试集，就更可能准确地估计性能。

转录组谱分析早期常见的一个错误是，将样本混合以进行特征选择，然后再将混合样本分开用于训练和测试。这种方法的问题在于，某些样本中的偏倚可能在特征选择时被捕获，从而潜在地高估最终的性能估计。需要牢记的重要一点是，训练集和测试集在流程的每一步都必须保持真正独立。

使用交叉验证进行群体水平预测验证 独立训练和测试集范式的一种变体，当可用样本数量有限时经常使用，是交叉验证。n 折交叉验证使用单个数据集，将其分成训练和测试集 n 次，然后对每次 n"折"重复训练和测试过程。没有划分初始数据集的绝对正确方法，也没有执行多少折的正确数量，但鉴于这种方法通常用于相对较小的数据集（如罕见疾病），常见的划分比例是训练集 vs. 测试集 90/10，且至少使用 10 折。该过程与独立验证模型一致：

每折将数据集划分为独立的训练集和测试集。
利用训练集中已知的样本类别，执行特征选择并拟合模型参数。
使用拟合的模型对测试集中的样本进行分类。
计算分类器的性能。
将步骤 1-4 重复 n 折，同时汇总分类器及其方法的总体平均性能。

交叉验证是分类器评估中最常被误用的方法之一。一个常见错误是在特征选择中使用整个数据集，然后使用各折来训练模型并应用。问题在于，某些样本中的偏倚可能在特征选择过程中被捕获，然后膨胀整体方法的性能。因此，在每折中必须保持训练集和测试集独立。此外，应多次运行整个过程，以确保特定的分割不会偏倚结果。

交叉验证的问题是，最终没有单一的分类器可以报告。相反，有 n 个特征集和 n 个分类器，每折一个。有些团队取分类基因集的交集（有时是并集），然后将其报告为生物标志物集。有时，这个共识集被用于在整个数据集上训练算法，但没有坚实的理论支持使用这种方法，而且这个新分类器的整体性能在使用真正独立的测试集之前仍然未知。

使用独立训练集进行个体水平分配稳健性验证 使用训练集和一个或多个独立测试集验证分类器，是理解分类方法在群体水平上表现如何的非常好的方式，敏感度和特异度是群体水平性能的良好指标。然而，如果你是诊所里的患者，负责治疗的医生要用某种检测来确定诊断，那么群体水平的性能对你来说可能远不如该检测能否可靠且一致地将你分配到正确的治疗组重要。

在实践中，这种方法相对简单（Haibe-Kains et al. 2012; Beck et al. 2013）。从一个样本类别已知的多个独立训练集和单个独立测试集出发：

对于每个训练集，识别一个能区分类别的基因集；或者，可以基于某些其他标准（如来自已知通路的代表性基因集或从文献中提取的基因集）从候选基因集出发。
对于每个训练集和适当的基因集，拟合分类模型。
每个分类模型独立用于预测测试集中样本的类别。
不同分类器之间的一致性被用来估计方法的稳健性，衡量使用不同训练集构建的分类器对每个样本给出相同分类的频率。

在许多方面，这种稳健性评估符合我们对好的分类模型应该如何表现的理解。无论模型是在伦敦、巴黎、悉尼、东京还是波士顿学得的，都应该无关紧要。如果基因集和预测模型真正可靠，它们应该给出相同的分类。

在实践中，这种方法可能导致与交叉验证相同的困难——即没有单一的分类器。然而，考虑到一个好的分类器无论使用哪个数据集训练都将是高度一致的，人们希望这些分类器或多或少可以互换。无论如何，这种评估方式应被视为使用独立测试集验证的补充，而不是替代。

单细胞测序

尽管单细胞 RNA 测序（scRNA-seq）相对较新，但它特别令人兴奋，因为它允许对单个细胞的转录组进行分析。虽然最初的 scRNA-seq 实验分析的是单个或非常少量的细胞，但现在每次实验可以分析数千个细胞。目前使用的已发表方案包括 SMART-Seq（Ramskold et al. 2012）、CEL-Seq（Hashimshony et al. 2012）和 Drop-Seq（Macosko et al. 2015），以及 10x Chromium 系统等成熟的商业产品。

与传统的 DNA 微阵列和 RNA-seq（分析批量组织样本中的基因表达）不同，scRNA-seq 使用条形码从样本中的每个细胞创建测序文库，产生原始样本中单个细胞的表达谱。因此，scRNA-seq 不仅允许在不同表型之间比较表达，还可以定义细胞群，并研究表达变异和细胞异质性与表型的关联。已发表的 scRNA-seq 应用包括细胞类型及其多样性的识别和探索、基因表达随机性分析，以及跨细胞和细胞类型的基因调控网络估计。

scRNA-seq 中使用的处理步骤与 RNA-seq 类似。通常对序列读数执行质量控制，将质量读数比对到适当的参考序列（例如使用 Salmon（Patro et al. 2017）或 Kallisto（Bray et al. 2016）），并进行比对后质量控制。在这个阶段，通常使用 scRNA-seq 特有的方法进行标准化、基于表达识别亚组、差异表达检验和功能分析。这些方法包括用于标准化的 SCONE（Cole et al. 2018）、用于寻找细胞群的 Seurat（Butler et al. 2018）和 GiniClust/GiniClust2（Jiang et al. 2016; Tsoucas and Yuan 2018），以及提供综合分析的基于网络的处理平台如 Falco（Yang et al. 2017）和 ASAP（Chen et al. 2017; Gardeux et al. 2017）。

scRNA-seq 分析路径与批量 RNA-seq 分析分叉的原因是，存在一些 scRNA-seq 特有的技术干扰因素。例如，作为细胞分离和扩增结果产生的批次效应就是一个例子。但更显著的问题是基因"脱落"或稀疏性。据估计，每个细胞在任何给定时间都有多达 300,000 个 RNA 转录本。然而，在 scRNA-seq 中，每个细胞通常只记录几千（或数万）个读数。脱落发生是由于与 mRNA 计数实验相关的统计特性——我们偶然错过了一些转录本。虽然高表达转录本通常在 scRNA-seq 数据中表现良好，但中低表达转录本可能会被遗漏。"脱落"基因的整体模式产生了一个稀疏的细胞×转录本表达矩阵——观察到的计数值远少于预期。幸运的是，微生物组文献中已探讨了这个问题，scRNA-seq 使用的许多方法可以追溯到微生物组分析。

然而，这些问题意味着，截至本文写作时，在 scRNA-seq 分析的许多方面尚无共识。例如，在标准化方面，全局和缩放方法都被频繁使用，TPM 和 CPM 是常用指标。在比较表达方面，正在开发考虑细胞群产生的基因表达多模态性的方法。然而，许多已发表的研究仍然依赖 t 检验等成熟方法进行表型比较。

scRNA-seq 文献中现在广泛使用的一种新型可视化是 t 分布随机邻域嵌入（t-SNE）图（van der Maaten and Hinton 2008）。类似于 PCA 等方法，t-SNE 降维高维数据，但通过求解一个力图保持相似基因或细胞之间距离的目标函数来实现。虽然 t-SNE 已被证明非常有用，但它需要大量内存和计算资源，运行时间与分析的细胞或基因数量的平方成正比。

084

Summary + Internet Resources + Further Reading + References

PDF page 329 - PDF page 334；印刷页码 309-314

▶

第10章表达分析

10.12 Summary、Internet Resources、Further Reading 与 References

范围：PDF page 329 - PDF page 334；合并 Summary、Internet Resources、Further Reading、References。

---

Summary

本章为基因表达数据分析提供了一张路线图；而且由于这一领域变化极快，这张路线图天然不可能穷尽所有内容。自 20 世纪 90 年代早期通过 expressed sequence tags 测序开展首次全基因组范围表达分析以来，技术平台的变化、分析方法的进步，以及大量辅助数据的爆发式增长——例如众多物种的基因组序列及其基因注释——共同重塑了这一研究领域。

具体选择哪一种软件工具或分析方法，当然始终可以讨论；今天看来最优的方案，明天也可能被更新的方法取代。但良好的实验设计原则与扎实、可靠的分析实践并不会因此改变。

因此，与其把本章当成一本按步骤照做的 cookbook，不如把它理解为一张 roadmap：它为研究者指明一条更有可能获得成功、也更能增强结果可信度的分析路径。本着这样的初衷，我们希望本章概述的方法，能够成为你进入表达分析领域的一份有用导论与实践指南。

---

Internet Resources

资源	URL
ArrayExpress	`www.ebi.ac.uk/arrayexpress`
Bioconductor	`www.bioconductor.org`
Database for Annotation, Visualization and Integrated Discovery (DAVID)	`david.ncifcrf.gov`
Gene Expression Omnibus (GEO)	`www.ncbi.nlm.nih.gov/geo`
Gene Set Enrichment Analysis (GSEA)	`software.broadinstitute.org/gsea/index.jsp`
Genomic Data Commons (GDC) Data Portal	`portal.gdc.cancer.gov`
Genotype Tissue-Expression project (GTEx)	`gtexportal.org`

---

References

以下参考文献题录按原书英文原文保留：

Alexa, A., Rahnenfuhrer, J., and Lengauer, T. (2006). Improved scoring of functional groups from gene expression data by decorrelating GO graph structure. Bioinformatics. 22 (13): 1600–1607. https://doi.org/10.1093/bioinformatics/btl140.

Anders, S. and Huber, W. (2010). Differential expression analysis for sequence count data. Genome Biol. 1 (10): R106. https://doi.org/10.1186/gb-2010-11-10-r106.

Beck, A.H., Knoblauch, N.W., Hefti, M.M. et al. (2013). Significance analysis of prognostic signatures. PLoS Comput. Biol. 9 (1): e1002875. https://doi.org/10.1371/journal.pcbi.1002875.

Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc. Series B Methodol. 57 (1): 289–300.

Benjamini, Y. and Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Ann. Statist. 29 (4): 1165–1188. https://doi.org/10.1214/aos/1013699998.

Bolstad, B.M., Irizarry, R.A., Astrand, M., and Speed, T.P. (2003). A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 19. https://doi.org/10.1093/bioinformatics/19.2.185.

Bolstad, B.M., Collin, F., Simpson, K.M. et al. (2004). Experimental design and low-level analysis of microarray data. Int. Rev. Neurobiol. 60: 25–58.

Bray, N.L., Pimentel, H., Melsted, P., and Pachter, L. (2016). Near-optimal probabilistic RNA-seq quantification. Nat. Biotechnol. 34 (5): 525–527. https://doi.org/10.1038/nbt.3519.

Brettschneider, J., Collin, F., Bolstad, B.M., and Speed, T.P. (2008). Quality assessment for short oligonucleotide microarray data. Technometrics. 50 (3): 241–264.

Butler, A., Hoffman, P., Smibert, P. et al. (2018). Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat. Biotechnol. 36 (5): 411–420. https://doi.org/10.1038/nbt.4096.

Callow, M.J., Dudoit, S., Gong, E.L. et al. (2000). Microarray expression profiling identifies genes with altered expression in HDL-deficient mice. Genome Res. 10 (12): 2022–2029.

Chen, W., Gardeux, V., Meireles-Filho, A., and Deplancke, B. (2017). Profiling of single-cell transcriptomes. Curr. Protoc. Mouse Biol. 7 (3): 145–175. https://doi.org/10.1002/cpmo.30.

Cole, M.B., Risso, D., Wagner, A. et al. (2018). Performance assessment and selection of normalization procedures for single-cell RNA-seq. bioRxiv biorxiv.org/content/early/2018/05/18/235382.abstract.

De Jay, N., Papillon-Cavanagh, S., Olsen, C. et al. (2013). mRMRe: an R package for parallelized mRMR ensemble feature selection. Bioinformatics. 29 (18): 2365–2368. https://doi.org/10.1093/bioinformatics/btt383.

DeRisi, J., Penland, L., Brown, P.O. et al. (1996). Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nat. Genet. 14 (4): 457–460.

Ding, C. and Peng, H. (2005). Minimum redundancy feature selection from microarray gene expression data. J. Bioinform. Comput. Biol. 3 (2): 185–205.

Dobin, A., Davis, C.A., Schlesinger, F. et al. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29 (1): 15–21. https://doi.org/10.1093/bioinformatics/bts635.

Eisen, M.B., Spellman, P.T., Brown, P.O., and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proc. Natl. Acad. Sci. USA. 95 (25): 14863–14868.

Gardeux, V., David, F.P.A., Shajkofci, A. et al. (2017). ASAP: a web-based platform for the analysis and interactive visualization of single-cell RNA-seq data. Bioinformatics. 33 (19): 3123–3125. https://doi.org/10.1093/bioinformatics/btx337.

Gautier, L., Cope, L., Bolstad, B.M., and Irizarry, R.A. (2004). affy—analysis of Affymetrix GeneChip data at the probe level. Bioinformatics. 20 (3): 307–315.

Golub, T.R., Slonim, D.K., Tamayo, P. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science. 286 (5439): 531–537.

Haibe-Kains, B., Desmedt, C., Loi, S. et al. (2012). A three-gene model to robustly identify breast cancer molecular subtypes. J. Natl. Cancer Inst. 104 (4): 311–325. https://doi.org/10.1093/jnci/djr545.

Hashimshony, T., Wagner, F., Sher, N., and Yanai, I. (2012). CEL-Seq: single-cell RNA-seq by multiplexed linear amplification. Cell Rep. 2 (3): 666–673. https://doi.org/10.1016/j.celrep.2012.08.003.

Hastie, T., Tibshirani, R., and Friedman, J.H. (2001). The Elements of Statistical Learning: Data Mining, Inference, and Predictions. New York, NY: Springer.

Hastie, T., Tibshirani, R., and Friedman, J.H. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2e. New York, NY: Springer.

Hegde, P., Qi, R., Abernathy, K. et al. (2000). A concise guide to cDNA microarray analysis. Biotechniques 29 (3): 548–550, 52–44, 56, passim.

da Huang, W., Sherman, B.T., and Lempicki, R.A. (2009a). Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1): 1–13. https://doi.org/10.1093/nar/gkn923.

da Huang, W., Sherman, B.T., and Lempicki, R.A. (2009b). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat. Protoc. 4 (1): 44–57. https://doi.org/10.1038/nprot.2008.211.

Ioannidis, J.P., Allison, D.B., Ball, C.A. et al. (2009). Repeatability of published microarray gene expression analyses. Nat. Genet. 41 (2): 149–155.

Irizarry, R.A., Bolstad, B.M., Collin, F. et al. (2003). Summaries of Affymetrix GeneChip probe level data. Nucleic Acids Res. 31 (4): e15.

Irizarry, R.A., Warren, D., Spencer, F. et al. (2005). Multiple-laboratory comparison of microarray platforms. Nat. Methods 2 (5): 345–350. https://doi.org/10.1038/nmeth756.

Ishmael, N., Dunning Hotopp, J.C., Ioannidis, P. et al. (2009). Extensive genomic diversity of closely related Wolbachia strains. Microbiology 155 (Pt 7): 2211–2222.

Jiang, L., Chen, H., Pinello, L., and Yuan, G.C. (2016). GiniClust: detecting rare cell types from single-cell gene expression data with Gini index. Genome Biol. 17 (1): 144. https://doi.org/10.1186/s13059-016-1010-4.

Johnson, W.,.E., Li, C., and Rabinovic, A. (2007). Adjusting batch effects in microarray expression data using empirical Bayes methods. Biostatistics. 8 (1): 118–127. https://doi.org/10.1093/biostatistics/kxj037.

Kahvejian, A., Quackenbush, J., and Thompson, J.F. (2008). What would you do if you could sequence everything? Nat. Biotechnol. 26 (10): 1125–1133. https://doi.org/10.1038/nbt1494.

Konstantinopoulos, P.A., Cannistra, S.A., Fountzilas, H. et al. (2011). Integrated analysis of multiple microarray datasets identifies a reproducible survival predictor in ovarian cancer. PLoS One 6 (3): e18202.

Lander, E.S., Linton, L.M., Birren, B. et al., International Human Genome Sequencing Consortium (2001). Initial sequencing and analysis of the human genome. Nature 409 (6822): 860–921. https://doi.org/10.1038/35057062.

Langmead, B. and Salzberg, S.L. (2012). Fast gapped-read alignment with Bowtie 2. Nat. Methods 9 (4): 357–359. https://doi.org/10.1038/nmeth.1923.

Langmead, B., Trapnell, C., Pop, M., and Salzberg, S.L. (2009). Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 10 (3): R25. https://doi.org/10.1186/gb-2009-10-3-r25.

Larkin, J.E., Frank, B.C., Gavras, H. et al. (2005). Independence and reproducibility across microarray platforms. Nat. Methods. 2 (5): 337–344. https://doi.org/10.1038/nmeth757.

Leek, J.T., Johnson, W.E., Parker, H.S. et al. (2012). The SVA package for removing batch effects and other unwanted variation in high-throughput experiments. Bioinformatics. 28 (6): 882–883. https://doi.org/10.1093/bioinformatics/bts034.

Li, H. and Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 25 (14): 1754–1760. https://doi.org/10.1093/bioinformatics/btp324.

Li, P., Piao, Y., Shon, H.S., and Ryu, K.H. (2015). Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-seq data. BMC Bioinf. 16: 347. https://doi.org/10.1186/s12859-015-0778-7.

Love, M.I., Huber, W., and Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 15 (12): 550. https://doi.org/10.1186/s13059-014-0550-8.

van der Maaten, L. and Hinton, G.E. (2008). Visualizing high-dimensional data using t-SNE. J. Machine Learn. Res. 9: 2579–2605. prlab.tudelft.nl/sites/default/files/vandermaaten08a.pdf.

Macosko, E.Z., Basu, A., Satija, R. et al. (2015). Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell. 161 (5): 1202–1204. https://doi.org/10.1016/j.cell.2015.05.002.

Michaels, G.S., Carr, D.B., Askenazi, M. et al. (1998). Cluster analysis and data visualization of large-scale gene expression data. Pac. Symp. Biocomput 1998: 42–53.

Nagalakshmi, U., Wang, Z., Waern, K. et al. (2008). The transcriptional landscape of the yeast genome defined by RNA sequencing. Science 320 (5881): 1344–1349. https://doi.org/10.1126/science.1158441.

Oron, A.P., Jiang, Z., and Gentleman, R. (2008). Gene set enrichment analysis using linear models and diagnostics. Bioinformatics. 24 (22): 2586–2591. https://doi.org/10.1093/bioinformatics/btn465.

Patro, R., Mount, S.M., and Kingsford, C. (2014). Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nat. Biotechnol. 32 (5): 462–464. https://doi.org/10.1038/nbt.2862.

Patro, R., Duggal, G., Love, M.I. et al. (2017). Salmon provides fast and bias-aware quantification of transcript expression. Nat. Methods. 14 (4): 417–419. https://doi.org/10.1038/nmeth.4197.

Paulson, J.N., Chen, C.Y., Lopes-Ramos, C.M. et al. (2017). Tissue-aware RNA-seq processing and normalization for heterogeneous and sparse data. BMC Bioinf. 18 (1): 437. https://doi.org/10.1186/s12859-017-1847-x.

Perou, C.M., Jeffrey, S.S., van de Rijn, M. et al. (1999). Distinctive gene expression patterns in human mammary epithelial cells and breast cancers. Proc. Natl. Acad. Sci. USA. 96 (16): 9212–9217.

Pop, M., Paulson, J.N., Chakraborty, S. et al. (2016). Individual-specific changes in the human gut microbiota after challenge with enterotoxigenic Escherichia coli and subsequent ciprofloxacin treatment. BMC Genomics. 17: 440. https://doi.org/10.1186/s12864-016-2777-0.

Quackenbush, J. (2005). Extracting meaning from functional genomics experiments. Toxicol. Appl. Pharmacol. 207 (2 Suppl): 195–199.

Ramskold, D., Luo, S., Wang, Y.C. et al. (2012). Full-length mRNA-seq from single-cell levels of RNA and individual circulating tumor cells. Nat. Biotechnol. 30 (8): 777–782. https://doi.org/10.1038/nbt.2282.

Robinson, M.D., McCarthy, D.J., and Smyth, G.K. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26 (1): 139–140. https://doi.org/10.1093/bioinformatics/btp616.

Schena, M., Shalon, D., Davis, R.W., and Brown, P.O. (1995). Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science. 270 (5235): 467–470.

Simon, R., Radmacher, M.D., and Dobbin, K. (2002). Design of studies using DNA microarrays. Genet. Epidemiol. 23 (1): 21–36.

Spellman, P.T., Sherlock, G., Zhang, M.Q. et al. (1998). Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol. Biol. Cell 9 (12): 3273–3297.

Subramanian, A., Tamayo, P., Mootha, V.K. et al. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. USA. 102 (43): 15545–15550. https://doi.org/10.1073/pnas.0506580102.

Toker, L., Feng, M., and Pavlidis, P. (2016). Whose sample is it anyway? Widespread misannotation of samples in transcriptomics studies. F1000Res. 5: 2103. https://doi.org/10.12688/f1000research.9471.2.

Tsoucas, D. and Yuan, G.C. (2018). GiniClust2: a cluster-aware, weighted ensemble clustering method for cell-type detection. Genome Biol. 19 (1): 58. https://doi.org/10.1186/s13059-018-1431-3.

Venet, D., Dumont, J.E., and Detours, V. (2011). Most random gene expression signatures are significantly associated with breast cancer outcome. PLoS Comput. Biol. 7 (10): e1002240. https://doi.org/10.1371/journal.pcbi.1002240.

Venter, J.C., Adams, M.D., Myers, E.W. et al. (2001). The sequence of the human genome. Science. 291 (5507): 1304–1351.

Wen, X., Fuhrman, S., Michaels, G.S. et al. (1998). Large-scale temporal gene expression mapping of central nervous system development. Proc. Natl. Acad. Sci. USA. 95 (1): 334–339.

Wilson, C.L. and Miller, C.J. (2005). Simpleaffy: a BioConductor package for Affymetrix Quality Control and data analysis. Bioinformatics. 21 (18): 3683–3685.

Yang, A., Troup, M., Lin, P., and Ho, J.W. (2017). Falco: a quick and flexible single-cell RNA-seq processing framework on the cloud. Bioinformatics. 33 (5): 767–769. https://doi.org/10.1093/bioinformatics/btw732.

Chapter 11

Proteomics and Protein Identification by Mass Spectrometry

085

Introduction

PDF page 335-336；印刷页码 315-316

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Introduction

Introduction

什么是蛋白质组？

蛋白质组（proteome）是指一个生物实体（细胞、组织、器官或生物体）在其生命周期中某一时间点所表达的全部蛋白质集合。这个词由 protein（蛋白质）和 genome（基因组）组合而成，最早由 Marc Wilkins 于 1995 年提出，用于指代利用质谱（mass spectrometry, MS）对蛋白质进行功能研究（Wilkins et al. 1996）。蛋白质组学（proteomics）是对蛋白质进行大规模研究的学科，采用系统性、shotgun 或靶向的高通量方法，以阐明蛋白质的身份、定位、丰度、结构、功能或表达谱。

蛋白质组学与其他“组学”（omics）研究相互补充，例如基因组学（genomics）和转录组学（transcriptomics）。它能够进一步明确由基因编码的蛋白质身份，并确定这些蛋白质在细胞中的基本作用。一个生物体的基因组相对静态，而蛋白质组则高度动态：不同细胞之间的蛋白质组不同，并且会响应不同环境刺激而发生变化。这些变化体现在所表达蛋白质异构体的丰度、翻译后修饰（post-translational modifications, PTMs）、稳定性以及物理相互作用关系等方面。正是这种动态且不断变化的特征，使蛋白质组显著比基因组更加复杂。

例如，人类基因组包含约 20 000 个蛋白质编码开放阅读框（open reading frames）（Gaudet et al. 2017）。另一方面，突变、选择性转录和选择性剪接异构体以及其他机制，可以使单个基因产生多种不同的信使 RNA（messenger RNA, mRNA）转录本（Figure 11.1）。此外，翻译过程中或翻译后发生的位点特异性化学修饰或酶促修饰，还可以产生多种不同的蛋白质形式（proteoforms，即不同形式的蛋白质）。这些蛋白质形式会随时间、亚细胞定位以及生理或疾病状态而变化。这表明，人类蛋白质组实际上可能由数百万种化学上彼此不同的实体组成。

为什么研究蛋白质组？

过去十年中，DNA 测序技术取得了重大进展，使得 8000 多种生物的完整基因组得以确定，并且大约另有 37 000 个物种具备部分草图基因组（draft genomes）（Mukherjee et al. 2017）。由此产生的一个直接结果是，推定蛋白质序列或“虚拟蛋白质组”（virtual proteomes）的数量呈指数级增长。这进一步带来了一个关键需求：确定这些蛋白质在物理、结构和功能层面所发挥的作用。

鉴于蛋白质组具有复杂而动态的性质，研究表达蛋白质时，不仅需要识别该蛋白质来源于哪个对应基因，还需要确定在特定生物学情境下，相应蛋白质以何种形式存在，并与哪些分子或结构发生关联。这通常称为蛋白质表征（protein characterization）。

20 世纪 90 年代，生物质谱（biological MS）作为一种灵活、灵敏且快速的方法出现，能够在复杂生物混合物中识别并定量蛋白质。这一技术进展推动了蛋白质组学时代的到来。

086

Mass Spectrometry

PDF page 337-341；印刷页码 317-321

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Mass Spectrometry

Mass Spectrometry

质谱（mass spectrometry，MS）是一种用途广泛的分析技术，能够精确测量样品中化合物的分子质量。分子质量（molecular mass，或 molecular weight，分子量）是所有元素、化学物质和分子的基本性质。如果能够非常准确地测定分子质量，就可以确定某一化合物的分子式，甚至推断其结构。MS 的基本原理是：从样本中的有机或无机化合物产生带电的气相离子，随后根据这些离子的质荷比（mass-to-charge ratio，m/z）和强度（intensity，即丰度 abundance）对其进行分离和检测。质谱仪通常由样品离子化装置（sample ionizer）、质量分析器（mass analyzer）和检测器（detector）组成。离子化装置从待测样本中形成气态离子，例如可通过激光轰击样本实现。离子的质量由质量分析器测定；质量分析器根据离子的 m/z 比值对其进行分离，并将不同离子导向检测器，在检测器中以电子方式感应这些离子；相应信号随后被转换为数字输出，即质谱图（mass spectrum）。

Ionization

自 20 世纪 50 年代以来，MS 一直是挥发性有机化合物分析的标准工具；而其在蛋白质组学领域的应用，则随着 20 世纪 80 年代 ESI（Fenn et al. 1989）和 MALDI（Karas and Hillenkamp 1988）等软电离（soft ionization）技术的发展而迅速兴起。在 ESI 中，液体样品通过针状毛细管喷入离子源。在样品流出口与质量分析器入口之间施加高电压（可采用正离子模式或负离子模式）。液体持续吸收电荷，变得不稳定，并以微小的高电荷液滴形式释放出来。喷雾中的溶剂蒸发会产生带电的分析物离子；这一过程可通过让喷雾通过干燥气流（例如氮气）来促进。

相反，MALDI 在真空中使用紫外激光束轰击位于靶板上的化学基质中包埋的样品分子，使其解吸并离子化。基质通常由高度共轭的有机酸构成，例如常用的 2,5-dihdroxybenzoic acid（DHB）。基质以热的形式吸收能量后升华成气态云，从而引发解吸，同时使分析物保持完整。气态云中分子之间的碰撞使能量从基质转移至分析物。随后，受激基质与分析物之间发生质子转移，引起去溶剂化（de-solvation），形成质子化或去质子化离子。上述温和而有效的 ESI 和 MALDI 方法，使蛋白质或肽分子在离子化过程中能够保持相对完整，显著提高了可检测质量范围的动态上限，从 <1000 Da 提高到 >500 000 Da。因此，MS 对多肽的检测效率大幅提升，也使生物样品中蛋白质组分的常规分析成为可能。

Mass Analyzers

由上述任一离子化方法产生的离子，都可以通过质量分析器进行分选和测量。常规蛋白质分析中使用的质量分析器有多种类型。它们在以下方面各不相同：分离或碎裂离子的基本方式；测定离子质量的准确度（mass precision，质量精度）；区分具有相同名义质量或单位质量组分的能力（resolution，分辨率）；以及质量分析器可测量的 m/z 比值范围（dynamic mass range capability，动态质量范围能力）。四极杆（quadrupole）、飞行时间（time of flight，TOF）、傅里叶变换离子回旋共振（Fourier transform ion cyclotron resonance，FT-ICR）、离子阱（ion trap）和 Orbitrap 都代表了质量分析器的主要类别，尽管每一类内部还存在许多变体。

四极杆质量分析器是一种低分辨率分析器，由四根带电杆以网格方式排列组成，并利用交变的四极电场快速分离并选择（传输）目标离子（Figure 11.2）。通过控制施加电压，可以定性选择具有特定 m/z 比值的离子，并将其转移至检测器。

Figure 11.2 Quadrupole mass analyzer. 四极杆质量分析器示意图。四极杆质量分析器由四根平行圆柱杆组成，每一对相对的杆彼此电连接，并在两对杆之间施加带有直流偏置的射频电压。离子沿四极杆之间的通道运动；在给定电压偏置下，只有在振荡电场中具有稳定轨迹的特定 m/z 比值分子（resonant ions，共振离子）能够到达检测器，从而实现对样品离子的过滤。轨迹不稳定的离子（non-resonant ions，非共振离子）会撞击杆体并丢失。

在 TOF 质量分析器中，离子由已知强度的电场加速。由于离子的初始速度取决于其 m/z 比值，它们会在不同时间到达检测器，其中质量较轻和/或带电荷较多的离子先到达。因此，可以根据离子到达分析器的“飞行时间”（TOF）对其进行区分（Figure 11.3）。

离子阱分析器利用磁场和电场的组合，在隔离环境中捕获离子。离子可通过 Penning trap（FT-ICR）、Paul ion trap（quadrupole ion trap）、Kingdon trap 以及 Orbitrap 捕获；其中 Orbitrap 是对 Kingdon trap 的一种显著改进实现。上述不同质量分析器的多种组合目前已被广泛使用。

Figure 11.3 Time of flight (TOF) mass analyzer. 飞行时间（TOF）质量分析器示意图。在 TOF 质量分析器中，质荷比由离子到达检测器所需的时间确定。离子通过施加已知电压的电场而被加速，并通过飞行时间管。每个离子的速度取决于其质荷比，因此 m/z 较低的离子会先于 m/z 较高的离子到达检测器。

三重四极杆质量分析器（triple quadrupole mass analyzer）是四极杆分析器的一种变体，它使用三个四极杆的线性串联结构（本质上相当于两个质谱仪通过中央四极杆连接在一起），以提高灵敏度和分辨率。中央四极杆可用于碎裂离子，从而实现一种非常有用的技术，称为串联质谱（tandem MS），通常称为 MS/MS 或 MS2。在该技术中，通过第一分析器后检测到的选定目标离子，会在第二单元中发生碎裂，然后在第三单元中被检测（Box 11.1）。因此，在某些配置下，质谱仪可以碎裂选定的离子种类，以推断其相应的分子结构（例如多肽序列），或获得更深层次的结构信息（例如蛋白质 PTM 或折叠状态）。

Box 11.1 Tandem Mass Spectrometry（Figure 11.4）

• 串联质谱（tandem mass spectrometry，MS）是一种包含多轮分析的 MS 技术。通常，在离子源中形成的离子会在第一轮质量分析（MS1）中按照其 m/z 比值分离。随后，离子根据其 m/z 比值（precursor ions，前体离子）和相对强度被依次选择，并通过分子活化增加其内能，使其发生碎裂。所得产物离子（product ions）再在第二阶段质量分析（MS2）中被分离和检测。碎裂来源于第一轮分析中形成的分子离子的解离，是串联 MS 的关键组成部分。用于碎裂离子的活化方法可以是碰撞型、基于电子的，或涉及光活化。常见的离子活化/碎裂方法包括 collision-induced dissociation（CID；Jennings 1968）、electron capture dissociation（ECD；Zubarev et al. 1998）、electron transfer dissociation（ETD；Syka et al. 2004）、higher energy collisional activation dissociation（HCD；Olsen et al. 2007）和 infrared multi-photon dissociation（IRMPD；Little et al. 1994）。

• 碰撞碎裂（collisional fragmentation）。CID 又称 collisional-activated dissociation（CAD），是一种常用的气相离子碎裂技术。CID 涉及目标离子与非反应性气体原子（通常为氦、氮或氩）之间的高能碰撞。在碰撞过程中，分子离子的动能被转化为内能；内能积累会导致键断裂，使前体离子解离为较小片段，随后由 MS2 检测。HCD 是 Orbitrap 特有的一种 CID 技术，其碎裂发生在离子阱外部。大多数碰撞方法具有较高效率，因此几乎在所有 MS2 蛋白质组学研究中都是首选方法。

• 光活化碎裂（photo-activated fragmentation）。IRMPD 是一种利用红外激光束增加被捕获离子内能的方法。激光束中的光子被被捕获离子吸收，产生振动激发态，进而通过键解离释放能量，这一过程与 CID 非常相似。通过碰撞碎裂或光活化碎裂通常产生的离子，是由较弱酰胺键解离形成的 b 离子和 y 离子。这些技术在肽、脂质和小分子分析方面相当高效，但可能去除 PTM。

• 基于电子的碎裂（electron-based fragmentation）。在 ECD 中，目标肽离子受到低能电子（约 0.2 eV）照射，捕获一个电子后形成不稳定的电荷降低物种，该物种随后解离，产生可提供肽序列信息的碎片离子。ETD 与 ECD 类似，但其解离由带相反电荷的离子之间的电子转移诱导。无论是 ECD 还是 ETD，碎裂都发生于 N–Cα 键断裂，从而产生互补的 c 离子和 z 离子。ECD 和 ETD 现已广泛用于全长蛋白质研究，即所谓“自上而下”（top-down）测序，以及带有不稳定 PTM（如磷酸化）的肽段研究。

（续）

Box 11.1（Continued）

使用振动激发的 MS/MS 方法（例如用于肽碎裂的 CID）的一个缺点是，它们可能导致肽主链或侧链中某些较弱键的偏向性断裂。这些较弱键包括 PTM，例如磷酸侧基可能成为优先断裂位点，导致 PTM 位点丢失，并产生复杂度降低、难以在序列层面解释的谱图。这又会导致漏鉴定、错误鉴定或错误的位点归属。相比之下，ETD 是一种更温和的碎裂方法，它利用低能电子转移，并通过一种更全面的非遍历（non-ergodic）过程保留 PTM 的修饰位点，因此成为 PTM 碎裂分析的优选方法。

与四极杆或三重四极杆分析器相比，TOF 质量分析器在分析多肽离子及其片段时提供更高的质量分辨率；而 FT-ICR 和 Orbitrap 质量分析器在所有分析器中提供最高的质量分辨率，但动态范围较为有限。

Figure 11.4 (a) Tandem mass spectrometry (MS). 串联质谱（MS）。用于串联 MS 肽测序的三重四极杆质谱仪示意图。(b) 液相色谱-串联质谱分析的第一阶段以 MS1 前体离子扫描（quadrupole 1）进行。在第二阶段，仪器以 MS2 模式运行，其中选定的前体离子（定义为 m/z）被传递至碰撞室（quadrupole 2）进行碎裂（例如通过与惰性气体相互作用）。所得肽离子片段随后在 quadrupole 3 中根据其表观 m/z 比值被分辨。

Ion Detectors

经过质量分析器后，分离出的（肽）离子撞击检测器（或离子收集系统），随后根据其 m/z 比值和相对强度（与丰度相关）进行鉴定。检测器能够放大信号，其中一些检测器灵敏度足够高，甚至可能检测到单个分子。质谱仪可使用多种类型的检测器。最常规使用的是电子倍增器（electron multiplier），其工作原理是检测带电离子撞击涂层检测器表面时产生的二次电子发射。在串联质谱仪中，离子收集系统还能够计算每一特定质量处所得离子片段的相对丰度。质谱仪连接到基于计算机的软件平台，以数字格式记录这些质谱图。随后的数据分析通过将 m/z 比值和相对丰度与已知分子数值数据库进行比较，从而鉴定相应的分子物种。

目前使用的质谱仪由上述离子化方法、质量分析器和离子检测器的任意组合构成，并且都将输出记录为一组连续直方图，表示离子化分子撞击离子检测器的信号，这被称为质谱图（mass spectrum）（Box 11.2）。

Box 11.2 The Mass Spectrum（Figure 11.5）

质谱图表示为二维条形图：Y 轴为信号强度，X 轴为 m/z 比值，其中包含许多信号强度峰，对应于被检测离子的 m/z 比值和强度。这里，m 表示离子的质量，z 表示离子携带的电荷。被移除电子的数量即电荷数（对正离子而言）；+1、+2、+3 分别表示带有一个、两个和三个电荷的离子。对于电荷为 1 的离子，m/z 比值就直接表示离子的质量。峰的位置，或通常所称的特定信号，对应于由肽产生的离子的各种 m/z 比值，并可作为生物样本中肽和蛋白质的富含信息的分子指纹。

Tandem Mass Spectrometry for Peptide Identification

与液相色谱结合时，串联 MS（LC-MS/MS）涉及在质量分析器中进行多轮连续的离子选择和碎裂（Box 11.1）。通过不同离子活化方法引发离子碎裂，可为所研究分子的分子结构（例如肽序列）提供关键信息，是串联 MS 的必要组成部分。这些离子活化方法通常应用于不同质量分析阶段之间，可以单独使用，也可以联合使用；它们会产生丰富的碎片模式，从而提供关于分子组成的精确信息。MS2 数据生成的速度和特异性决定了 LC-MS/MS 分析复杂生物样品的效率，例如多肽混合物的测序深度。

每一条记录到的 MS2 谱图，都是某一特定肽段在其通常具有特异性的主链酰胺键和/或侧链键断裂后所产生的、通常独特的碎裂模式的结果。与 MS 中的一贯原则相同，肽片段只有在携带电荷时才能被离子检测器检测到。如果电荷保留在片段的 N 端，该离子会根据断裂发生的位置被归类为 “a”、“b” 或 “c” 离子。如果电荷保留在片段的 C 端，则归类为 “x”、“y” 或 “z” 离子（Figure 11.6），并以下标表示片段中的位置或残基数。MS2 的特异性和低化学噪声使肽检测具有较高的选择性和灵敏度，从而能够对复杂样品进行定性和定量分析。

087

Tandem Mass Spectrometry for Peptide Identification

PDF page 341-342；印刷页码 321-322

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Tandem Mass Spectrometry for Peptide Identification

肽段鉴定中的串联质谱

离子检测器

通过分析器后，分离出的（肽段）离子会撞击检测器（或离子收集系统），随后根据其 m/z 比值和相对强度进行识别；相对强度与丰度相关。检测器能够进行信号放大，其中一些检测器灵敏度足够高，理论上可以检测到单个分子。质谱仪可配备多种类型的检测器。最常用的检测器是电子倍增器（electron multiplier），其工作原理是检测带电离子撞击涂层检测器表面时产生的二次电子发射。

在串联质谱仪中，离子收集系统还能够计算每一特定质量处所产生离子碎片的相对丰度。质谱仪与基于计算机的软件平台相连，这些平台以数字格式记录质谱图。随后通过数据分析，将检测到的 m/z 比值和相对丰度与已知分子数据库中的数值进行比较，从而鉴定相应的分子种类。

目前使用的质谱仪由上述离子化方法、质量分析器和离子检测器的任意组合构成。它们均将输出记录为一组连续的直方图，用来表示离子化分子撞击离子检测器的信号；这种输出称为质谱图（mass spectrum）（Box 11.2）。

Box 11.2 质谱图（Figure 11.5）

质谱图通常表示为二维柱状图：纵轴为信号强度，横轴为 m/z 比值，其中包含许多信号强度峰，这些峰对应于被检测离子的 m/z 比值和强度。这里，m 表示离子的质量，z 表示离子所携带的电荷。被移除的电子数称为电荷数（对于正离子而言）；+1、+2、+3 分别表示带有一个、两个和三个电荷的离子。对于电荷数为 1 的离子，m/z 比值就直接代表该离子的质量。

一个峰的位置，或者通常所称的明确的信号，对应于由肽段产生的各种离子的 m/z 比值，并作为一种信息丰富的分子指纹，用于表征生物样本中存在的肽段和蛋白质。

肽段鉴定中的串联质谱

与液相色谱结合使用时，串联质谱（tandem MS, LC-MS/MS）是在质量分析器中进行多轮连续的离子选择和碎裂（Box 11.1）。通过各种离子活化方法使离子碎裂，可以为所研究分子的分子结构提供关键信息，例如肽段序列；这一过程是串联质谱的必要组成部分。这些离子活化方法通常应用于不同质量分析阶段之间，可以单独使用，也可以组合使用，并产生丰富的碎片模式，从而为分子的组成提供精确信息。MS2 数据生成的速度和特异性决定了 LC-MS/MS 分析复杂生物样品的效率，例如多肽混合物的测序深度。

每一张记录下来的 MS2 谱图，都是某一特定肽段在其通常具有独特性的主链酰胺键和/或侧链键断裂后产生的碎裂模式的结果。与质谱中的一般情况相同，肽段碎片只有在携带电荷时才能被离子检测器检测到。如果电荷保留在碎片的 N 端，该离子会根据断裂发生的位置被归类为 “a”、“b” 或 “c” 离子。如果电荷保留在碎片的 C 端，则被归类为 “x”、“y” 或 “z” 离子（Figure 11.6），并以下标表示碎片中的位置或残基数。

MS2 的特异性和低化学噪声使其具有很高的肽段检测选择性和灵敏度，因此能够对复杂蛋白质混合物进行定性和定量分析。与高效液相色谱（high-performance liquid chromatography, HPLC）或超高压液相色谱（ultra-high-pressure liquid chromatography, UHPLC）肽段分离技术结合后，现代 MS2 工作流程可以在单次实验中以“shotgun”方式测序数千种不同的多肽。

Figure 11.5 碎裂串联质谱（MS/MS，或 MS2）谱图

质谱图是一个简单的二维图，展示实验测定得到的离子质荷比与强度之间的关系。在本例中，它表示由肽段碎裂产生的产物离子的分布或模式。图中突出显示的基峰（base peak，即最强峰）位于 448.99 m/z，对应于丰度最高的离子；通常将其相对丰度设定为 100%。其他峰则表示具有特定质量的碎片离子。纵轴显示相对丰度或强度，其中所显示的数值代表离子检测系统记录到的离子数量；也就是说，离子丰度越高，峰越高。M+ 是母体分子离子（parent molecular ion），即未碎裂的肽段离子失去一个电子后的形式。

MS2 中连续的质量分析阶段可以通过两种方式实现：空间串联（tandem-in-space）或时间串联（tandem-in-time）。空间串联是指一种 MS2 仪器配置，其中两个独立的质量分析器按顺序耦合在一起：首先在第一个质量分析器中通过离子选择完成 m/z 分离，随后在中间区域（例如碰撞室或离子阱）中发生解离；之后，离子被传输到第二个分析器中进行产物离子的质量分析。

第二种方式是时间串联，即使用单一质量分析器，在同一个装置中按时间顺序依次完成离子选择、活化和产物离子分析的所有步骤。空间串联仪器的例子包括四极杆（quadrupole）与 TOF 质量分析器的组合；而离子阱质量分析器则可以进行时间串联分析。原则上，这两类仪器都可以扩展为多级 MS，以提供更详细的结构信息；这通常称为 MSn，其中 n 表示碎片分析的阶段数。

088

Sample Preparation

PDF page 342-345；印刷页码 322-325

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Sample Preparation

Sample Preparation（样品制备）

细胞、组织或生物流体（如血浆）中蛋白质浓度具有高度复杂性、多样性和极宽的动态范围，这使得蛋白质的全面鉴定和定量具有挑战性，尤其是低丰度蛋白和膜相关组分。为了获得更好的离子化效率和鉴定率，通常使用具有序列特异性的酶（如 trypsin，胰蛋白酶）通过酶切消化将多肽切割为较小的肽段。Trypsin 具有极高的切割特异性，可通过水解 lysine（K）或 arginine（R）残基羧基端一侧的肽键来切割蛋白质，但当其后接 proline（P）时例外；这一过程通常产生长度为 6–20 个或更多氨基酸的肽段，非常适合通过 LC-MS/MS 进行检测和测序。蛋白水解切割可显著提高检测灵敏度，从而改善蛋白质组覆盖度。由于 trypsin 在多种条件下具有较高的蛋白水解活性和稳定性，它已成为基于 MS 的蛋白质组学中首选的蛋白酶；不过，其他酶也可提供互补的序列覆盖。

![Figure 11.6 多肽骨架切割产生不同的产物离子类型。]

Figure 11.6 多肽骨架切割产生不同的产物离子类型。

（a）示意图显示了多肽骨架发生碎裂的典型位点，并采用标准 Roepstorff–Fohlmann–Biemann 命名法进行标注（Roepstorff and Fohlman 1984）。肽段碎裂是键活化和断裂的结果——例如，由于与惰性气体碰撞（CID）而产生 b 离子和 y 离子，或由于电子转移（ETD）而产生 c 离子和 z 离子。离子从氨基端开始标记为 a1、b1 和 c1，其中下标表示该离子所包含的氨基酸侧链数量。

（b）当电荷保留在氨基端片段上时，会产生 a、b 或 c 片段离子；而当电荷保留在羧基端片段上时，会产生 x、y 和 z 片段离子。

在复杂肽段混合物能够通过 MS 分析之前，通常需要先通过生化分离进行处理和简化，例如使用反相 LC，或采用亲和捕获富集目标肽段。PTMs（post-translational modifications，翻译后修饰）尤其受到关注，因为它们是调节蛋白质合成后活性或相互作用的重要且常见的调控机制。这些调控可以通过酶介导添加一个或多个共价功能性化学基团（如 phosphorylation，磷酸化），也可以通过活细胞内的蛋白水解切割实现（Box 11.3）。基于 MS 的 PTM 检测在生物学上具有很高的信息价值，因为 PTM 几乎影响正常细胞生物学和稳态的所有方面，从蛋白质功能到物理结合事件（如 protein–protein interactions，蛋白质–蛋白质相互作用）均包括在内。然而，由于 PTM 通常是瞬时的且低于化学计量水平（sub-stoichiometric，即在任一时刻并非给定蛋白质的所有分子都发生该修饰），因此检测起来可能较为困难。为了提高可检测性，研究者开发了针对特定修饰的生化富集技术，如亲和捕获，用于在消化前或消化后分离经 PTM 修饰的蛋白质，以帮助检测和表征修饰肽段。例如，对 serine 和 threonine 磷酸化进行选择性亲和捕获和分析，通常可通过 immobilized metal ion affinity chromatography（IMAC，固定化金属离子亲和色谱）实现，例如使用 titanium dioxide（TiO2）beads。不同的色谱分离方法可以单独使用，也可以组合使用，其目的都是生成更简化的分子（肽段）混合物，使其能够以更高效率注入并离子化进入质谱仪。除促进 PTM 检测外，样品制备过程中通过预分级和靶向富集实现的样品简化，也在从日益多样化的生物样品中获得较高蛋白质序列覆盖度和总体鉴定率方面发挥重要作用。

Box 11.3 Post-Translational Modification（Figure 11.7）

蛋白质翻译后修饰（protein post-translational modifications, PTMs）是细胞响应环境刺激的主要机制之一。它们在控制细胞过程方面发挥关键作用，包括调控细胞分化、降解、基因表达以及蛋白质–蛋白质相互作用的信号转导通路。PTMs，如 phosphorylation（磷酸化）、glycosylation（糖基化）、ubiquitination（泛素化）、nitrosylation（亚硝基化）、methylation（甲基化）、acetylation（乙酰化）、sumoylation（SUMO 化）和 proteolytic processing（蛋白水解加工），通常会影响正常细胞生物学和稳态的几乎所有方面。由于 PTMs 往往具有动态性、低于化学计量水平（不完全）和瞬时性（可逆），它们使蛋白质组的功能和结构多样性呈指数级增加。鉴定这些修饰并理解其作用，对于研究细胞生物学、疾病发病机制以及开发新治疗方法至关重要。

Phosphorylation 是最常见且研究最深入的 PTM；目前已有超过 58,000 个具有实验证据支持的修饰位点，因此“phosphoproteomics”（磷酸化蛋白质组学）成为功能蛋白质组学的一个重要分支。Phosphorylation 是一种关键的可逆修饰，通过在蛋白质的 serine、threonine 或 tyrosine 残基（在原核生物中也包括 histidine）上添加 phosphate group（磷酸基团）而发生，并在维持细胞内众多细胞过程和信号通路的完整性方面发挥关键作用。例如，与质膜受体相关的 protein kinases（蛋白激酶）是一类酶，能够催化关键胞内信号蛋白 tyrosine 残基的磷酸化，而这些蛋白在信号转导过程中具有重要作用。破坏 tyrosine kinases 功能的基因组异常可导致细胞转化和癌症，tyrosine kinase protein ABL 即为一例。导致形成 BCR–ABL1 fusion protein 的 ABL 突变，会驱动 chronic myelogenous leukemia（CML，慢性粒细胞白血病）的发病机制；CML 是一种可治愈的骨髓癌症，可被抑制性药物有效靶向治疗。

089

Bioinformatics Analysis for MS-based Proteomics

PDF page 345-348；印刷页码 325-328

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Bioinformatics Analysis for MS-based Proteomics

Bioinformatics Analysis for MS-based Proteomics

Figure 11.7 翻译

Figure 11.7 翻译后图中文字

Target protein：靶蛋白
mRNA：mRNA
Ribosome：核糖体
Protein：蛋白质
NH3：NH3

Nitrosylation：亚硝基化

将 NO 共价连接到蛋白质的半胱氨酸残基上。

Phosphorylation：磷酸化

在蛋白质的丝氨酸、苏氨酸或酪氨酸残基上添加一个磷酸基团。

Acetylation：乙酰化

在蛋白质的 N 端或赖氨酸残基处添加一个乙酰基。

Methylation：甲基化

添加一个甲基，通常发生在赖氨酸或精氨酸残基处。

ADP-ribosylation：ADP-核糖基化

向蛋白质添加一个或多个 ADP-核糖基团。

Glycosylation：糖基化

将糖连接到氨基酸侧链中的 N 或 O 上。

Prenylation：异戊二烯化

向 C 端半胱氨酸残基添加一个疏水分子。

Proteolysis：蛋白水解

蛋白质在蛋白酶作用下于其肽键处发生切割。

Neddylation：NEDD8 化

通过 C 端甘氨酸与赖氨酸残基之间的异肽键，将 NEDD8 添加到蛋白质上。

Ubiquitylation：泛素化

在蛋白质的赖氨酸、半胱氨酸、丝氨酸、苏氨酸残基处，或在 N 端氨基处添加 ubiquitin。

Sumoylation：SUMO 化

将小蛋白 SUMO（small ubiquitin-like modifier，小泛素样修饰物）添加到靶蛋白上。

Figure 11.7 翻译后修饰（post-translational modifications, PTMs）发生在蛋白质中不同的氨基酸残基上。虽然目前 UniProt 数据库中列出了超过 50 种 PTM，本图列出的是其中一些研究较为充分的 PTM。

基于 MS 的蛋白质组学的生物信息学分析

MS 实验产生的数据量非常大，几乎每一张谱图都包含数以万计的数据点。由于测量误差、缺失值以及实验不同阶段引入的伪影，这些数据本身具有较高噪声。在利用谱图识别真实信号（例如肽段碎片）之前，需要通过多变量统计方法对数据进行清理或预处理；这一过程可以降低谱图噪声和复杂度（维度），在肽段或蛋白质鉴定之前生成规模小得多、并且在统计上可处理的一组明确峰。多数商业 MS 仪器都配备软件，可基于各种预设参数和算法执行数据预处理，以便进行多种信号处理操作，包括基线校正、平滑、归一化和峰提取，从而产生更容易解释的 MS 谱图（Figure 11.8a）。数据平滑使用 Savitzky-Golay filtering、mean 或 median filtering、Gaussian filtering 等信号处理技术，去除谱图中由仪器噪声导致的低信号波动。基线校正涉及 Top Hat filter、Loess derivative filters 或 linear splines 等方法（Bauer et al. 2011），可去除估计的化学噪声；这类噪声可能来自整个仪器工作流程中存在的痕量污染物。平滑和基线校正是分别应用于每一张谱图的，而归一化则通过将所有谱图转换到相同的强度范围来校正系统性仪器变异，使同一实验中记录的谱图更具可比性。最后一个关键步骤是定义峰，即峰提取（peak picking）。该步骤利用若干成熟方法之一，根据 signal-to-noise ratio（SNR，信噪比）、centroid、Gaussian fit，或 center-of-width at half-maximum height 等指标，确定每个峰的精确质量、峰顶和强度。所得峰列表随后用于下游统计分析和生物学解释。

Figure 11.8 翻译

Figure 11.8 图中术语

Data smoothing：数据平滑
Baseline reduction：基线降低
Peak picking：峰提取
baseline：基线
m/z：m/z
Relative intensity (%)：相对强度（%）
Monoisotopic m/z：单同位素 m/z
Average m/z：平均 m/z
Monoisotopic m/z = 14838.008：单同位素 m/z = 14838.008
Average m/z = 17847.4411：平均 m/z = 17847.4411

Figure 11.8 质谱图的数据预处理工作流程。质谱图预处理工作流程中的不同步骤。（a）预处理步骤包括数据平滑、基线校正和峰提取。在将质谱图转换为适合进一步统计分析的峰列表时，每一步都有多种算法可用；这些峰列表随后用于肽段和蛋白质鉴定过程。（b）一个单同位素质量为 584.3124 的肽段碎片在不同电荷状态（+1、+2、+3）下可能产生的质谱图示意。（c）Gallus gallus 蛋白 lysozyme 的同位素包络图，显示其单同位素质量和平均质量。

Figure 11.8（续）

已有若干高级处理技术被开发出来，用于定义相关肽峰簇。这些峰簇可能来自多种电荷状态的存在、稳定同位素的天然丰度，以及 PTM 引起的质量偏移。由于质谱仪测量的是 m/z 比，而不是严格意义上的质量，因此具有相同质量但带有不同电荷状态的离子（例如 +1、+2、+3，分别来自一个、两个或三个质子离子的存在）会以不同的 m/z 比被检测到。例如，与带单电荷（+1）的肽离子相比，带 +2 电荷的肽离子（双质子化）所检测到的 m/z 比大约减半；而带 +3 电荷的第三种离子（三质子化）则只表现为三分之一的 m/z 值，依此类推（Figure 11.8b）。MALDI 电离通常产生低电荷状态（+1）的离子，而 ESI 过程则常常产生具有多种电荷状态的前体离子。为了实现准确检测，理想情况下应将每一张 m/z 谱图转换为一种与电荷状态无关的质量表示：即把 MS 检测到的某一肽段的所有多电荷形式重新计算为相应的单电荷形式，并将其归为一组，以计算总强度和峰宽。将多电荷状态简化为单一质量测量值的过程称为电荷状态归约（charge state reduction）或去卷积（deconvolution）。这些过程需要使用软件工具，并利用现代质谱仪的高分辨率；现代质谱仪能够分辨单个肽段的不同稳定同位素峰。例如，含有一个 13C（重同位素）元素的肽段，其测量质量会比相应的 12C（大量存在的天然碳）对应物重 1 Da。由于多数生物分子天然具有这类同位素变异（这里约 1% 的碳为 13C），通常每个分子都会观察到多个同位素峰，从而形成一个离子包络，并在 m/z 比上表现出特征性的质量偏移（Figure 11.8c）。

质谱仪系统产生的数据有以下两种形式。

Average mass（平均质量）。这是该分子所有已观察到同位素形式的加权平均质量，通常由无法分辨同位素的低分辨率仪器报告。

Monoisotopic mass（单同位素质量）。这是根据高分辨率谱图计算得到的，等于每种元素最丰度同位素的精确质量之和；其计算过程称为 “de-isotoping”，即去除最终峰列表中不需要的同位素。

单同位素质量被认为更准确，因为平均质量会受到天然同位素丰度变化的影响，因而无法同样精确地确定。同位素峰和单同位素质量的检测也有助于电荷去卷积过程。例如，一个带 +2 电荷的分子，其稳定同位素峰在谱图上的间隔约为 0.5（1/2）Da；带 +3 电荷时，间隔约为 0.33 Da，依此类推。

质量偏移还可能由化学加合物（例如钠）引起，这些加合物可在体外与肽段结合；也可能由化学修饰（例如生物学 PTM）或体外实验诱导的改变造成。例如，在样品制备过程中，甲硫氨酸残基常常会发生氧化，每添加一个氧原子，质量增加 16 Da。因此，加合物和 PTM 的检测依赖于确定胰蛋白酶肽段质量的改变，以及特定氨基酸残基侧链修饰后产生的产物碎片。为了准确鉴定修饰位点，必须同时在前体肽离子以及携带该修饰残基的一部分 N 端和 C 端碎片离子中检测到特征性的质量偏移。如果高分辨率仪器获得的 MS2 数据质量良好，则可以可靠地鉴定并定位单个肽段中的一个或多个候选修饰残基。

090

Proteomics Strategies

PDF page 348-354；印刷页码 328-334

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics Strategies

Proteomics Strategies

蛋白质组学策略

用于蛋白质分析的两种主要蛋白质组学策略是“bottom-up”（自下而上）和“top-down”（自上而下）方法。对蛋白质经蛋白水解消化后获得的肽段进行分析，通常称为 bottom-up proteomics 或 shotgun proteomics（鸟枪法蛋白质组学），并构成了迄今为止大多数蛋白质组学研究的基础。与 bottom-up 方法相对，top-down proteomics（TDP，自上而下蛋白质组学）是一种将 MS 用于探索完整蛋白质“proteoforms”（蛋白质形式）的概念。Bottom-up 策略可采用 targeted（靶向）或 global（全局）方法。在 targeted proteomics（靶向蛋白质组学）中，只用 MS 专门分析一小组预先选定的蛋白质；而在 global proteomics（全局蛋白质组学）中，则试图以最小偏倚分析给定样品中存在的所有蛋白质。

大多数标准的基于 bottom-up MS 的蛋白质组学研究包含三个不同阶段（Figure 11.9）。

使用多种生物化学方法从一个或多个生物来源中提取和纯化蛋白质，随后将分离出的蛋白质经蛋白水解消化为肽段，并对所得混合物进一步进行液相色谱分级。

对所得肽段进行定性和/或定量质谱分析。

基于序列数据库搜索，对记录到的谱图数据集进行计算分析，以确定肽段氨基酸序列；其目标是鉴定并定量蛋白质，随后进行统计分析，以确保赋值结果具有可信度。

蛋白质组学研究的科学目标可能不同，可以是定性研究，也可以是定量研究。定性研究侧重于系统鉴定样品中的蛋白质，并表征其 PTMs（post-translational modifications，翻译后修饰）；而 quantitative proteomics（定量蛋白质组学）旨在测量绝对或相对蛋白质水平，例如样品之间蛋白质丰度的差异（如病例与对照；Box 11.4）。定量蛋白质组学是一种强有力的策略，可用于 shotgun 分析和 targeted 分析，通过定量相应的分子离子，理解不同条件下（如病理生理背景中）细胞、组织或生物体内全局蛋白质表达动态以及 PTM 模式的变化。该方法已在 systems biology（系统生物学）、biomarker discovery（生物标志物发现）和 biomedical research（生物医学研究）中形成了富有成效的应用领域。

Box 11.4 Quantitative Proteomics（Figure 11.10）

• Label-free quantification（无标记定量）。 这是一种相对定量技术，用于比较两次或多次 liquid chromatography tandem mass spectrometry（LC-MS/MS，液相色谱-串联质谱）运行之间的蛋白质或肽段水平。在这里，其假设是：在理想条件下，在不同实验条件下测得的相同肽段，可以直接使用记录到的 MS1 强度或谱图计数进行比较。无标记技术的优点是，它不需要进行标记所需的额外实验步骤，并且任意数量的实验都可以较容易地进行比较。其缺点来自 MS/MS 固有的欠采样问题：复杂混合物中存在的并非所有肽段都能在样品之间被一致检测到，即使是重复运行也如此，这会导致丰度估计产生方差，从而削弱差异水平统计度量的效力。

• Labeling strategies（标记策略）。 蛋白质组学样品可以通过体内 metabolic labeling（代谢标记）进行同位素标记，也可以通过对提取出的蛋白质或肽段进行体外化学标记来实现。由于同一（多）肽的轻同位素形式和重同位素形式在化学性质上相同，它们通常会在 LC 分级过程中共同洗脱，因此可以同时被检测到；但在 MS 分析中，由于其质量不同，又可以被区分。随后，可比较两个或多个实验组中测得的重标记肽段与轻标记肽段峰强度比值，以确定一个样品相对于另一个或多个样品的丰度变化。如果测量以精确方式产生，则可可靠地推断具有统计学意义的变化。可在样品制备过程中，采用体内和体外方法，在蛋白质或肽段水平引入多种同位素标记或标签。下面讨论不同的标记策略。

Figure 11.9 Shotgun proteomics workflow.

Figure 11.9 Shotgun proteomics workflow. 示意图显示了典型“bottom-up” liquid chromatography tandem mass spectrometry（LC-MS/MS）流程中涉及的不同步骤。蛋白质样品通常使用 trypsin（胰蛋白酶）进行酶促消化，生成肽段；随后对这些肽段进行色谱分离，以在注入（electrospray，电喷雾）串联质谱仪进行碎裂之前简化样品。电离后，气相 precursor ions（前体离子）在第一轮扫描中产生 MS1 谱图。这些 parent（precursor）ions（母离子/前体离子）随后 either individually（data-dependent acquisition，数据依赖采集）或 concomitantly（data-independent acquisition，数据非依赖采集）发生碎裂，产生 MS2 谱图。获得的 MS2 谱图随后通过多种搜索算法进行肽段鉴定（数据库或谱图库搜索）和蛋白质推断（综合评分）。

Figure 11.10

Figure 11.10 A schematic diagram comparing the label-free approach with the different labeling strategies. 比较 label-free 方法与不同 labeling strategies 的示意图。由红色矩形表示的同位素标记在定量蛋白质组学工作流程的不同阶段被引入样品中，随后样品被混合并接受质谱仪分析。

– Metabolic labeling（代谢标记）。 体内稳定同位素标记是通过在含有特定氨基酸或营养物的条件下培养所研究的细胞或生物体来完成的，这些氨基酸或营养物含有一个或多个重同位素。较常用的代谢标记技术之一是 stable isotopic labeling by amino acids in a cell culture（SILAC；Ong et al. 2002），即细胞培养中的氨基酸稳定同位素标记。在 SILAC 中，培养基中存在的重同位素在生长过程中被引入哺乳动物细胞，从而在 MS 分析中使消化后的肽段质量发生可预测的偏移，该偏移与标记掺入效率成比例。经 MS 分析的差异标记样品中的肽段通常被检测为成对峰，其中观察到的质量差异反映了所用标记氨基酸的数量和性质，从而允许快速比较肽段和蛋白质比值。在 SILAC 实验中，重标记 lysine（赖氨酸）和 arginine（精氨酸）用于对待比较的两个（或三个）样品进行双重（或三重）标记。其他同位素标记技术主要使用体外方法；如下所述，这些方法通常通过化学或酶促处理，对纯化的或经蛋白水解消化的测试样品和参照蛋白质样品进行共价修饰来实现。

– Chemical labeling（化学标记）。 Isotope-coded affinity tagging（ICAT；Gygi et al. 1999，同位素编码亲和标签）是一种开创性的化学标记技术，其中蛋白质样品在 cysteine（半胱氨酸）残基处与同位素重试剂或轻试剂偶联。ICAT 试剂由三个组成部分构成：一个针对 cysteine 的反应基团，用于标记氨基酸侧链；一个八重氘代（d8；使肽段分子质量增加 8 Da）或轻型（d0）连接区域；以及一个用于亲和分离标记多肽的 biotin（生物素）标签。随后将标记样品混合，用适当的 protease（蛋白酶）如 trypsin 进行消化，在 streptavidin（链霉亲和素）亲和柱上进行标签捕获，然后在进行 MS 分析之前洗脱。

另一种替代性的、成本较低的化学标记技术是 dimethyl labeling（二甲基标记）。该技术在蛋白质经过蛋白水解消化后应用，基于肽段一级胺的反应（肽段 N 端和 lysine 残基的 epsilon 氨基；Hsu et al. 2003）。二甲基标记试剂由 formaldehyde（甲醛）和 cyanoborohydride（氰基硼氢化物）组成，其标记形式含有氘代氢和 13C 原子的组合，并可用于 triplex（三重标记）。这使得可以在一次 MS 运行中，通过比较二甲基标签的质量差异来确定不同样品中的蛋白质丰度，从而对三个样品进行定量分析。

– Enzymatic labeling（酶促标记）。 酶促标记技术，例如使用 trypsin 等蛋白酶进行的蛋白水解标记，可在切割（水解）反应过程中引入 18O（或常规 16O）标记水，从而生成同位素标记肽段。例如，在一个两步反应中，多肽水解切割时，一个 18O 或 16O 原子被掺入所得肽段的羧基末端；随后发生羧基氧交换反应，将第二个 18O（或 16O）原子掺入每条肽段的羧基末端（Miyagi and Rao 2007）。

所有同位素标记技术都允许基于测量差异标记肽段之间的质量差异进行相对定量，但受限于一个实验组中可共同研究（multiplexed，多重化）的样品数量。质量差异这一概念通常限于二元（2-plex）或三元（3-plex）试剂组，因为更高阶多重化会导致 MS1 谱图复杂性增加、区分能力下降。通过使用为更高多重化而设计的 isobaric tags（等重标签；见 Isobaric Tagging），可以在一定程度上克服这一限制。

– Isobaric tagging（等重标记）。 Isobaric tag for relative and absolute quantification（iTRAQ；Ross et al. 2004）和 tandem mass tag（TMT）reagents（Thompson et al. 2003）代表了两种可用于定量 MS 的等重标记技术。iTRAQ 试剂有 4-plex 和 8-plex 形式，而 TMT 试剂有 2、4、6、8、10，以及最近的 11-plex 形式。这些等重稳定同位素标签由以下部分组成：一个 mass reporter（质量报告基团），具有独特数量的 13C 和/或 15N 重同位素取代；随后是一个 mass normalizer（质量平衡基团），用于平衡标签质量，使所有标签具有相同质量，因此在 MS1 前体离子扫描中形成共同的 m/z 峰；最后是一个反应区域，将标签交联到目标多肽上的 amine（胺基）或 cysteine 残基。样品用各自的质量标签标记后合并，用于 LC-MS/MS 分析。由于所有标签具有相同质量，所有样品中存在的相同肽段表现出相同的质量偏移，并在 MS1 中作为单一前体离子峰共同洗脱。MS2 碎裂后（例如通过基于 higher energy collisional activation dissociation 的碰撞活化），报告标签在特定连接区域同时被切下，形成质量接近但彼此不同的分子片段报告离子；这允许对相对肽段强度进行并行定量，同时获得相应的肽段碎片离子系列，用于蛋白质序列鉴定。

用于比较性定量蛋白质组学分析的主要方法有两类：同位素标记技术和无标记技术。定量蛋白质组学中使用的 MS2 方法在很大程度上与蛋白质鉴定所用方法相同，但增加了用于丰度测量的一个维度。在 label-free 方法中，每个样品分别通过 LC-MS/MS 进行分析，然后基于每个样本或样品组中每个蛋白质或 PTM 位点获得的 MS2 谱图计数，对测得的离子水平进行比较。在基于标记的方法中，一个实验组内的样品被同位素标记（例如通过体外化学标签或体内代谢标记），随后合并并在同一次 MS 运行中一起分析；同位素标签的不同质量既区分了多重化样品的来源，也区分了每个样本中相应蛋白质的相对水平。通常认为同位素标记策略更准确，因为样品可以直接比较；并且由于样品处理和 MS 欠采样造成的变异被最小化，因此可产生更可重复的结果。然而，这些策略实施成本更高、耗时更长，在可合并样品数量方面更受限制，并且需要专门的软件工具进行数据分析（见 PSM Software）。另一方面，尽管 label-free 方法在所分析样品总数方面具有良好的扩展性，并且更容易实施，但它们在检测蛋白质丰度小差异方面可能效果较差，并且可能存在较低的可重复性。

相对定量比较两个实验组样品之间的蛋白质或肽段水平，例如测量健康状态与疾病状态、突变细胞与野生型细胞，或祖细胞与分化细胞之间分子谱的差异（Filiou Michaela et al. 2012）。而绝对定量使用 reference standards（参考标准品）来确定一个或多个样品中一个或多个目标蛋白质或肽段的精确数量，因此适用于确定蛋白质浓度、蛋白质复合物亚基化学计量关系以及 PTMs 的程度（Gerber et al. 2003）。

此外，蛋白质组学中通常使用两种不同策略，均涵盖 targeted MS：基于 discovery（发现）的 global profiling（全局谱分析）方法，以及 hypothesis-driven（假设驱动）的 directed（定向）方法（Schubert et al. 2017）。基于发现的蛋白质组学研究是开放式的，可在使用 bottom-up shotgun sequencing 时通过 data-dependent acquisition（DDA，数据依赖采集）程序完成。在 DDA 中，所有高于预定强度的肽离子都被选择用于 MS2 碎裂，并随后以迭代（串行）方式从所得碎裂谱图中进行鉴定。也可以进行 data-independent acquisition（DIA，数据非依赖采集），其中样品中肽段的共同碎裂和鉴定以更系统化、多重化的方式进行，最典型的是同时分析某一质量范围内的所有肽段。相比之下，假设驱动的蛋白质组学使用先验信息，预先选择仅一个或少数特别感兴趣的蛋白质和肽段用于 MS2 分析。这包括 targeted MS detection（靶向 MS 检测），例如 selected reaction monitoring（SRM，选择反应监测）。在 SRM 中，MS 会选择性筛选少数预先定义的 fragment reporter ions（碎片报告离子）的信号强度模式，这些离子特异于感兴趣的目标蛋白质或肽段，用以确认分子身份。在谱图中选择性检测到这些模式，即可鉴定相应分子。靶向蛋白质组学的优势在于，这种选择性筛选允许更灵敏、更特异的蛋白质检测。检测携带特定 PTMs 的肽段、代表明确分子响应的肽段，或血液中以痕量存在的候选循环生物标志物，是靶向蛋白质组学最常见的应用场景。

Shotgun 方法虽然流行且相对较易实施，但必须同时处理蛋白质推断（肽段到蛋白质的赋值）方面的歧义，以及序列/修饰覆盖不完整和不一致的问题。在 bottom-up 工作流程中，亲本完整蛋白质与相应消化肽段之间的连接关系会丢失，从而在综合分析过程中带来复杂性（即赋值问题）。由于 TDP 方法同时测量完整蛋白质以及由 MS2 产生的碎片离子质量，因此可以获得缺口更少、更高的序列覆盖度，有助于表征 proteoforms 等蛋白质变体。然而，尽管 TDP 技术减少了推断问题，它高度依赖 feature discrimination（特征区分）和 deconvolution（去卷积）（例如解析由 ESI 产生的高度复杂、多重带电完整蛋白质离子包络；Kelleher et al. 1999）。

现在，读者已经了解了蛋白质 MS、样品制备以及 biological MS（生物质谱）基础数据分析背后的一般概念，我们可以考察当前使用较多的基于 MS 的蛋白质组学技术。

091

Peptide Mass Fingerprinting

PDF page 354-356；印刷页码 334-336

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Peptide Mass Fingerprinting

Peptide Mass Fingerprinting

肽质量指纹图谱（peptide mass fingerprinting, PMF）是一种概念上较为简单的蛋白质鉴定技术。在该方法中，单一多肽（例如凝胶条带）首先由具有序列特异性的蛋白酶（通常为 trypsin）切割成较小的肽段，随后通过准确的 MS 测定所得肽段的质量。MALDI 或 ESI 分析为鉴定凝胶条带或斑点中的蛋白质提供了一种快速、准确且高效的方法。PMF 的基本前提是：任何独特蛋白质都可以较容易地用一组独特的肽质量来描述，这些肽质量对应于经酶切产生的特定子序列中的氨基酸组成。虽然某些蛋白质可能高度相似（由基因重复或旁系同源基因编码），但一个蛋白质序列中通常至少有一部分是独特的，因此应当能够产生特异、可识别的肽质量组合。因此，如果某一特定多肽以特定方式被切割，则由 MS 获得的所得肽质量会形成一种独特的“指纹”，可特异性地映射回相应的蛋白质序列；该序列需要预先已知，即来自参考序列数据库。

PMF 蛋白质鉴定过程的关键在于，将实验测定的肽质量与理论预测的质量进行比较和匹配。肽质量可以通过 in silico 方法推断：取给定生物体的注释蛋白质序列，并按照处理真实样品所使用的同一种酶（例如 trypsin）切割规则进行计算机模拟切割。对数据库中每个蛋白质的每个肽段质量进行计算，并将所得模式与 PMF 分析中观察到的质量进行比较（Figure 11.11）。统计方法用于确定某一给定蛋白质的哪种理论肽段组合与观察到的肽段最为匹配；这通常包括进行显著性评估，以计算该匹配由偶然因素产生的概率（即假阳性概率）。在预先定义的质量误差范围（mass tolerance，质量容差）内具有最佳对应关系的候选蛋白质，被认为是最可能的候选者。显然，当样品为蛋白质混合物时，PMF 更容易出错；如果所研究的生物体尚未完成测序，则 PMF 也无法使用。此外，在样品处理过程中必须谨慎，避免出现来自污染物的无关肽段，例如来自头发和皮肤的肽段，或 trypsin 自溶产生的肽段，因为这些都可能导致伪结果。蛋白质消化是一个随机过程，蛋白酶可能并不会在每一个切割位点处都完全切割多肽，从而产生漏切（missed cleavages）。不完全蛋白水解消化可能产生较长的肽段，这些肽段更难检测或裂解。如果在理论消化的序列数据库中包含所有可能的部分切割肽段，也会导致复杂度呈指数级增加。如果未考虑未知 PTMs（post-translational modifications，翻译后修饰）或样品制备过程中发生的化学修饰（例如氧化）的存在，也可能产生伪结果，因为这些修饰可增加或降低分子量。修饰的程度可以是不完全的（variable modifications，可变修饰），也可以是在某一特定氨基酸的所有出现位置上普遍存在的（fixed modification，固定修饰）；例如半胱氨酸的 carbamidomethylation（羧酰胺甲基化）就是样品制备中常用的一种反应，用于防止样品消化后形成半胱氨酸交联桥，该反应会增加半胱氨酸的分子量。由于匹配的只是肽质量，而不是精确序列，PTMs 的存在可能导致结果产生歧义。数据库中的理论肽质量数量会随着每一种可变修饰而呈指数级增长，从而降低匹配特异性，并显著增加搜索时间。因此，为了降低计算复杂度，需要限制允许的可变修饰数量；同时，参考数据库又必须能够考虑所有可能的漏切和可变修饰组合。

PMF 数据库搜索概念最早由 Henzel 及其同事实现，他们于 1993 年开发了 Fragfit 计算算法（Henzel et al. 1993）。该程序在搜索包含 91 000 条候选蛋白质序列的数据库时，仅使用每个蛋白质 3 个肽质量，就能准确鉴定从 Escherichia coli 细胞裂解液中分离出的蛋白质，展示了计算软件与 MS 联合用于蛋白质鉴定的价值。虽然 PMF 方法的核心优势在于只需（准确）测量（独特）肽段的质量，但当混合物中含有一个以上蛋白质时，PMF 算法会受到干扰。理想情况下，如果能够测定肽段的序列，而不仅仅是它们的质量，那么蛋白质混合物的问题以及蛋白质鉴定的置信度都可以得到改善。如下文所述，利用 tandem mass spectrometric techniques（串联质谱技术）实际上可以实现肽段测序。

---

Figure 11.11 Peptide mass fingerprinting (PMF) workflow.

Figure 11.11 肽质量指纹图谱（PMF）工作流程。 示意图显示了 PMF 流程中的不同步骤。纯化蛋白质样品经酶切消化后，提取出的肽质量通过 mass spectrometry（MS，质谱）进行测量；由于速度快且操作简便，通常采用 matrix-assisted laser desorption ionization（MALDI，基质辅助激光解吸电离）time of flight（TOF，飞行时间）MS。随后，将观察到的肽质量模式与理论计算质量进行比较；理论质量通过在参考数据库中的蛋白质序列上以 in silico 方式应用酶切割规则获得，并使用搜索算法进行分析，得到按排名排列的候选蛋白质列表。

图中主要流程标签：

Proteolysis：蛋白水解
Peptide mixture：肽混合物
Purified protein sample：纯化蛋白质样品
Intensity (%)：强度（%）
Mass spectra：质谱图
Peak list：峰列表
Match：匹配
In silico digestion：计算机模拟消化
Sequence database entry：序列数据库条目
Theoretical proteolytic peptides：理论蛋白水解肽段
Calculation of peptide mass：肽质量计算
Theoretical peak list：理论峰列表
Result：结果
Ranked list of protein candidates：候选蛋白质排名列表
Monoisotopic mass of Peptide (+)：肽段（+）单同位素质量
Seq No.：序列编号
Score：得分

092

PMF on the Web

PDF page 356；印刷页码 336

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PMF on the Web

PMF 的 Web 应用

Mascot

Mascot 是一种广泛使用的商业化 MS 搜索引擎，也是最早将基于概率的评分方法用于 peptide 和 protein 鉴定的搜索引擎之一。它源自 MOWSE 概率算法；MOWSE 只能进行 PMF 搜索，并且在计算 peptide mass values 之前，需要预先建立按特定 enzyme 划分索引的数据库。这使得搜索潜在的 PTMs 变得困难，因为每一种修饰组合都需要一个新的数据库。Mascot 的开发正是为了解决这些限制：它可以直接从 sequence databases 中“on the fly（即时）”计算质量值，从而不再需要数据库索引，并增加了对 PTMs 和更灵活搜索策略的支持（Perkins et al. 1999）。

数据以 peptide masses 或 peak lists 的形式在线提交。其他与搜索相关的参数（见 Table 11.2）包括样本（物种）taxonomy、protein reference database、潜在 modifications、proteolytic enzyme、允许的 missed cleavages 数量、所使用的 MS scan mode，以及在计算 peptide mass 时使用 monoisotopic mass values 还是 average mass values；这些参数连同 protein mass window 和 match error tolerance 一起作为输入提供。搜索结束后，系统会生成一份详细的 summary report，其中概括给出推定的 peptide 和 protein identifications（Figure 11.12）。

Mascot 在 peptide identification 中的基本思路，是计算观察到的实验数据与 reference database 中某个候选条目之间的匹配仅由偶然因素产生的概率。概率最低的 peptide 被视为最佳匹配，并以 −10*log10(P) 的形式报告，其中 P 为实际概率。Mascot 还通过 target–decoy 方法计算 false discovery rate（FDR；见 Box 5.4）来估计显著性：即使用相同参数，将搜索重复应用于一个序列被反向或随机化的数据库。由于在这个“decoy”数据库中预期不会出现真实匹配，因此其中的匹配数量可以很好地估计结果中的 false positives 数量。任何基于概率评分的 spectral matching 算法，其目标都是为 peptide-spectrum match 指定一个置信水平，以剔除 false positives；因此，在当时的其他 MS 搜索工具相比之下，这一方法具有巨大优势。

093

Proteomics and Tandem MS

PDF page 356-364；印刷页码 336-344

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics and Tandem MS

Proteomics and Tandem MS

虽然 PMF 是一种简单而快速的蛋白质鉴定方法，但它也存在一些重要缺陷。多个不同蛋白质同时存在、未被考虑的剪接变体，以及 PTMs 引起的意外质量偏移，都会削弱其有效性。只有当蛋白质的肽段处于所记录的质量范围内，并且对应于数据库中已有明确定义的序列时，才可能被鉴定出来。串联质谱（tandem MS，MS/MS 或 MS2）的引入，有助于克服其中许多限制。通过二级肽段碎裂获得的额外信息，以及更好的搜索算法，使复杂蛋白质混合物的分析成为可能。

![Figure 11.12 Mascot peptide mass fingerprinting (PMF)]()

Figure 11.12 Mascot 肽质量指纹图谱（peptide mass fingerprinting，PMF）。PMF 提交界面和搜索结果，展示代表性的蛋白质汇总报告，其中匹配肽段以红色标出。（a）PMF 提交表单，可选择搜索特异性参数，例如酶、漏切次数、物种分类、修饰以及肽段质量。（b）蛋白质搜索结果页面显示按排序排列的蛋白质列表，每个蛋白质均给出一个 −log10(P) 蛋白质得分。显著性得分最高的蛋白质被认为是最可能的匹配。（c）蛋白质视图页面在匹配的蛋白质序列中显示已鉴定肽段（红色）、序列覆盖百分比，以及已搜索和已鉴定的质量值数量。（d）蛋白质视图页面的续页列出已鉴定肽段序列的位置，同时给出实验质量（在提交表单中输入）以及搜索所用蛋白质序列数据库中计算得到的和理论的肽段质量。

Figure 11.12（续）

Peptide Spectral Matching

从生物混合物中鉴定蛋白质最常用的方法，通常涉及从 shotgun LC-MS/MS 数据集中推断肽段序列。这一过程通常通过数据库搜索方法完成，或通过肽段谱图匹配（peptide spectral matching，PSM）完成。在 PSM 中，以若干 MS 数据格式之一保存的已采集 MS2 谱图（见 Reporting Standards）会与一组编译好的注释蛋白质序列进行搜索比对；这些序列通常来自经人工审查的公共数据库，例如 UniProt 或 NCBI nr（见第 1 章；Table 11.1）。

在所有数据库搜索算法中，数据库中的每一条记录首先都会进行 in silico 酶切，即采用与实验样品实际酶切所用酶相同的特异性规则。随后，每个实验 MS2 谱图会与每个肽段的理论碎裂模式进行相关性比较。理论碎裂模式依据常见碎裂规则构建，这些规则会考虑具有相同质量（即 isobaric，等质量）的氨基酸离子、氨和水离子的丢失，以及离子的谱峰强度，以寻找合适的匹配。搜索通常限制在满足用户设定标准的一部分肽段范围内，例如质量容差、蛋白水解酶约束、是否允许漏切，以及是否存在可能的 PTM。

Table 11.1 常见蛋白质序列来源列表（以 FASTA 格式使用）。

Database	Type	URL
UniProt	Reference proteomes	www.uniprot.org/proteomes
NCBI – Protein	Reference proteomes	www.ncbi.nlm.nih.gov/protein
Ensembl	Reference proteomes	www.ensembl.org/info/data/ftp/index.html
PATRIC	Reference proteomes	www.patricbrc.org
WormBase	Nematode genomes	www.wormbase.org
FlyBase	Drosophila genomes	flybase.org

搜索输出是一组候选匹配列表，包括肽段序列及其对应蛋白质。这些候选项会被赋予得分并排序，以确定最可能的候选结果。不同的数据库搜索工具采用不同的评分方案，为每个匹配计算似然得分，从而区分潜在正确的指派与可能错误的指派。目前已有多种有效的 MS2 数据库搜索工具可用，包括成熟且广泛使用的商业发布软件，如 SEQUEST 和 Mascot；也包括免费可用的软件，如 X! Tandem、Andromeda/MaxQuant 和 MS-GF+（见 Internet Resources）。

为了尽可能提高肽段鉴定的可靠性，大多数算法还会将查询 MS2 谱图与同一参考序列的随机化或反向 decoy 版本进行搜索比对，以定义并最小化 FDR。也就是说，在给定得分下，计算随机匹配数量相对于非随机匹配数量的函数关系。随后，通过设置严格的评分阈值，从结果中过滤掉不可靠的鉴定结果，以在保留合理候选鉴定的同时尽量减少假阳性。最终确定的已鉴定肽段列表随后会在数据库搜索之后，通过数据归一化和统计评估组装为对应蛋白质，这一过程称为蛋白质推断（protein inference）。

使用 MS2 鉴定 PTMs 在计算上更为密集，也更容易出错，因为它需要在蛋白质数据库的大多数肽段序列中搜索所有潜在质量偏移组合。这会导致潜在候选匹配数量发生组合爆炸。因此，数据库搜索工具通常建议在一次运行中最多只搜索两种或三种不同修饰。Mascot、SEQUEST 和 MaxQuant 等大多数常规数据库搜索工具，只能检测固定数量的预先指定 PTMs。然而，也已经开发出更灵活的算法，用于鉴定未指定 PTMs。这些方法包括采用“blind”或 PTM-agnostic 搜索策略的算法，例如 Sequential Interval Motif Search（SIMS）；也包括混合搜索方法，例如 GutenTag、InsPecT 和 PEAKS PTM 中实现的方法。由于搜索空间在很大程度上没有边界，作为一种实用限制，混合搜索会先生成一个容错性的 de novo 初始搜索，用于缩小潜在候选序列范围；或者先进行一轮常规数据库搜索，以过滤得到较小的蛋白质候选池。

De Novo Peptide Sequencing

标准序列数据库搜索方法无法鉴定参考库中不存在的新肽段；当所研究生物的相应基因组序列不可用或不完整时，该方法也无法使用。在这种情况下，de novo sequencing 是一种替代方法，即在没有现存氨基酸序列先验知识的情况下，对肽段谱图进行测序。

De novo sequencing 利用两个相邻碎片离子之间的连续质量差，累积计算肽段骨架中相应氨基酸残基的质量。识别离散峰离子类型是 de novo 搜索算法的关键特征（Figure 11.13）。例如，利用碰撞诱导解离（collision-induced dissociation，CID）碎裂产生的 “b” 离子系列或 “y” 离子系列，可以生成一组氨基酸序列；这些序列也与完整肽段的实测质量一致（Box 11.1）。根据多种标准，例如谱图反卷积，以及对 homeometric peptides 的过滤，即不同肽段具有相似的理论相同 b 峰和 y 峰集合，候选序列（通常多达数万条）会被缩小到最符合实验 MS2 谱图的结果。

![Figure 11.13 Peptide sequencing via tandem mass spectrometry (MS/MS) spectra interpretation]()

Figure 11.13 通过串联质谱（MS/MS）谱图解释进行肽段测序。注释后的 MS2 谱图显示代表 b 离子和 y 离子的肽段碎片峰。De novo sequencing 算法在迭代过程中利用相邻碎片离子对之间的质量差，计算相应氨基酸残基的质量，从而沿肽段骨架确定序列。例如，y5 与 y6 离子之间的质量差等于 87.04 Da，对应丝氨酸（serine，S）的精确质量。类似地，y5 与 y4 之间的下一个残基可根据相应质量差确定为亮氨酸（leucine），或等质量残基异亮氨酸（isoleucine）。截图展示 PEAKS de novo 搜索引擎，突出显示注释谱图及候选肽段推导序列。

De novo 方法的优点是不会受到搜索数据库中序列错误的影响，并且可以使用部分序列来搜索 PTMs。然而，与 blind PTM 搜索一样，它也是一个计算密集且容易出错的过程，因此特别依赖高质量 MS2 谱图；这些谱图需要完整、准确度高，并且没有虚假噪声。一些常用 de novo 软件工具包括 Lutefisk、PEAKS 和 PepNovo+（见 Internet resources）。

Spectral Library Searching

谱图库搜索（spectral library searching）已经成为传统蛋白质序列数据库搜索的一种替代方法，尤其适用于基于 DDA 的数据生成流程。理论上，对于给定序列而言，库中 MS2 谱图比数据库搜索为同一肽段序列计算预测得到的 in silico MS2 谱图，更忠实地表示了观测到的碎片离子强度和离子类型。一旦一个 MS2 肽段谱图通过传统 shotgun 测序蛋白质组学流程被可信匹配，它就会被存储在一个注释谱图库（annotated spectral library，ASL）中，之后可被重复用于快速鉴定另一实验中由同一肽段产生的其他 MS2 谱图。

由于这种方法不依赖对常规蛋白质序列的访问，也不需要面对数量巨大的未经验证候选项，因此与传统数据库搜索方法相比速度极快。一次成对谱图比较只需数毫秒即可完成，而标准数据库匹配方法需要数分钟，因此谱图库搜索为鉴定 MS2 谱图提供了一种更高效、也可能更可靠的方式。

谱图库搜索本质上是一种模式匹配策略，自 20 世纪 50 年代以来已被用于分析光谱学。然而，它作为蛋白质组学搜索工具的应用，只是在过去二十年中才成为可能。这得益于代表性样本的蛋白质组范围 MS2 谱图逐渐可用，使代表性 ASLs 的构建成为可能。谱图库搜索正迅速成为若干应用中的理想工具，例如仪器质量控制、分子扫描仪和生物标志物验证；在这些应用中，快速且可信地匹配预定义靶标至关重要。

National Institute of Standards and Technology（NIST；Stein 1990）和 Global Proteome Machine（GPM；Fenyö et al. 2010）数据库是两个公开可用的参考肽段谱图库，合计包含来自 1600 万种不同肽段的 60 多亿条注释谱图。随着越来越多高质量 MS2 数据的产生，它们也在持续更新。由于目标是快速鉴定，谱图库搜索引擎只需要一个注释 MS2 谱图库，以及指定蛋白质消化所用蛋白酶的明确定义规则。

得到的候选 peptide-spectrum matches 列表首先通过对齐前体质量进行过滤，然后根据与实验 MS2 谱图计算得到的 Pearson 相关性进行评分。匹配得分用于表征实验 MS2 谱图与库中 MS2 谱图之间的相似性。候选项按得分排序，库中得分最高的肽段被指派给该谱图。由于谱图库来源于实验观测到的 MS2 谱图，这一方案赋予库搜索比传统数据库搜索更高的鉴定灵敏度。然而，应始终注意谱图库中肽段过度代表或代表不足所引发的问题。

谱图库搜索甚至可以鉴定带有意外 PTMs 的肽段；这些 PTMs 在查询传统数据库时可能无法检测到，因为传统数据库搜索要求事先知道样品中存在的所有 PTMs。这种效率和灵敏度的提升，也推动了专门用于 PTMs 鉴定的谱图库发展。目前使用的一些谱图库搜索算法包括 NIST 的 MS PepSearch、PeptideAtlas 的 SpectraST，以及 GPM 的 X! Hunter。

Hybrid Search

混合搜索（hybrid search）是一种结合 de novo sequencing 和数据库序列搜索要素的方法。在混合搜索中，从 MS2 谱图获得的短肽段序列标签（peptide sequence tags，PSTs；长度为 3–5 个氨基酸残基）会被用于容错性数据库搜索。所谓容错性搜索，是指允许产生 MS2 谱图的肽段序列与数据库序列之间存在一个或多个错配。

PST 是一个短氨基酸序列，并带有前缀和后缀质量值，用于指定其在完整肽段中的起始和终止位置（Figure 11.14）。在肽段序列标签技术中，氨基酸连续片段会根据碎裂峰之间的间距外推得到；这些“peptide-words”随后用于在序列数据库中鉴定蛋白质。这种标签技术将搜索空间限制到数据库中含有该序列标签的肽段，从而显著缩短搜索时间。代表性的 PST 搜索算法包括 GutenTag 和 InsPecT。

![Figure 11.14 Peptide sequence tag searching]()

Figure 11.14 肽段序列标签搜索。示意图说明如何使用序列标签（PST）或“word”从 MS2 谱图中鉴定未知肽段。对于蛋白质鉴定，PST（示例中为 LRL）会与互补信息结合使用；这些互补信息包括序列标签之前（N-terminal）的肽段片段质量（mass1）和序列标签之后（C-terminal）的肽段片段质量（mass2）。

Top-Down (Intact Protein) MS

早期 top-down 研究受到样品异质性和蛋白质大小方面的限制。然而，当前分析分离技术的进展，例如纳流反相液相色谱（nanoflow reverse phase liquid chromatography，RPLC）、凝胶洗脱液体组分包埋（gel-eluted liquid fraction entrapment，GELFrEE）、疏水液体相互作用色谱（hydrophobic liquid interaction chromatography，HLIC）、毛细管电泳（capillary electrophoresis，CE）以及等电聚焦（isoelectric focusing，IEF），再加上 MS 仪器分辨率不断提高，以及基于光子和电子捕获方法的离子碎裂技术不断改进，例如表面诱导解离（surface-induced dissociation，SID）和紫外光解离（ultraviolet photodissociation，UVPD），已经使从日益复杂的混合物中表征完整蛋白质成为可能。

近期研究显示，top-down 方法可用于解析含有多种 proteoform 的大分子复合物成分。研究甚至已经确立 TDP 可用于监测临床样品中的 proteoforms，例如在脑脊液中监测儿童脑肿瘤预后相关生物标志物，以及在 Down syndrome 患者唾液中监测早发 Alzheimer disease 的生物标志物。目前使用的一些开源 top-down 分析工具包括 ProSight PTM、TopPIC、MS-Align+，以及最近发布的 Informed-Proteomics。

Database Search Models

现代蛋白质组学平台会生成海量 MS2 谱图，通常每项研究产生数百万张谱图；这些数据只能通过自动化搜索引擎或软件平台进行分析。已有大量评分算法被提出，但目前使用的算法可分为两大类：一类算法在序列搜索和评分之前，需要根据谱图中的离子峰解释并选择特定离子质量特征；另一类算法则不需要解释，并尝试对所有可用质量峰进行评分。De novo sequencing 算法则从零开始推断多肽序列。

094

PSM Software

PDF page 365-368；印刷页码 345-348

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PSM Software

PSM Software

345

一类算法属于第一种类型，而标准数据库搜索算法（执行序列匹配）则遵循未解释（uninterpreted）方法。两类算法各有优缺点，但二者都可以从高质量的 MS2 谱图中有效鉴定多肽序列。

根据 PSM 所采用的评分方法，未解释搜索算法还可以进一步分为四个亚类：描述性（descriptive）、解释性（interpretative）、随机性（stochastic）和基于概率的匹配（probability-based matching）。描述性算法通过相关分析将实验谱图与理论谱图进行匹配；解释性模型则尝试在进行数据库搜索之前，先从 MS2 谱图中解释出部分序列。基于概率的匹配模型通过建立实验谱图与数据库之间的统计关系，推导肽段鉴定的概率；随机评分模型则利用已知谱图的训练集来推导最佳匹配的概率。

PSM Software

所有搜索引擎的目标，都是解析由肽段碎裂产生的 MS2 谱图：它们通过不同的评分方案定义“匹配”，从候选序列中选择最佳匹配列表，并将多个已鉴定肽段组装到其对应的蛋白质上。采用概率评分方法的搜索引擎试图区分真实鉴定与错误鉴定；而非统计评分的搜索引擎则依赖后续应用统计工具，例如 PeptideProphet、StatQuest（Kislinger et al. 2003）或 Percolator，将初始匹配得分转换为似然值或概率。

有些搜索引擎可以作为独立应用程序使用，用于对采用特定 MS 技术获得的数据进行鉴定，甚至进行定量；另一些则集成在大型软件包或平台中，使 MS 数据分析更加完整且用户友好。有些工具（如 MaxQuant 和 MS-GF+）是开放访问且免费提供的，而另一些则是需要授权使用的专有商业软件包。某些工具提供在线版本，允许进行受限分析；目前的最新趋势是使用云计算服务，例如 Amazon Web Services（Halligan et al. 2009）和 ProteoCloud（Muth et al. 2013）。不过，大多数应用程序仍需要在具备足够计算能力的本地计算机或计算集群上运行。对当前众多可用搜索工具的所有关键属性进行深入讨论，超出了本章范围；下面将简要介绍一些使用较广泛工具的若干方面。

SEQUEST

SEQUEST 搜索算法是一种稳健的描述性评分方法，由 University of Washington 的 Eng、Yates 及其同事提出（Eng et al. 1994）。它是第一个、并且现在仍是使用最广泛的自动化数据库搜索工具之一，用于从 MS2 数据中进行肽段鉴定。

SEQUEST 算法通过一种迭代式肽段-谱图匹配策略对 MS 数据进行预处理。该策略首先基于前体离子质量（precursor mass）和用户指定的容差筛选候选肽段，随后进行峰分箱（peak binning）和归一化。预处理后的数据随后采用两步评分方法进行打分：首先根据 MS2 谱图中与实验数据匹配的离子数量，计算初步得分（Sp）。随后，为排名前 500 的候选肽段生成理论构建谱图，并将其与实验谱图进行系统比较，以生成归一化互相关得分（XCorr）。XCorr 是带有校正因子的标量点积（Figure 11.15）。具有最高 XCorr 值的肽段被视为最佳匹配；匹配质量和唯一性则进一步通过计算 Delta correlation（ΔCn）得分，根据最佳匹配与次优匹配之间的差异进行判断。这种互相关分析是 SEQUEST 中实现的主要功能，使该工具具有较高灵敏度，但同时也带来较大的计算量，即运行速度较慢。

346

Proteomics and Protein Identification by Mass Spectrometry

Figure 11.15 Peptide spectrum match（PSM）。 注释后的 MS2 谱图，显示了一个代表性 BSA（bovine serum albumin，牛血清白蛋白）肽段中匹配的离子系列；该肽段使用 SEQUEST 搜索算法鉴定得到。

在后续更新中，SEQUEST 增加了鉴定动态（可变）修饰的能力；之后，SEQUEST 被整合进商业软件套件 Proteome Discoverer。随后，为开发更快速版本的 SEQUEST，人们引入了预计算索引功能，以加快 XCorr 的计算。TurboSEQUEST 作为 Crux 软件套件的一部分被开发出来，之后又出现了一个速度更快的实现，称为 Tide。通过算法增强以及更有效地利用有限计算资源，Tide 面向高磁盘使用场景优化，并且可以通过运行多个程序实例，在 CPU 集群上进行并行执行。作为 Crux 软件工具包的一部分，Tide 可供学术和非营利用途免费使用。

X! Tandem

X! Tandem 是 X! 数据库匹配算法套件中的一个开源搜索引擎，并作为 GPM 的一部分发布。它最初由 Robertson Craig 和 Ronald Beavis 合作实现，是一个名为 TANDEM 的免费开源搜索工具（Craig and Beavis 2004）。这与当时大多数流行搜索工具形成对比：后者多为专有软件，进一步改进的空间有限。

TANDEM 的实现目标是优化速度并提高鉴定效果，并设计为可从命令行运行。它会对实验获得的谱图进行预处理，以去除伪峰（噪声），并根据蛋白质序列生成酶特异性的理论谱图；在匹配观测谱图与预测谱图时，还会考虑潜在的翻译后修饰和化学修饰。随后，系统会基于超几何分布计算 hyperscore；该得分为匹配峰强度之和与匹配到的 b 离子和 y 离子数量阶乘的点积。

347

另外还引入了两个评分指标——K-score 和 S-score——用于衡量肽段 MS2 谱图与候选序列之间的相似性。与原生 hyperscore 类似，K-score 包含一个预处理步骤，该步骤利用来自噪声峰和未匹配峰的信息，以给出更灵敏的匹配；而 S-score 则将匹配峰的对数强度之和除以序列长度的平方根，并通过期望值（expectation value，e value）评估统计显著性。一旦建立肽段层面的证据，蛋白质层面的推断就会使用 Bayesian model 进行估计；该模型基于某一给定蛋白质所鉴定到的肽段数量及其相应得分。

TANDEM 是最早使用 Biopolymer Markup Language（BIOML；Fenyö 1999）的程序之一。BIOML 是一种 Extensible Markup Language（XML）格式，用于注释蛋白质序列信息，并根据分析仪器的标准报告格式生成输入和输出文件，从而便于整合进 MS 搜索流程。TANDEM 已被整合进 Trans-Proteomic Pipeline（TPP）软件套件；TPP 是较为流行的公共 MS2 分析平台之一。不过，TANDEM 仍由 GPM 作为 X! 工具套件的一部分维护；截至本文写作时，其最新版本为 Alanine（2017.02.01）。

MaxQuant（Andromeda）

Andromeda 是为功能强大的 MaxQuant 软件套件开发的数据库搜索引擎（Cox et al. 2011），其在 PSM 评分中实现了概率评分算法。它能够处理由高碎片质量精度产生的 MS2 谱图，并且可以对复杂的 PTM 模式进行指定、评分和定量，例如多重磷酸化肽段；同时，它仍能在大型序列数据库中保持高效搜索能力。

与多数搜索引擎类似，用户需要指定允许的肽段和蛋白质修饰、用于蛋白质切割的酶，以及待搜索的参考蛋白质序列数据库。随后，系统会利用这些参数生成数据库中所有肽段的列表，并基于肽段质量构建双层索引结构，以实现快速检索。对于给定肽段，系统根据其肽段序列以及固定修饰和可变修饰的配置，在对多种电荷态进行平均和去卷积之后，计算理论碎片离子。

Andromeda 的评分函数基于二项分布概率公式。MS2 谱图被划分为 100 Th（mass-to-charge ratio units，质荷比单位）的质量范围；在考虑肽段长度、漏切位点数量以及潜在修饰存在与否的同时，系统计算实验峰与理论碎片质量在整个谱图范围内匹配数量的概率，并将该概率的对数乘以 10 作为得分。随后，肽段鉴定结果会使用基于 target–decoy 推导的 FDR 所确定的统计阈值进行过滤，并映射到相应的同源蛋白质上。

Andromeda 具有稳健的架构和不受限制的可扩展性。它可以独立运行，也可以作为集成在 MaxQuant 计算平台中的搜索引擎使用；该平台配有图形用户界面，专门面向高分辨率（Orbitrap）MS 数据开发。其功能包括原始数据中的峰检测、定量、肽段评分、蛋白质组报告，以及对定量 label-free 技术（例如 spectral counts）、同位素标记技术（例如 stable isotope labeling of amino acids in cell culture，SILAC）和等重标记技术（例如 tandem mass tag，TMT）的支持。两个工具均可免费获得（见 Internet Resources），并可在 Windows 桌面计算机上运行，从而避免 client–server 设置和网络通信问题。对于单条谱图搜索，Andromeda 也可以通过 web server 访问，并可从命令行运行。为辅助生物学解释，MaxQuant/Andromeda 结果的进一步下游生物学分析可以使用一个独立模块 Perseus 完成。

095

PSM on the Web

PDF page 368；印刷页码 348

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / PSM on the Web

PSM on the Web

用于 MS2 的 Mascot 提供了一个受限的、可通过 Web 访问的版本，可用于单一样品检索。它与 PMF 检索非常相似，但作了一些修改。在这里，数据以峰列表（peak list）的形式在线提交；这些峰列表由原始数据经过一种称为峰提取（peak picking）的过程转换而来（Figure 11.8a）。每个峰列表由观测到的肽离子质量值组成；在可获得的情况下，也可以选择性地包含相应的强度值。数据也可以 Mascot generic format 或 .mgf 文件的形式提交。当前版本的 Mascot 还支持供应商特异性格式，例如 .dta（SEQUEST）、.asc（Finnigan）、.pkl（Micromass），以及蛋白质组学领域采用的标准格式，例如 .mzML 和 .mzData（见下文）。

096

Reporting Standards

PDF page 368-372；印刷页码 348-352

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Reporting Standards

Reporting Standards

除常规的检索特异性参数外（见“PMF on the Web”），还可以设置其他附加参数，包括 MS2 或 fragment ion 的误差容限，以及用于标记样品或 label-free 样品的定量方法。用户还可以从所提供的列表中选择所使用的 MS 仪器类型和离子活化方法、肽段碎片的电荷状态，以及是否运行 decoy search 以计算 FDR。检索结束后，系统会生成一份详细的汇总报告，概括推定的肽段和蛋白质鉴定结果（Figure 11.16）。在当前版本中，Mascot 支持 PMF、PST 和 MS2 谱图的标准数据库检索，同时支持 PTM 鉴定，以及使用标记和 label-free 技术进行相对定量。三种检索类型均有免费但受限的在线版本可用（见 Internet Resources）；高通量运行则可通过商业方式获得。

Reporting Standards

任何研究领域的发展和进步，一个关键要素都是协作以及数据的便捷交换。为实现这一点，MS 数据必须遵循共同标准，使不同软件工具和计算平台之间能够互操作；同时也便于将蛋白质组学数据提交到公共数据库中，从而促进数据共享、再利用，并最终产生新的生物医学见解，推动临床转化。为建立 MS 数据标准，Human Proteome Organization（HUPO）于 2002 年成立了 Proteomics Standard Initiative（PSI）（Orchard et al. 2003）。这一工作的目标是基于最低信息指南和受控词汇表，制定群体标准化报告格式；同时通过针对 MS-based proteomics 不同方面的工作组章程，推动用于数据分发的公共资源和工具的发展。

这些标准包括 PSI-MI（Proteomics Standard Initiative – Molecular Interactions），用于分子相互作用报告和交换的数据格式（Chapter 13）；MIAPE-MS（Minimum Information About a Proteomics Experiment – Mass Spectrometry），用于实验数据；MIAPE-MSI（Minimum Information About a Proteomics Experiment – Mass Spectrometry Informatics），用于 MS 数据分析；MIASSPE（Minimum Information About Sample Preparation for a Phosphoproteomics Experiment），用于 phosphoproteomics 等 PTM 相关实验；以及 MIAPE-Quant（Minimum Information About a Proteomics Experiment – Mass Spectrometry Quantification），用于蛋白质组学定量实验。

这些指南定义了 MS 数据发布所需的基本数据元素和元数据，而相应的数据格式则提供了报告待共享信息的模型。后一类格式包括 ad hoc formats，即代表特定群体或开发者需求的专用格式。除 ad hoc formats 外，还有一些事实标准，例如作为 TPP 套件一部分开发的 pepXML 和 protXML。它们并未经过正式标准化流程，但已经被广泛接受。真正意义上的标准，例如 mzML，则通过正式标准化流程定义；该流程在广泛测试和审查之后，规定 XML 格式的结构。

Proteomics XML Formats

目前存在多种蛋白质组学数据格式。遗憾的是，供应商特异性的专有 MS 数据格式不便于数据操作或共享。为克服这些问题，过去十年中出现了若干开放数据格式。当前推荐的最新开放标准蛋白质组学格式是 mzML。mzML 由 HUPO PSI 开发并支持，并建立在早期开放标准 mzData 和 mzXML 的基础之上；这些标准最初被广泛用于存储原始 MS 数据，例如谱图和色谱图。虽然 mzML 是目前可用的最佳标准，但较早的格式，例如 Institute for Systems Biology（ISB, Seattle, Washington）开发的 mzXML，仍被广泛使用。这些标准均以 XML 编写，包含蛋白质组学数据结构的文本表示，强调简洁性和可用性，因此既适合人类阅读，也适合机器读取。

自 PSI 成立以来，还定义了其他数据格式，例如 TraML，用于设计 transition lists，作为 target-directed SRM 实验的输入；mzIdentML，用于肽段和蛋白质鉴定；mzQuantML，用于定量 MS 数据；mzTab，用于蛋白质组学和代谢组学结果；gelML，用于蛋白质分离方法；以及 spML，用于样品处理。这些 PSI 数据格式的定义和可用性，有助于简化 MS 算法和软件平台的开发，进而提高互操作性和数据交换能力。目前许多工具都能够以符合标准的方式实现 PSI 格式，例如 ProteoWizard、PRIDE 和 OpenMS。

Figure 11.16 Mascot search engine

Mascot MS2 数据库检索提交窗口和代表性 peptide spectrum match（PSM）检索结果。

(a) Tandem mass spectrometry（MS/MS）离子检索提交表单，可在其中设置或选择检索特异性参数，例如 enzyme、missed cleavages 数量、organism taxonomy、modifications、quantitation、precursor m/z、MS instrument，以及 ion activation（fragmentation）机制。

(b) 检索结果页面显示按排名排列的蛋白质列表，每个蛋白质均带有 −log10(P) protein score。显著性评分最高的蛋白质被认为是最可能的匹配结果。点击蛋白质名称后，会显示该蛋白质对应的 peptide view。

Figure 11.16 (Continued)

097

Proteomics Data Repositories

PDF page 372-374；印刷页码 352-354

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Proteomics Data Repositories

Proteomics Data Repositories

大多数 proteomics（蛋白质组学）项目的终点，是研究论文发表。在 proteomics 发展的早期阶段（直到 2000 年代中期），标准做法是在论文发表时，将最终处理后的数据作为 supplemental information（补充信息）发布。因此，除非向作者索取，否则学术共同体无法访问未经处理的数据或原始实验结果。即便如此，如果数据没有得到妥善归档、无法追溯，也可能带来问题。

到 2000 年代中期，许多期刊开始要求在论文发表的同时，将 proteomics 数据提交到公共数据仓库，这与 DNA sequencing（DNA 测序）领域已经形成的做法类似。随着 MS（mass spectrometry，质谱）数据生成能力持续提升，研究者对原始 proteomics 数据访问的需求成倍增加，由此推动了大量实验数据被强制提交到公共数据仓库。数据开放访问使其他研究人员能够对数据进行再利用和再分析，从而定义 MS-observable proteomes（质谱可观测蛋白质组）或构建 annotated spectral libraries（带注释的谱图库）。

主要的 proteomics 数据仓库包括 PeptideAtlas、PRIDE、GPMdb、Mass Spectrometry Interactive Virtual Environment（MassIVE）、jPOST、iProX、Chorus，以及 PeptideAtlas SRM Experiment Library（PASSEL）。ProteomeXchange（PX）是一个数据仓库联盟，其建立目的是管理公共数据仓库的整合，并促进数据向科学共同体共享。

ProteomeXchange

PX Consortium（Deutsch et al. 2017）的建立，是为了监督 proteomics MS 数据提交指南的标准化。PX 提供了用户友好的数据提交流程和框架，用于协调已有数据库仓库的资源，包括 PRIDE、MassIVE、jPOST、iProX、PASSEL 和 PeptideAtlas。

提交所必需的数据和 metadata（元数据）包括：MS 输出结果（以二进制格式保存的 raw data，或标准 mzML 格式数据）、处理后的鉴定结果，以及描述实验条件的 metadata。其他信息，如 peak lists（峰列表）和 quantification results（定量结果），也可以一并提供。提交完成后，作者可以在论文正式发表前引用分配得到的 PX accession（PX 登录号）。

前五个数据库存储用户提交的数据，因此被视为 primary resource（一级资源）。相比之下，PeptideAtlas 中的数据会通过 TPP pipeline 重新处理，这与 GPMdb 的做法类似，因此构成 secondary resource（二级资源）。除 PeptideAtlas 外，PASSEL 被建立为面向 target-driven SRM data（靶向 SRM 数据）的数据仓库。迄今为止，已有超过 4500 个数据集被提交，覆盖 900 多种生物；Proteome Central 则作为访问门户，提供浏览和高级可视化功能。

PRIDE

Proteomics Identifications database（PRIDE；Vizcaíno et al. 2016）是一个 MS 数据仓库，其中包括实际 spectra（谱图），以及暂定的 peptide 和 protein identifications（肽段和蛋白质鉴定结果）和 PTM site assignments（翻译后修饰位点分配）。支持科学论文的数据可以在同行评审之前或评审过程中提交到 PRIDE，并被分配一个 PX accession number。论文发表后，这些数据会公开发布，并可使用所提供的 accession number 下载。

该数据库可以通过 PX accession、protein accession、PubMed accession 或 metadata 中包含的任意 keywords 进行查询。数据可以使用多种工具以多种格式存储：PRIDE Converter 工具可将上传的 MS spectra 和 identifications 转换为 PRIDE XML 格式；PRIDE Inspector 是一个 XML validator，用于在提交前验证数据格式；PRIDE Archive 网页可用于查询数据库；PRIDE Cluster 可根据相似性对仓库中的 spectra 进行分组，并可使用 peptide sequence 或 consensus spectrum 查询这些 clusters。此外，还可以下载物种特异性的 spectral libraries。

提交过程可以采用 complete submission（完整提交）的形式，即先将处理后的鉴定数据转换为 PRIDE 的 XML 格式。PRIDE 也支持 partial submissions（部分提交），此时需要提供 PSI de facto mzXML 格式，以及标准 mzML 或 mzIdentML；同时还必须包含所用搜索引擎对应的 peak list file。完整提交可确保处理后的数据被整合进 PRIDE，支持将处理结果直接与 mass spectra 连接起来，从而能够使用数据库的可视化工具进行质量评估。

PeptideAtlas

PeptideAtlas（Farrah et al. 2013）最初主要作为真核生物 peptide sequences 注释数据库而开发，但后来扩展为 proteomics 数据存储、交换和整合的框架。PeptideAtlas 会先使用 TPP 对 high-throughput data（高通量数据）进行重新处理，并采用严格的 FDR（false discovery rate，错误发现率）评估，然后再将得到的 peptide annotations 映射到 genomes。不同于 PRIDE 以研究者提交时的形式存储和呈现 peptide 与 protein identifications，PeptideAtlas 会进行统一的重新处理。

数据通过 PeptideAtlas 的提交界面上传后，重新处理后的数据会被组织为属于某个 proteome（或 sub-proteome）的 “builds”。PeptideAtlas 还提供统计验证工具，如 PeptideProphet 和 ProteinProphet，用于控制 false-positive identifications（假阳性鉴定）。现在，PeptideAtlas 已成为一个高度 curated（人工整理）的 protein expression database。近来，PeptideAtlas 也开始作为构建 spectral libraries 和 SRM 相关工具的资源，并且已经成为 PX consortium 的组成部分。

Global Proteome Machine + GPMdb

GPM 的开发目标，是整合快速增长的 proteomics 数据来源并从中提取信息，使其能够在 biomedical research（生物医学研究）中得到更广泛使用（Craig et al. 2004）。为实现这一目标，GPMdb 数据库被建立起来，以便学术共同体能够访问 MS2 data，并使用其流行的开源 X! search tools 套件进行 proteome-wide analysis（蛋白质组范围分析）。该套件包括 X! Tandem 和 X! Hunter。

自建立以来，GPM 已成为著名的 protein expression database，并持续通过获取 proteomics 数据仓库和接收用户提交来提供广泛内容。数据在存储前会被重新处理，以便对 peptide MS2 spectra、暂定 protein identifications 和 PTM mappings 进行严格验证；随后数据会被保存为 ASL XML 文件，并建立索引，存储在 MySQL 数据库中。

GPM 的 X! search engines 套件允许用户对自己的数据运行数据库搜索，同时保留将结果提交到 GPMdb annotated spectrum library 的选项。GPM 还允许用户使用 X! Hunter spectral library search engine 进行 spectral library searches，并通过 proteotypic peptide profiler X! P3 分析数据。

GPMdb 以可搜索界面的形式对数据库中的信息进行分类，包括：pYST，提供 PTMs 列表；SNAP，提供 protein amino acid polymorphisms（蛋白质氨基酸多态性）列表；MRM（Multiple Reaction Monitoring），列出在 MS2 实验中观察到的 peptides；以及 PEPTIDE，提供可下载的物种特异性 peptide sequences。所有 peptides 都会映射到 Ensembl genome database identifiers。

通过 GPM web interface 还可以使用其他方式进行搜索，包括 accession number、peptide sequence、chromosome location、keywords、Kyoto Encyclopedia of Genes and Genomes（KEGG）pathways、Gene Ontology（GO）terms、PTMs、protein amino acid polymorphisms、BRaunschweig ENzyme DAtabase（BRENDA）以及 tissue ontology。GPMdb 每日更新；截至 build 5600（June 2019），其数据覆盖约 8.29 亿个 proteins 和 86 亿个 peptides。例如，在 GPMdb 中某一特定 protein 被鉴定到的频率，可以作为一种间接置信度指标，用于衡量该 protein 在 MS2 实验中被鉴定到的可能性。

098

Protein/Proteomics Databases

PDF page 374-375；印刷页码 354-355

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Protein/Proteomics Databases

Protein/Proteomics Databases

蛋白质/蛋白质组学数据库

在大多数基于 MS 谱图搜索的蛋白质组学工作流中，另一类主要会访问的公共资源是蛋白质序列数据库。蛋白质组学数据与转录组学数据（第 10 章）或代谢组学数据（第 14 章）非常相似：研究最终会得到很长的蛋白质列表（蛋白质组学）、基因列表（转录组学）或代谢物列表（代谢组学），这些列表都需要进行比较、分析、注释和生物学解释。对于蛋白质组学而言，注释和解释过程需要访问全面的蛋白质序列与注释数据库。这些资源在数据驱动的生物学发现和假设生成中发挥着关键作用。

高通量蛋白质组学研究会产生海量 MS 谱图，这使得研究人员迫切需要经过严格人工审查和整理的数据库，以帮助他们将实验结果与已有知识建立联系。根据实验设计的不同，蛋白质组学策略通常会生成关于蛋白质定位、丰度和 PTMs（post-translational modifications，翻译后修饰）的信息，因此，这些数据库中的功能注释对于确立所鉴定蛋白质的生物学相关性至关重要。例如，通过对功能注释数据库进行 data mining，可以基于某个差异调控蛋白的相互作用伙伴的功能，推断该蛋白的功能，例如它在某条生物学通路中的作用；这些相互作用伙伴可能与该蛋白发生相互作用，或与其共定位。除 National Center for Biotechnology Information（NCBI）的 RefSeq（第 1 章）、Ensembl（第 4 章）和 Protein Data Bank（PDB；第 12 章）等知名数据库外，下面还将讨论若干与蛋白质组注释和推断相关的其他数据库。

UniProt

UniProt Consortium 是一个权威且全面的数据存储库，用于保存蛋白质序列的功能信息（第 1 章）。UniProt 是进行 MS 谱图搜索时所需蛋白质序列的首选数据库，因为它收录了研究充分的模式生物以及其他已完成全基因组测序的参考物种的蛋白质组层级蛋白质序列。UniProt 还包含 UniRef（参考序列聚类数据库）和 UniParc（序列归档库）。总体而言，UniProt 是一个信息丰富的资源，包含经过严谨推导的注释、分类学信息，以及定性的功能信息，例如蛋白质亚细胞定位、PTMs、通路和疾病关联，并链接到可用的相关交叉引用和大量文献引用。

UniProt 可用于查找目标蛋白的人工审定信息。例如，可以查询一个蛋白质的结构域组成、生物学功能、亚细胞定位、已知 PTMs、在某条生物学通路中的作用，或其根据同行评议论文所显示出的疾病相关性。UniProt 还可用于比较蛋白质序列，以确定相似的（同源的）蛋白质，并查看与这些蛋白相关的功能信息。

099

Selected Applications of Proteomics

PDF page 375-376；印刷页码 355-356

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Selected Applications of Proteomics

PTM 数据库

鉴于 PTM 在调控细胞过程中发挥着重要作用，并且研究界需要对 PTM 进行全面描述，dbPTM 数据库于 2006 年发布（Huang et al. 2019）。dbPTM 收录了从公共数据库中汇集的所有经实验验证的 PTM，以及 UniProt 数据库中的推定 PTM；它还提供了一个基于 Web 的门户，用于对这些信息进行整合访问，并提供 PTM 分析工具。经实验验证的子集已被证明是评估各种 PTM 预测工具预测能力的优秀基准。截至本文撰写时，该子集还已映射到所有相应的 PDB 条目，以定义 347 984 个推定修饰位点。dbPTM 还整合了与 PTM 网络相关的代谢通路信息和 protein–protein interactions（蛋白质—蛋白质相互作用）信息。当前版本的 dbPTM 包含 908 917 个非冗余、经实验验证的 PTM 实例，代表 34 种以上修饰类型，其中包括 571 032 个 phosphorylation sites（磷酸化位点）。

另一个高度人工整理的实验性哺乳动物 PTM 数据库是 PhosphositePlus（PSP）。PSP 于 2003 年推出，目前收录了 400 000 多个非冗余修饰位点，这些位点关联到 20 268 个蛋白质组和 240 万条肽段，覆盖从 21 000 多篇文献中获得的 14 种不同修饰类型。尽管 PSP 纳入了来自低通量研究的数据，但超过 95% 的 PTM 来自高通量数据，因此所获得的数据会使用统一的分析标准重新分析，只保留具有高概率的位点指派结果（p ≤0.05）。PSP 还包含关于推定修饰位点的结构拓扑和功能信息，并提供工具，用于从疾病、组织表达和结构域等蛋白质功能方面对 PTM 进行功能分析。

由于 PTM 在细胞信号传导和细胞过程调控中具有关键作用，蛋白质组学研究所鉴定出的 PTM 需要得到恰当解释，才能深入理解它们在疾病致因中可能发挥作用的重要性。因此，dbPTM 和 PSP 这类数据库为研究人员提供了宝贵资源，研究者可以利用它们对自己的发现进行基准比较。

Selected Applications of Proteomics

蛋白质组学的总体目标是研究 proteome（蛋白质组）的性质，并确定其在细胞周期、信号传导、细胞分裂或疾病等不同生理状态响应中反映出的变化。这些研究可大体归类为 differential proteomics（差异蛋白质组学）、functional proteomics（功能蛋白质组学）和 structural proteomics（结构蛋白质组学）策略（Figure 11.17）。

Differential Proteomics

Differential proteomics（差异蛋白质组学），或称 proteome-scale expression profiling（蛋白质组尺度表达谱分析），研究两种生理状态之间蛋白质表达模式的差异，例如正常状态与癌症状态之间的差异。在生物医学研究中，通常采用比较方法来鉴定在特定情境或特定疾病中显著上调或下调的蛋白质，用于研究细胞响应，作为 diagnostic biomarkers（诊断性生物标志物）或潜在 drug targets（药物靶点），并在分子水平上理解生物过程的机制基础。

差异蛋白质组学技术的实例包括：鉴定在影响糖尿病的代谢通路中控制葡萄糖响应性的一些重要调控系统的研究（Schuit et al. 2002）；发现 Alzheimer disease（阿尔茨海默病）中产生异常调控蛋白的基因（Butterfield et al. 2003）；以及鉴定参与进行性扩张型心肌病和心力衰竭的蛋白质（Gramolini et al. 2008）。

Functional Proteomics

Functional proteomics（功能蛋白质组学）是一个涵盖范围很广的术语，涉及许多不同研究领域，包括在变化条件下进行 protein identification（蛋白质鉴定）、abundance（丰度）和 turnover（周转）测量，以及 PTM mapping（PTM 作图）、protein localization（蛋白质定位）、interaction mapping（相互作用作图）和 functional inference（功能推断）等。

Figure 11.17 Proteomics. 蛋白质组学的广义分类，以及目前常见且正在开展的蛋白质组学研究的生物学应用。3D，three-dimensional（三维）。

例如，multi-protein complexes（多蛋白复合物）已知在细胞分子机器中发挥主要功能作用，因此，系统表征 protein–protein interactions 及其动态组装形成 macromolecular assemblies（大分子组装体）的过程，对于理解它们在驱动细胞信号网络和代谢通路中的作用至关重要。值得注意的是，如果一个未表征的多蛋白复合物亚基与具有已知功能注释的组分发生物理关联，则可以利用 “guilt-by-association”（关联归罪）或 “guilt-by-correlation”（相关归罪）原则推断其功能（Gavin et al. 2002; Krogan et al. 2006）。

PTM 在功能蛋白质组学中发挥着尤其重要的作用，因为它们会影响物理相互作用，从而决定蛋白质活性，例如依赖 PTM 的蛋白质和核酸结合；同时，PTM 还通过细胞内信号级联传递细胞外信号，或通过 protein phosphorylation/de-phosphorylation（蛋白质磷酸化/去磷酸化）事件驱动关键细胞过程，这些事件可触发细胞分裂、分化、凋亡，或代谢/合成代谢状态。

Structural Proteomics

以确定蛋白质在细胞中的位置和关联关系，以及它们在大分子复合物中的三维形状或结构为目标的蛋白质组学研究，称为 structural proteomics（结构蛋白质组学）。结构分析可以通过提供关于目标蛋白生化作用的线索来支持功能表征，这些线索来自关于生物活性和病理生理学意义的互补信息。传统蛋白质生物化学方法通常局限于单个蛋白质或蛋白质类别，但它们可以与无偏的 mass spectrometric techniques（质谱技术）结合，用于在不断扩大的尺度上研究蛋白质组装体的各种结构方面（Sinz 2014）。

Drug target identification（药物靶点鉴定）是结构蛋白质组学的另一项应用。在这一应用中，MS 用于鉴定胆活性小分子配体与其细胞蛋白质靶标之间的相互作用，并定义潜在的 drug binding site(s)（药物结合位点）以及 protein–ligand complex（蛋白质—配体复合物）的三维模型；这是更好地界定化合物 action mode（作用模式）和 structure–activity relationships（构效关系）的关键步骤，也有助于 “rational drug design”（理性药物设计）和药物发现过程（Djuric et al. 2016）。

100

Summary + Acknowledgments + Internet Resources + Further Reading + References

PDF page 376-382；印刷页码 356-362

▶

Ch11 Proteomics and Protein Identification by Mass Spectrometry / Summary + Acknowledgments + Internet Resources + Further Reading + References

Summary

与生物信息学的其他领域类似，蛋白质组学分析也使用复杂的数据分析流程和算法。为了获得最佳结果，必须仔细考虑所提交数据的质量以及所选择的参数。不存在一种在所有情形下都能完美工作的“one-size-fits-all”解决方案，多数软件工具都是针对特定任务而设计的。MS 数据的来源和质量同样至关重要，这也凸显出在开始任何分析之前，必须充分理解所研究的生物学问题。根据所使用的 MS 仪器类型、所生成数据的质量和类型，以及正在进行的实验表征类型，在实现最佳性能之前，需要仔细设定关键的数据库搜索工具参数（见 Table 11.2）。

Table 11.2 使用序列数据库搜索引擎时的标准搜索参数。

参数	SEQUEST	!X Tandem	MaxQuant
Enzyme	Trypsin	Trypsin	Trypsin
Number of missed cleavages	2	2	2
Peptide mass tolerance	0.5 Da	0.4 Da	4.5 ppm
Maximum number of modifications per peptide	3	10	5
Fixed modifications	Carbamidomethylation	Carbamidomethylation	Carbamidomethylation
Variable modifications	Oxidation, acetylation	Oxidation, acetylation	Oxidation, acetylation
Parent mass type	Monoisotopic mass	Monoisotopic mass	Monoisotopic mass
Fragment mass type	Monoisotopic mass	Monoisotopic mass	Monoisotopic mass
Minimum peptide length	6	6	7
Maximum peptide length	40	50	25
False discovery rate	0.01	0.01	0.01
Precursor mass tolerance	10 ppm	−2.0 to 4.0 Da	6 ppm
Fragment ion method	CID	CID	CID

CID，collision-induced dissociation，碰撞诱导解离。

在所有蛋白质组学实验与分析中，需要考虑的重要因素包括：

MS 仪器的正确校准（例如使用已知标准品）；
理解仪器预期的质量分辨率和质量准确度；
根据蛋白质酶解所使用的 protease，指定适当的蛋白水解切割规则；
记录 MS 数据采集（仪器）设置，例如：
所使用的电离和碎裂方法，以及每个 spectrum 中识别到的离子系列；
precursor 和 fragment ion 的质量、扫描范围以及匹配容差；
稳定同位素或多重电荷态的存在；
定义可变或预定义的翻译后修饰（post-translational modifications，例如 phosphorylation）或化学修饰（例如 acetylation）；
污染物种的存在，例如 trypsin 自溶产物、keratin 以及其他实验伪影；
为搜索选择参考蛋白序列数据库；
处理并测量每个 spectrum 的 signal-to-noise ratio。

充分理解这些参数如何影响搜索范围，并最终影响结果质量，是至关重要的。

一般而言，有两种方法可以确保结果质量。第一种方法是选择最佳参数设置，这可以通过系统性地改变搜索参数，直至获得令人满意的结果来实现。例如，将初始 MS 扫描范围从 375–1500 m/z 增加到 400–1800 m/z，可以改善 peptide coverage 和 signal to noise；通过纳入来自亲缘关系接近但注释更完善物种的 orthologs 来扩大搜索空间，也可以提供信息量更高的结果。另一种确保高质量搜索结果的策略，是整合多个程序的结果，以在最大化覆盖度的同时尽量减少 false positives。由于不同搜索引擎采用不同的评分方案，并会考虑输入数据的不同特征，一个算法可能检测到另一个算法遗漏的特征（Kwon et al. 2011）。

总体而言，决定 LC-MS/MS 研究中生物信息学分析成功与否的两个主要因素是：了解数据本身的性质，并牢记 protein identification 只是任何蛋白质组学分析工作流程中的第一步。我们相信，本章在这些方面提供了一些有益的指导。

Acknowledgments

作者感谢 Emili Lab（University of Toronto, Toronto, Canada；Boston University, Boston, MA, USA）成员提出的建设性意见，以及他们在汇编支持信息方面提供的帮助。我们还感谢 Carl White 和 Ruth Isserlin（University of Toronto），以及 Indranil Paul 和 Benjamin Blum（Boston University）分享他们的专业知识、睿智建议和关键见解，这些都极大地改进了本章内容。

Internet Resources

资源	URL
Crux	crux.ms
dbPTM	dbptm.mbc.nctu.edu.tw
Global Proteome Machine (GPM)	www.thegpm.org
GPM DB	ftp://ftp.thegpm.org/repos/peptides
GutenTAG	fields.scripps.edu/downloadfile2.php?name=GutenTag&filename=GutenTag.zip&id=3
Human Proteome Organization (HUPO)	www.hupo.org
Informed-Proteomics	github.com/PNNL-Comp-Mass-Spec/Informed-Proteomics
InsPecT	proteomics.ucsd.edu/Software/Inspect
iProX	iprox.org
jPOST	jpostdb.org
Lutefisk	www.hairyfatguy.com/lutefisk
MassIVE	massive.ucsd.edu/ProteoSAFe/static/massive.jsp
Mascot	www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF
MaxQuant	www.coxdocs.org/doku.php?id=maxquant:common:download_and_installation#download_and_installation_guide
MS-Align+	bix.ucsd.edu/projects/msalign
MSblender	github.com/marcottelab/MSblender
MS-GF+	omics.pnl.gov/software/ms-gf
MS PepSearch	chemdata.nist.gov/dokuwiki/doku.php?id=peptidew:mspepsearch
OpenMS	www.openms.de
PEAKS	www.bioinfor.com/download-peaks-studio
PepNovo+	proteomics.ucsd.edu/Software/PepNovo
PeptideAtlas	www.peptideatlas.org
PeptideProphet	peptideprophet.sourceforge.net
Percolator	percolator.ms
PRIDE	www.ebi.ac.uk/pride/archive
ProSight PTM	prosightptm.northwestern.edu
ProteinProphet	proteinprophet.sourceforge.net
ProteomeXchange	www.proteomexchange.org
ProteoWizard	proteowizard.sourceforge.net
Proteomics Standards Initiative (PSI)	www.psidev.info
SEQUEST	www.proteomicswiki.com/wiki/index.php/SEQUEST_installation_instructions
SIMS	emililab.med.utoronto.ca
Tide	noble.gs.washington.edu/proj/tide
TopPIC	proteomics.informatics.iupui.edu/software/toppic
TPP	tools.proteomecenter.org/software.php
UniProt	www.uniprot.org
X! Hunter	ftp://ftp.thegpm.org/repos/xhunter
X! Hunter ASL	ftp://ftp.thegpm.org/proteotypic_peptide_profiles
X! Tandem	ftp://ftp.thegpm.org/projects/tandem

References

Aebersold, R. and Mann, M. (2003). Mass spectrometry-based proteomics. Nature 422 (6928): 198–207.

Bauer, C., Cramer, R., and Schuchhardt, J. (2011). Evaluation of peak-picking algorithms for protein mass spectrometry. Methods Mol. Biol. 696: 341–352.

Butterfield, D.A., Boyd-Kimball, D., and Castegna, A. (2003). Proteomics in Alzheimer’s disease: insights into potential mechanisms of neurodegeneration. J. Neurochem. 86 (6): 1313–1327.

Cox, J., Neuhauser, N., Michalski, A. et al. (2011). Andromeda: a peptide search engine integrated into the MaxQuant environment. J. Proteome Res. 10 (4): 1794–1805.

Craig, R. and Beavis, R.C. (2004). TANDEM: matching proteins with tandem mass spectra. Bioinformatics 20 (9): 1466–1467.

Craig, R., Cortens, J.P., and Beavis, R.C. (2004). Open source system for analyzing, validating, and storing protein identification data. J. Proteome Res. 3 (6): 1234–1242.

Deutsch, E.W., Csordas, A., Sun, Z. et al. (2017). The ProteomeXchange consortium in 2017: supporting the cultural change in proteomics public data deposition. Nucleic Acids Res. 45 (D1): D1100–D1106.

Djuric, S.W., Hutchins, C.W., and Talaty, N.N. (2016). Current status and future prospects for enabling chemistry technology in the drug discovery process. F1000Research 5: 2426.

Eng, J., McCormack, A., and Yates, J. (1994). An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. J. Am. Soc. Mass Spectrom. 5: 976–989.

Farrah, T., Deutsch, E.W., Hoopmann, M.R. et al. (2013). The state of the human proteome in 2012 as viewed through PeptideAtlas. J. Proteome Res. 12 (1): 162–171.

Fenn, J.B., Mann, M., Meng, C.K. et al. (1989). Electrospray ionization for mass spectrometry of large biomolecules. Science 246 (4926): 64–71.

Fenyö, D. (1999). The biopolymer markup language. Bioinformatics 15 (4): 339–340.

Fenyö, D., Eriksson, J., and Beavis, R. (2010). Mass spectrometric protein identification using the global proteome machine. In: Computational Biology (ed. D. Fenyö), 189–202. Totowa, NJ: Humana Press.

Filiou Michaela, D., Martins-de-Souza, D., Guest Paul, C. et al. (2012). To label or not to label: applications of quantitative proteomics in neuroscience research. Proteomics 12 (4–5): 736–747.

Gaudet, P., Michel, P.A., Zahn-Zabal, M. et al. (2017). The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Res. 45 (D1): D177–D182.

Gavin, A.C., Bosche, M., Krause, R. et al. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature 415 (6868): 141–147.

Gerber, S.A., Rush, J., Stemman, O. et al. (2003). Absolute quantification of proteins and phosphoproteins from cell lysates by tandem MS. Proc. Natl. Acad. Sci. U.S.A. 100 (12): 6940–6945.

Gramolini, A.O., Kislinger, T., Alikhani-Koopaei, R. et al. (2008). Comparative proteomics profiling of a phospholamban mutant mouse model of dilated cardiomyopathy reveals progressive intracellular stress responses. Mol. Cell. Proteomics 7 (3): 519–533.

Gygi, S.P., Rist, B., Gerber, S.A. et al. (1999). Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat. Biotechnol. 17 (10): 994–999.

Halligan, B.D., Geiger, J.F., Vallejos, A.K. et al. (2009). Low cost, scalable proteomics data analysis using Amazon’s cloud computing services and open source search algorithms. J. Proteome Res. 8 (6): 3148–3153.

Henzel, W.J., Billeci, T.M., Stults, J.T. et al. (1993). Identifying proteins from two-dimensional gels by molecular mass searching of peptide fragments in protein sequence databases. Proc. Natl. Acad. Sci. U.S.A. 90 (11): 5011–5015.

Hsu, J.-L., Huang, S.-Y., Chow, N.-H., and Chen, S.-H. (2003). Stable-isotope dimethyl labeling for quantitative proteomics. Anal. Chem. 75 (24): 6843–6852.

Huang, K.-Y., Lee, T.-Y., Kao, H.-J. et al. (2019). dbPTM in 2019: exploring disease association and cross-talk of post-translational modifications. Nucleic Acids Res. 47 (D1): D298–D308.

Jennings, K.R. (1968). Collision-induced decompositions of aromatic molecular ions. Int. J. Mass Spectrom. Ion Phys. 1 (3): 227–235.

Karas, M. and Hillenkamp, F. (1988). Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons. Anal. Chem. 60 (20): 2299–2301.

Kelleher, N.L., Lin, H.Y., Valaskovic, G.A. et al. (1999). Top down versus bottom up protein characterization by tandem high-resolution mass spectrometry. J. Am. Chem. Soc. 121 (4): 806–812.

Kislinger, T., Rahman, K., Radulovic, D. et al. (2003). PRISM, a generic large scale proteomic investigation strategy for mammals. Mol. Cell. Proteomics 2 (2): 96–106.

Krogan, N.J., Cagney, G., Yu, H. et al. (2006). Global landscape of protein complexes in the yeast Saccharomyces cerevisiae. Nature 440 (7084): 637–643.

Kwon, T., Choi, H., Vogel, C. et al. (2011). MSblender: a probabilistic approach for integrating peptide identifications from multiple database search engines. J. Proteome Res. 10 (7): 2949–2958.

Little, D.P., Speir, J.P., Senko, M.W. et al. (1994). Infrared multiphoton dissociation of large multiply charged ions for biomolecule sequencing. Anal. Chem. 66 (18

Chapter 12

Protein Structure Prediction and Analysis

101

Introduction to Protein Structures

PDF page 383；印刷页码 363

▶

Ch12 Protein Structure Prediction and Analysis / Introduction to Protein Structures

Introduction to Protein Structures

蛋白质结构导论

在前几章中，我们已经看到，蛋白质可以很方便地表示和分析为字符字符串（序列）。事实上，今天我们所说的 bioinformatics（生物信息学）中，很大一部分都是基于使用计算机来操作、存储和比较序列或字符字符串。然而，需要记住的是，生物信息学领域并不只包括序列分析；今天生物信息学中许多最有趣、最令人兴奋的应用，实际上关注的是结构分析——有时也称为 structural bioinformatics（结构生物信息学）。事实上，生物信息学的起源实际上可以追溯到 structural biology（结构生物学）领域，因为许多最早的生物信息学程序以及最早的生物信息学数据库，都是为了存储、比较和分析蛋白质结构而开发的（Bernstein et al. 1977; Hagen 2000）。有趣的是，序列分析中使用的许多概念，例如归档（archiving）、比对（aligning）和可视化（visualizing），在结构分析中也有密切对应的概念。不过，由于蛋白质结构本身具有内在复杂性，对其进行分析还面临额外层面的挑战。

蛋白质也许是自然界中最复杂的化学实体。无论是大分子还是小分子，没有任何其他类型的分子能够表现出蛋白质所具有的形状、大小、表面特征和运动性的多样性。蛋白质本身如此复杂，以至于科学家们投入了大量努力，发展高效方法来测定其结构、可视化其形状、测量其运动、简化其描述、比较其折叠方式，并寻找潜在的结构共性。事实上，表征蛋白质结构这一挑战被认为非常重要；自 1960 年以来，已有十余项 Nobel Prize（诺贝尔奖）授予那些测定蛋白质结构或发展蛋白质结构表征方法的科学家。

本章旨在概述用于分析、归档、可视化、预测和评估蛋白质结构的生物信息学工具与数据库。本章分为八个部分：首先简要介绍蛋白质结构；随后简要回顾蛋白质结构是如何被测定的；接着总结蛋白质结构如何被描述；然后介绍主要的蛋白质结构数据库；再概述若干结构可视化工具；随后介绍用于结构预测的生物信息学工具；接着总结蛋白质可以如何被评估；最后说明蛋白质如何被分类和比较。

102

How Protein Structures are Determined

PDF page 383-387；印刷页码 363-367

▶

Ch12 Protein Structure Prediction and Analysis / How Protein Structures are Determined

How Protein Structures are Determined

蛋白质结构是如何测定的

Figure 12.1 提供了一个流程图，说明蛋白质结构如何被测定或“解析”（solved）。从该图可以看出，目前有三种实验技术可用于获得蛋白质原子分辨率（atomic resolution）水平的详细结构信息：X-ray crystallography、nuclear magnetic resonance（NMR）spectroscopy 和 electron microscopy。

Bioinformatics, Fourth Edition. Edited by Andreas D. Baxevanis, Gary D. Bader, and David S. Wishart.

Companion Website: www.wiley.com/go/baxevanis/Bioinformatics_4e

Figure 12.1

用于实验制备并解析（即测定）蛋白质三维（3D）结构的步骤流程图，所采用的实验技术包括 X-ray、nuclear magnetic resonance（NMR）和 cryogenic electron microscopy（cryo-EM）。

流程包括：

克隆并纯化蛋白质
测试结晶条件
制备衍生物
X-ray
NMR
Cryo-EM
测试 NMR 溶液条件
将样品冻结于玻璃态冰中
解析相位
拟合电子密度
生成结构
测量 H–H 距离
生成结构集合
可视化结构
分析结构
进行单颗粒分析
3D 重构
收集 X-ray 衍射数据
收集 2D 和 3D NMR 数据
收集多个颗粒的 EM 数据

所有蛋白质结构都必须从高度纯化的蛋白质出发进行测定；这些蛋白质随后可能被结晶（用于 X-ray crystallography）、置于特殊溶剂中（用于 NMR spectroscopy），或被冻结（用于 electron microscopy）。X-ray crystallography 是最早出现的方法，也是最精确的方法；NMR 出现时间稍晚，也是精确度最低的方法；electron microscopy 则是最新的方法。

在 X-ray crystallography 中，小型蛋白质晶体（尺寸小于 1 mm）会暴露在强 X-ray 束下。X-ray 的波长约等于一个原子的大小（1–2 Å，即 ångstrom，1 Å = 1 × 10−10 m），会被晶体中的蛋白质原子散射或衍射。由此产生的衍射图样通常表现为数以万计的微小斑点，这些斑点排列成复杂的圆形图案。衍射图样会记录在数字 X-ray 相机上。

衍射斑点的位置及其强度（以及一些相位信息）实际上已经足以让计算机计算出该衍射蛋白中所有重原子——碳、氮、氧、硫——的电子密度图。根据这张电子密度图，晶体学家利用已知的蛋白质序列确定所有原子的 x、y、z 坐标。需要注意的是，在 X-ray crystallography 中，尽管衍射图样来自晶体中数以万亿计的蛋白质分子，最终得到的却只是一个“平均”蛋白质分子的结构。

蛋白质晶体学在实验上具有挑战性，在计算上也很复杂，因此这里的简要概述远不能充分体现其全部内涵。关于蛋白质晶体学的优秀综述可见若干高质量教材（McCree 1999; Drenth 2006）。第一个蛋白质的 X-ray 结构（myoglobin）是在 20 世纪 50 年代末测定的（Kendrew et al. 1958）；自那时以来，已有超过 120 000 个蛋白质结构通过 X-ray 技术测定。

X-ray crystallography 可用于测定非常大的大分子结构（数百 kilodaltons，甚至包括 ribosomes 和 viruses），既包括细胞质蛋白，也包括膜结合蛋白。近年来，计算方法、机器人技术和仪器设备的进步（包括强大 synchrotrons 的使用）进一步增强了 X-ray crystallography 的能力，并大大加快了结构测定过程。在 20 世纪 70 年代，纯化、结晶并解析一个蛋白质结构通常需要 6–7 年；而现在，在少数情况下，这一过程最快可缩短至 6–7 天。因此，所有蛋白质结构中超过 90% 是通过 X-ray crystallography 测定的。

然而，X-ray crystallography 并非绝对可靠。正如其名称所示，crystallography 要求在一种“人工”的固态（晶体）环境中研究蛋白质，而这种环境并不类似于细胞或机体中正常的生理性（水相）环境。因此，由 X-ray crystallography 生成的结构常常会受到晶体堆积（crystal packing）和溶剂排除效应（solvent exclusion effects）的影响。同样，并非蛋白质的所有部分都能在 X-ray 结构中被观察到，尤其是高度可动的区域。因此，这些“模糊”区域可能存在解释空间，也可能被误解释。

还需要记住的是，蛋白质的 X-ray 结构通常是欠定的，特别是与小分子的 X-ray 结构相比更是如此。对于“好”的蛋白质结构，R factor（用于衡量计算结构与实验数据之间一致性的指标）通常为 0.25；而对于小分子，其 R factor 通常为 0.05。考虑到理论上最高的 R factor 为 0.59（对应完全错误的结构），可以得出这样的结论：即使是好的蛋白质结构也并非没有缺陷。实际上，许多蛋白质结构在原子位置上存在一些错误、模糊性或不准确性（±0.5 Å）并不罕见。同样，一个蛋白质结构缺失少数原子或残基也并不罕见。

与 X-ray crystallography 相比，NMR spectroscopy 是一种新得多的技术（第一个蛋白质结构于 1983 年被“解析”），并且在某种程度上也更加复杂。因此，对该技术的详细解释超出了本章范围。Cavanagh et al.（2006）撰写的教材中有关于蛋白质 NMR 的优秀概述。NMR 的独特之处在于，它允许研究液态或接近生理环境中的分子结构与动力学。

在 NMR spectroscopy 中，蛋白质结构的测定并不是通过测量 X-ray 如何被原子衍射，而是通过测量无线电波如何被原子核吸收，例如氢（1H）、同位素标记的碳（13C）或氮（15N）。这种吸收测量使研究者能够确定核磁性从一个原子（或原子核）转移到另一个原子（或原子核）的程度。在 NMR 中，这种磁化转移通过 chemical shifts、J-couplings 和 nuclear Overhauser effects（NOEs）进行测量。这些参数在单个氢原子上最容易观察到，并且必须通过复杂的多维 NMR 实验为尽可能多的蛋白质原子测定出来；这些实验通常带有一些颇具趣味性的缩写名称，例如 COSY、TOCSY、NOESY 和 HMQC。

一旦测得这些参数，它们便定义了一组近似的结构约束，可输入基于计算机的约束最小化计算中，例如 distance geometry 或 simulated annealing。其结果是一系列（15–50 个）相似的蛋白质结构，这些结构均满足实验约束。因此，与 X-ray 方法只产生一个结构不同，NMR 方法会生成多个结构；这些结构相互叠加或重合，形成所谓的“blurrograms”（Figure 12.2）。

Figure 12.2

Escherichia coli thioredoxin 结构集合的 nuclear magnetic resonance（NMR）“blurrogram”示例（Protein Data Bank database identifier: 4TRX）。该图表示 E. coli thioredoxin 的 33 个近乎相同的结构的叠合，这些结构满足全部（或几乎全部）已测得的 NMR 约束。

NMR 结构测定工作的质量通常由这些叠合结构彼此匹配的紧密程度来表示，其中 root mean square deviation（RMSD）值 <1 Å 通常提示结构质量较好，而 RMSD 值 >2 Å 则通常见于测定质量较差的结构（Box 12.1）。有趣的是，这些 blurrogram 结构可能更能反映蛋白质在溶液中的真实行为，因为大多数蛋白质似乎都以一组略有差异的构象集合形式存在。

Box 12.1 The Meaning of RMSD

Box 12.1 RMSD 的含义

蛋白质序列比对通常用 expect（E）value、bit score 或 percent identity 进行评价。对于结构比较或结构比对，常使用一种称为 root mean square deviation（RMSD）的指标进行评分；有趣的是，RMSD 实际上是 standard deviation 的一个古老术语。换句话说，RMSD 的计算方式与标准差相同。

当两个结构叠合之后，首先计算 Cα 原子之间距离差值（单位为 ångstroms，即 Å）的平方和，再除以所比较的原子数。该数值的平方根称为 RMSD，通常以 ångstroms 为单位报告。当叠合的结构超过两个时，例如 NMR 结构集合，通常先计算该集合的一个假想平均结构，然后再计算相对于这一平均结构的距离差值之和。

NMR spectroscopists、structure modelers 和 X-ray crystallographers 在比较结构集合、考察相关结构或表征结构家族时，经常使用 RMSD 值。Table 12.1 给出了一个粗略指南，用于说明某一 RMSD 值对于 NMR 结构质量意味着什么。表格第二列则给出了类似的定性指南，用于说明 RMSD 值在结构相似性方面的含义。

Table 12.1

backbone root mean square deviation（RMSD，单位为 ångstroms）与 nuclear magnetic resonance（NMR）结构集合的结构质量（第 1 列）以及蛋白质结构比较（第 2 列）之间的关系。

RMSD (Å)	NMR comment	Structure comparison comment
>12	Random coil	Completely unrelated
7.0	Major problems	Dubious relationship
5.0	Not quite converging	May be structurally related
4.0	Poor fit	Good structural relationship
2.0	Converging	Closely related
1.5	Barely acceptable	Very closely related
0.8	Typical NMR structure	Differences are not obvious
0.4	Best case NMR structure	Essentially indistinguishable

由于不需要晶体这一实验条件，NMR 样品制备本质上比 X-ray 样品制备更容易。此外，由于 NMR 是基于液体的系统，NMR 结构更可能类似于细胞或机体正常生理性（液态）环境中的结构。然而，NMR 常受到被研究分子大小的限制（实际可行的上限约为 40 kDa）、分子溶解性的限制（膜蛋白无法研究），以及对特殊同位素标记分子的需求限制（成本较高）。此外，NMR 结构在本质上不如 X-ray 结构精确。

持续的计算和仪器改进已经使 NMR 比以往更容易、更快速。事实上，现在可以在数周内测定一个蛋白质的 NMR 结构。已知蛋白质结构中约 10% 是通过 NMR 测定的。

结构生物学家工具箱中最新加入的方法是 cryogenic electron microscopy（cryo-EM，或 three-dimensional [3D] cryo-EM）。与 NMR spectroscopy 或 X-ray 相比，cryo-EM 是近年来才加入结构测定领域的重要技术。

103

How Protein Structures are Described

PDF page 387-393；印刷页码 367-373

▶

Ch12 Protein Structure Prediction and Analysis / How Protein Structures are Described

How Protein Structures are Described

低温电镜（cryo-EM）与 X 射线晶体学、核磁共振（NMR）波谱学不同。后两者都属于“间接”方法，需要借助复杂的数学方法，将复杂的 X 射线衍射数据或 NMR 吸收数据转换为结构信息；而 cryo-EM 是一种直接技术。换句话说，所见即所得。对原子结构进行直接可视化一直是结构生物学家的梦想，而 cryo-EM 现在提供了实现这一目标的可能性。在 cryo-EM 中，蛋白质样品会在水中被快速冷冻（形成玻璃态冰，vitreous ice），随后置于强电子束下，电子波长为 1–2 Å。通过使用新开发的电子光学元件——相位板（phase plates）、更好且更灵敏的检测系统、非常快速的“定格”式数据采集方法，以及复杂的图像平均处理，现在已经能够相当常规地以原子级分辨率测定蛋白质结构（Bai et al. 2015）。cryo-EM 的样品制备比 X 射线晶体学的样品制备容易得多，而且 cryo-EM 结构很可能更接近细胞正常液体环境中的结构。与 NMR 波谱学类似，cryo-EM 也受到所研究分子大小的限制——只是限制方向相反。较大的蛋白质（>100 kDa）更受青睐，因为小分子通常太小而难以观察到（尽管这一情况正在改变）。除大小限制之外，cryo-EM 的限制相对较少。事实上，有些 cryo-EM 结构现在甚至比 X 射线结构测定得更加精确。虽然目前已知蛋白质结构中只有 1% 是通过 cryo-EM 解析的，但计算方法和仪器设备的快速改进，正在使利用 cryo-EM 测定蛋白质结构成为许多结构生物学家的首选途径。事实上，2017 年诺贝尔化学奖授予 Jacques Dubochet、Joachim Frank 和 Richard Henderson，以表彰他们“发展了用于溶液中生物分子高分辨率结构测定的低温电子显微镜”。

How Protein Structures are Described

如今，描述蛋白质结构最常用的方法称为层级法（hierarchical method）。在这一模式中，蛋白质被看作具有不同“层次”的结构，而且这些层次的复杂程度逐级增加（Figure 12.3）。最简单的层次称为一级结构（primary structure）。根据定义，蛋白质的一级结构就是其氨基酸序列。当然，蛋白质并不只是印在纸上的字母。实际上，蛋白质由不同组合的氨基酸通过肽键共价连接而成。所形成的聚合物在很大程度上表现出与其他多数聚合物类似的链状柔性和行为。然而，每个肽键具有部分双键性质，不同氨基酸侧链具有不同的化学性质，再加上这些侧链带来的空间位阻限制，意味着蛋白质不会（或不能）以一条完全伸展的氨基酸长链形式存在。换言之，蛋白质天然倾向于折叠并形成更复杂的结构。

MVLSPADKTNVKAAWGKVGA
HAGEYGAEALERMFLSFPTT
KTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNA
LSALSDLHAHKLRVDPVNFK

Figure 12.3 蛋白质结构的不同层次示意图，展示了血红蛋白的：（a）一级结构；（b）二级结构；（c）三级结构；以及（d）四级结构。

结构层级中的下一层称为二级结构（secondary structure）（Figure 12.3b）。二级结构定义为蛋白质中由序列上相邻的组成部分形成的、具有重复氢键模式的形状或亚结构。最常见的蛋白质二级结构包括螺旋（约占全部残基的 ∼35%）和 β-折叠片（beta-pleated sheets，约占全部残基的 ∼25%）。这两类二级结构最初均由 Linus Pauling 在 20 世纪 50 年代预测提出（Corey and Pauling 1953）。这些结构的特征是具有规则的氢键模式，并且这种模式会连续保持三个或更多残基。除这两种非常常见的二级结构形式外，还有若干种丰度较低但仍然重要的二级结构，包括 β-转角（beta turns，即链的急剧反转）、Ω 环（omega loops，其特征是环的形状类似希腊字母 omega [Ω]）以及 3/10 螺旋。总体而言，这五类二级结构通常可以通过人工或自动方式分配给蛋白质中约 55–65% 的氨基酸（Willard et al. 2003）。其余未分类或无法分类的亚结构通常称为无规卷曲（random coil），或者更准确地说，称为无结构区域（unstructured regions）。

通过将不同片段的二级结构组装在一起，可以形成完整的蛋白质结构。这种由不同二级结构成分组装而成的结构称为三级结构（tertiary structure）（Figure 12.3c）。三级结构只是蛋白质三维结构的另一种说法。与二级结构不同，三级结构主要由多肽链远距离部分之间的疏水相互作用决定或介导。与二级结构一样，三级结构也可以划分为若干不同类别或分组。这些类别是由训练有素的结构生物学家和生物信息学家仔细考察数千个 X 射线结构和 NMR 结构后识别出来的。最简单的三级结构分类方案依据不同二级结构元件的相对含量（Levitt and Chothia 1976）。这种分类包括全 α 类（all-alpha，>50% 螺旋；<10% β-折叠片）、全 β 类（all-beta，>30% β-折叠片；<5% 螺旋）以及混合类或 α/β 类（其他所有情况）。还有更精细的三级结构分类方案，它们会考虑大量非同源蛋白质中常见的拓扑结构、基序或折叠。常见的三级折叠包括 α/β 桶（α/β barrel，如 superoxide dismutase）、四螺旋束（four-helix bundle，如 cytochrome C550）、希腊钥匙折叠（Greek key，如 immunoglobulins）、E-F 手（E-F hand，如 calcium binding proteins）、锌指（zinc finger）等。Figure 12.4 展示了这些蛋白质折叠的一些例子。在迄今已解析的 120 000 个蛋白质结构中，已经识别出约 1200–1300 种不同的“折叠”。特别有趣（也令人兴奋！）的是，这一数量非常接近预测的所有生物学可行蛋白质折叠数量，即大约 1500 种（Levitt 2007; Schaeffer and Daggett 2011）。这表明，我们距离建立某种蛋白质结构或亚结构的“元素周期表”可能已经不太遥远。

Figure 12.4 不同类型蛋白质折叠的例子，包括：（a）四螺旋束；（b）α–β 桶；（c）免疫球蛋白折叠。

三级结构层次之上还有所谓四级结构（quaternary structure）（Figure 12.3d）。四级结构是指两个或多个独立的三级结构组装成更大的超结构，例如胰岛素的两条链、血红蛋白的四条链，或细菌核糖体中的 50 多条肽链。许多蛋白质必须形成四级复合物才能发挥功能，因此，理解或识别四级结构是理解蛋白质–蛋白质相互作用的关键（见 Chapter 13）。

蛋白质结构几乎总是使用一种称为 Protein Data Bank（PDB）格式的标准格式，以组成原子的笛卡尔坐标（即 x,y,z 坐标）来描述（Box 12.2）。X 射线结构文件和 cryo-EM 结构文件通常只包含重原子（C、N、O 和 S）的坐标，而 NMR 结构文件通常既包含重原子，也包含与其相连的氢原子。大多数蛋白质数据文件会包含数千个原子，因此也包含数千行记录，以及与每个原子相关的数千个坐标位置。由于所有蛋白质都由氨基酸组成，每种氨基酸中每个原子的几何构型相对标准——也就是说，每个原子相对于其他每个原子都有明确的键长或键角（Figure 12.5）。如图所示，每个氨基酸由一个氮（N）原子与一个中心碳原子（Cα）相连构成，其中 N–Cα 键长为 1.47 Å。同样，Cα 原子与羰基碳原子（C）之间的距离为 1.53 Å，而羰基碳（C）与其氧原子（O）之间的距离为 1.24 Å。中心 Cα 原子还连接一个中心氢原子（Hα），距离为 1.00 Å，并连接一个侧链碳（R 或 Cβ），距离为 1.56 Å。肽键中的 N–C 键长度始终为 1.32 Å。由于这种几何一致性，实际上可以用内坐标或内部角度来描述蛋白质结构，而不必使用笛卡尔坐标。内坐标是不需要原点、也不由原点定义的坐标。通过使用一类称为“二面角”（dihedral angles）的平面角（Figure 12.5）——也称为扭转角（torsion angles）——可以紧凑地描述蛋白质结构的主链或总体拓扑。两个最重要的主链二面角分别是由某个氨基酸残基的 H、N、Cα 和 Hα 原子定义的角（称为 phi 或 φ），以及由该氨基酸残基的 Hα、Cα、C 和 O 原子定义的角（称为 psi 或 ψ）。换言之，φ 角沿 N–Cα 键定义，而 ψ 角沿 Cα–C 键定义。蛋白质中的每个残基都可以由一个 φ 角和一个 ψ 角定义。因此，整个蛋白质主链可以由该蛋白质中所有残基的全部 φ/ψ 角集合来定义。

Figure 12.5 标准氨基酸残基和肽键几何构型示意图。图中显示了典型键长以及标准主链二面角。

Box 12.2 PDB Format

蛋白质结构文件的标准格式称为 Protein Data Bank（PDB）格式（Figure 12.6）。这是一种机器和人类均可读取的格式，允许将蛋白质、提交者、序列、二级结构以及 x,y,z 坐标等信息存储起来，并由计算机读取。PDB 格式相当古老，反映了 20 世纪 70 年代末 PDB 建立时的计算技术状态。因此，PDB 文件中的每一行都必须有一个七个字母或更短的标签，后面跟随精确数量的空格，然后再跟随与该标签相关的信息（全部使用大写字母）。每个 PDB 文件的结构几乎完全相同，最开始的若干行带有 HEADER、CMPND、SOURCE、AUTHOR 或 JRNL 标签，其中 HEADER 分别提供蛋白质功能、PDB ID 和提交日期；CMPND 提供蛋白质名称；SOURCE 提供来源生物；AUTHOR 列出作者；JRNL 列出发表该结构的期刊。下一组行带有 REMARK 标签，主要以自由格式提供关于分辨率、R 因子（一种质量指标）、解析结构所使用的方法、不对称单元中的分子数等附加细节。序列信息以 SEQRES 标签给出，并使用现在已经较为古旧的三字母氨基酸代码；随后是 HET 和 FORMUL 标签，用于表示异原子（结构中发现的非氨基酸部分）的名称和化学式。由提交者识别的二级结构则由 HELIX、SHEET、TURN 和 SSBOND 标签表示。

这些最前面的约 100 行构成了 PDB 文件的“header”，为蛋白质及其结构质量提供了有用的概览。PDB 文件中的下一组行提供原子坐标。这些行始终以 ATOM 标签标识。每个 ATOM 标签后最多跟随 10 列文本和数字，包括原子编号、原子标签（CA = alpha carbon，C = carbonyl carbon 等）、残基名称（三字母代码）、链编号或链字母、残基编号、X 坐标（单位为 ångstroms）、Y 坐标（单位为 ångstroms）、Z 坐标（单位为 ångstroms）、占有率（通常为 1.00）以及热 B 因子（thermal B factor，一种流动性指标）。

虽然 PDB 格式通常便于人类阅读，但对计算机而言可能相当令人困惑。例如，许多 PDB 文件在标记、编号和格式上经常存在例外和变体，尤其是 1995 年以前提交的文件。此外，读取 PDB 格式文件的程序必须内置一定的化学知识——也就是说，必须知道（或推断）原子之间的连接和键合关系，因为 PDB 文件并不提供这类连接信息。另外，也不存在一个正式的数据字典来描述书写或读取 PDB 文件的全部规则。这使得编写用于处理、分析和查看 PDB 文件的程序成为一项相当具有挑战性的工作。

鉴于 PDB 格式存在不一致、非正式和古旧等特点，过去曾有多种努力试图校正 PDB 文件，或将其迁移到更一致、更现代的文件格式。在过去若干年中，PDB 一直在内部使用一种称为 mmCIF 的格式存储文件。mmCIF 是 macromolecular Crystallographic Information File 的缩写，它基于小分子晶体学家使用的 CIF 格式（Hall et al. 1991）。mmCIF 格式是一种简单而一致的数据表示形式，用于交换和归档结构数据，并得到多个国际机构认可。自 2011 年起，PDB 现在以 PDBML/XML 格式维护其全部数据。PDBML 代表 PDB Markup Language（Westbrook et al. 2005）。这种较新的格式按照 PDBx/mmCIF Exchange Data Dictionary，以 XML 格式表示 PDB 数据。然而，由于已经有大量软件包被编写出来用于处理 PDB 格式文件，而用于处理 PDBML 的软件包相对较少，因此传统 PDB 格式很可能还会在很长很长一段时间内继续存在。

HEADER    ELECTRON TRANSPORT                         19-MAR-90   2TRX
COMPND    THIOREDOXIN
SOURCE    (ESCHERICHIA $COLI)
AUTHOR    S.K.KATTI,D.M.LE*MASTER,H.EKLUND
JRNL      AUTH   S.K.KATTI,D.M.LE*MASTER,H.EKLUND
JRNL      TITL   CRYSTAL STRUCTURE OF THIOREDOXIN FROM ESCHERICHIA
JRNL      TITL 2 $COLI AT 1.68 ANGSTROMS RESOLUTION
JRNL      REF    J.MOL.BIOL.                  V. 212   167 1990
JRNL      REFN   ASTM JMOBAK  UK ISSN 0022-2836
REMARK    2
REMARK    2 RESOLUTION. 1.68 ANGSTROMS.
REMARK    3
REMARK    3 REFINEMENT. BY THE RESTRAINED LEAST-SQUARES PROCEDURE OF J.
REMARK    3   KONNERT AND W. HENDRICKSON AS MODIFIED BY B. FINZEL
REMARK    3   (PROGRAM *PROFFT*). THE R VALUE IS 0.165 FOR 25969
REMARK    3   REFLECTIONS IN THE RESOLUTION RANGE 8.0 TO 1.68 ANGSTROMS
REMARK    3   WITH FOBS .GT. 3.0*SIGMA(FOBS)
SEQRES    1 A  108  SER ASP LYS ILE ILE HIS LEU THR ASP ASP SER PHE ASP
SEQRES    2 A  108  THR ASP VAL LEU LYS ALA ASP GLY ALA ILE LEU VAL ASP
SEQRES    3 A  108  PHE TRP ALA GLU TRP CYS GLY PRO CYS LYS MET ILE ALA
SEQRES    4 A  108  PRO ILE LEU ASP GLU ILE ALA ASP GLU TYR GLN GLY LYS
SEQRES    5 A  108  LEU THR VAL ALA LYS LEU ASN ILE ASP GLN ASN PRO GLY
SEQRES    6 A  108  THR ALA PRO LYS TYR GLY ILE ARG GLY ILE PRO THR LEU
SEQRES    7 A  108  LEU LEU PHE LYS ASN GLY GLU VAL ALA ALA THR LYS VAL
SEQRES    8 A  108  GLY ALA LEU SER LYS GLY GLN LEU LYS GLU PHE LEU ASP
SEQRES    9 A  108  ALA ASN LEU ALA
HET       MPD   606       8  2-METHYL-2,4-PENTANEDIOL
HET       MPD   607       8  2-METHYL-2,4-PENTANEDIOL
HET       MPD   608       8  2-METHYL-2,4-PENTANEDIOL
FORMUL    3     CU    2(CU1 ++)
FORMUL    4     MPD   8(C6 H14 O2)
FORMUL    5     HOH   *140(H2 O1)
HELIX     1 A1A SER A   11  LEU A   17  1 DISORDERED IN MOLECULE B
HELIX     2 A2A CYS A   32  TYR A   49  1 BENT BY 30 DEGREES AT RES 39
HELIX     3 A3A ASN A   59  ASN A   63  1
HELIX     4 31A THR A   66  TYR A   70  5 DISTORTED H-BONDING C-TERMINS
HELIX     5 A4A SER A   95  LEU A  107  1
HELIX     6 A1B SER B   11  LEU B   17  1 DISORDERED IN MOLECULE B
SSBOND    1 CYS A   32  CYS A   35
ATOM      1  N   SER A   1      21.389  25.406  -4.628  1.00 23.22
ATOM      2  CA  SER A   1      21.628  26.691  -3.983  1.00 24.42
ATOM      3  C   SER A   1      20.937  26.944  -2.679  1.00 24.21
ATOM      4  O   SER A   1      21.072  28.079  -2.093  1.00 24.97
ATOM      5  CB  SER A   1      21.117  27.770  -5.002  1.00 28.27
ATOM      6  OG  SER A   1      22.276  27.925  -5.861  1.00 32.61
ATOM      7  N   ASP A   2      20.173  26.028  -2.163  1.00 21.39
ATOM      8  CA  ASP A   2      19.395  26.125  -0.949  1.00 21.57
ATOM      9  C   ASP A   2      20.264  26.214   0.297  1.00 20.89
ATOM     10  O   ASP A   2      19.760  26.575   1.371  1.00 21.49
ATOM     11  CB  ASP A   2      18.439  24.914  -0.856  1.00 22.14
ATOM     22  CE  LYS A   3      21.620  21.104   2.844  1.00 25.84
ATOM     23  NZ  LYS A   3      20.830  20.757   1.615  1.00 25.55

Figure 12.6 一个 Protein Data Bank 格式文件示例，显示了 Escherichia coli 硫氧还蛋白条目（Protein Data Bank database identifier: 2TRX）的前约 50 行。

有趣的是，如果将这些 φ/ψ 扭转角绘制出来（针对已知蛋白质结构），其中 φ 位于水平轴（X 轴），ψ 位于垂直轴（Y 轴），就可以观察到清晰的分布模式（Figure 12.7）。这种图称为 Ramachandran plot（Ramachandran et al. 1963），由印度晶体学家 Gopalasamudram Narayana Ramachandran 开发。Ramachandran plot 中的空白区域（约占图面积的 ∼75%）表示由于氨基酸侧链的空间冲突，这些扭转角无法被采用。当氨基酸残基的扭转角位于 Ramachandran plot 的左上象限（中心约为 φ = −120°、ψ = 120°）时，它们处于 β 链中。当氨基酸位于左下象限（中心约为 φ = −60°、ψ = −40°）时，它们处于 α 螺旋中。Ramachandran plot 在评估蛋白质结构质量方面具有相当大的用途。通过研究大量高质量结构并考察其 Ramachandran plot，人们发现非常好的结构会表现出非常紧密的聚类模式，而且只有相对很少的残基会落在这些紧密聚类或“允许”的二面角区域之外（Laskowski et al. 1993）。如果一个蛋白质结构中有较高比例（>15%）的非甘氨酸残基位于不允许区域，那么该结构几乎必然会被认为是低质量结构。由于 Ramachandran plot 既有用又简单，许多蛋白质结构软件包现在都将其作为结构可视化和评价工具的一部分（Laskowski et al. 1993; Willard et al. 2003）。

Figure 12.7 硫氧还蛋白（Protein Data Bank database identifier: 2TRX）的 Ramachandran plot，由程序 VADAR 生成（Willard et al. 2003）。图中的每个黑点对应蛋白质中的一个残基。方形对应位于“allowed”或“core”区域的残基，三角形对应甘氨酸残基，“X”对应位于“disallowed”区域的残基（见图例）。“core boundaries”或图中的红色区域界定了 Ramachandran plot 中在高质量结构里约 ∼85% 残基应当出现的区域。“allowed boundaries”（绿色区域）界定了图中约 ∼10% 残基应当出现的部分。落在“generously allowed boundaries”（黄色区域）或该区域之外的残基，提示这些残基可能存在严重空间位阻问题。甘氨酸残基（以“X”标记）是例外，因为它们可以出现在图中的任意位置。

虽然蛋白质结构可以用扭转角来描述，但大多数表示方式仍然使用笛卡尔坐标。然而，需要记住的是，蛋白质并不只是由具有点状 x,y,z 坐标的点状原子组成。事实上，原子和氨基酸会占据空间或体积。因此，蛋白质具有体积和形状。这些形状也具有表面（包括外部表面和内部表面），而表面由表面积定义。这些表面相当粗糙且盘曲复杂，正是这种表面“粗糙性”赋予了蛋白质独特性质，包括其配体结合位点或蛋白质相互作用位点。并非所有蛋白质表面都能被其他分子或其他原子接触到，因此蛋白质表面通常用所谓可及表面积（accessible surface area, ASA）来定义（Richards 1977）。由于氮原子和氧原子也携带部分电荷，蛋白质的原子表面也可以具有正电性。

104

Protein Structure Databases

PDF page 393-397；印刷页码 373-377

▶

Ch12 Protein Structure Prediction and Analysis / Protein Structure Databases

Protein Structure Databases

蛋白质结构数据库

373

……或带负电荷，这些电荷会吸引相反电荷，或排斥相同电荷。不带电的原子（如 C）通常具有疏水性，而疏水原子之间往往会相互吸引。在思考蛋白质如何发挥功能以及如何折叠时，这种“体积式”（volumetric）、空间填充（space-filling）的蛋白质视图非常重要。关于蛋白质如何进行渲染和观察的更多细节，将在……中介绍。

105

Visualizing Proteins

PDF page 397-401；印刷页码 377-381

▶

Ch12 Protein Structure Prediction and Analysis / Visualizing Proteins

Visualizing Proteins

其他结构数据库

PDB 并不是唯一的结构数据存储库。事实上，还有若干二级结构数据库或经过人工整理的结构数据库，它们从 PDB 获取原始数据，并对这些数据进行整理、加工，或与其他数据结合，从而构建出一些非常有用的资源。其中规模最大、最有用的两个数据库包括 Molecular Modeling Database（MMDB）和 Proteopedia。

MMDB

MMDB 是 National Center for Biotechnology Information（NCBI）的三维结构数据库（Madej et al. 2014）。MMDB 已完全整合到 NCBI 数据库系统中，支持跨所有 NCBI 数据库的检索，并可直接链接到 NCBI Protein Database、Conserved Domain Database（CDD）以及 PubChem。

MMDB 提供了多种有用功能，包括一种专门的序列到结构检索功能，称为 Cn3D Basic Local Alignment Search Tool（CBLAST）；Inferred Biomolecular Interactions Server（IBIS）；预先计算的 Vector Alignment Search Tool（VAST+）；结构邻近项（structural neighbors）；以及 Cn3D 可视化工具（既有可下载程序版本，也有 JavaScript 版本；见第 2 章）。

关于某一给定蛋白质的结构信息，可以通过 MMDB 的 Structure Summary 页面访问。该页面会显示蛋白质结构的静态图像、蛋白质与核苷酸及化学分子相互作用的示意图（通过 IBIS 提供）、其 CDD 链接、通往 iCn3D 交互式查看器的直接链接，以及指向由 VAST+ 判定的相似结构的超链接。

MMDB 中存储的数据每天从 PDB 上传，并检查坐标数据与序列数据之间是否完全一致；必要时会进行校正，随后再映射到 NCBI 的 ASN.1（Abstract Syntax Notation）格式。MMDB 是一个很好的例子，说明来自 PDB 的开放结构数据如何经过修改或定制，以丰富其内容，并让所有用户受益。

Proteopedia

Proteopedia（Hodis et al. 2008）本质上是一个面向蛋白质的 Wikipedia。Proteopedia 最初被构想为一种 wiki 网络资源，用于以用户友好的方式向尽可能广泛的受众展示蛋白质结构/功能信息。

每个 Proteopedia 页面都包含嵌入式、可动画显示的三维结构（可通过 JSmol 查看），周围配有说明文字；这些文字中包含超链接，点击后可以改变嵌入式三维结构图像的显示方式，包括视角、缩放动画、表示方式、颜色和标签等。

到目前为止，Proteopedia 已经撰写了超过 100 000 个页面，其中一些注释较完善的条目包含数千字内容（很像高质量的 Wikipedia 页面），涵盖蛋白质的功能、相关性或历史、已知疾病关联、结构或结构亮点、研究应用、相关 PDB 结构链接，以及大量参考文献。

在许多较高质量条目中，点击嵌入于文本中的超链接，会启动一段简短的动画“演示”，用于说明正文中解释的概念。Proteopedia 的百科全书式设计使蛋白质结构更加易于接近，并且相比 PDB 或 MMDB 这类数据库，甚至相比科学文献，通常能够为特定蛋白质提供显著更多的背景信息或入门性说明。通过采用 wiki 风格的方法，Proteopedia 也能够动员科学共同体撰写并分享其关于特定蛋白质或重要蛋白质的丰富知识，使所有人受益。

蛋白质可视化

如 Box 12.2 所述，蛋白质坐标文件本身看起来相当乏味。它们只是 x、y、z 坐标的列表，并不会提供任何视觉线索来说明这个分子或这些分子实际看起来是什么样子。在计算机可视化软件出现之前，结构生物学家……

106

Protein Structure Prediction

PDF page 401-406；印刷页码 381-386

▶

Ch12 Protein Structure Prediction and Analysis / Protein Structure Prediction

Protein Structure Prediction

DeepView 功能十分丰富，但它并不是最易上手的软件包，尤其对初学者而言更是如此。尽管如此，University of Southern Maine 的 Dr. Gale Rhodes 编写了一份非常优秀的教程，为初学者学习使用这一出色的可视化与建模软件包提供了很好的起点。此外，也有若干 YouTube 教程可供参考。DeepView 一个特别吸引人的特性，是它能够导出与免费 ray-tracing（光线追踪）软件包 POV-Ray（Persistence Of Vision – Ray Tracing）兼容的文件。POV-Ray 使更具艺术创作倾向的建模者能够生成令人惊艳的蛋白质及蛋白质复合物图像，这些图像不仅适合艺术画廊展示，甚至可用于期刊封面（Figure 12.11）。

虽然本章只介绍了少数几种可视化程序，但需要指出的是，目前已有数十种可免费获得的生物大分子可视化程序可以在网上找到。选择最合适的软件在很大程度上取决于个人需求，这有点类似于选择一台计算机或购买一部手机。易用性、稳定性、平台兼容性以及功能都是重要的考虑因素。无论选择哪一种程序，都应始终牢记：可视化软件的核心作用，是生成能够以视觉上令人愉悦的方式传达重要科学信息的图像。花时间制作高质量图像，并针对具体任务选择合适的软件，会极大影响所要传递的信息效果。请记住：“一图胜千言。”

Protein Structure Prediction

自从第一个蛋白质结构被测定以来，计算生物学家和计算化学家就一直试图开发能够仅以蛋白质序列为输入来预测其三维结构的软件。事实上，最早的一些生物信息学程序就是为了解决“蛋白质折叠问题”（protein folding problem）而编写的（Gibson and Scheraga 1967; Chou and Fasman 1974）。尽管这一领域已有 50 多年的历史，蛋白质结构预测仍然是生物信息学研究中的活跃方向，每年都有大量相关论文发表。令人鼓舞的是，该领域已经取得了一定进展，现在至少可以使用三种不同方法来预测或建模蛋白质的三维结构：同源建模（homology modeling，或 comparative modeling，比较建模）、threading（或 fold recognition，折叠识别）以及 ab initio methods（从头预测方法）。这三类方法本质上都属于预测性方法，也就是说，它们生成的是模型，而不是基于 X-ray diffraction（X 射线衍射）、cryo-EM（冷冻电镜）或 NMR（核磁共振）实验得到的原始实验数据。相反，这些预测方法都试图基于已有的蛋白质结构知识，并将这些原理外推，用于生成新的结构。

Homology Modeling

在目前可用的三种预测方法中，最强大且最准确的方法是同源建模（Marti-Renom et al. 2000）。同源建模（或比较建模）是一种稳健的技术，可根据 PDB 中已知同源蛋白的坐标来“预测”或生成蛋白质的详细三维结构。在同源建模中，模型质量强烈依赖于查询序列与匹配数据库序列之间的相似程度；序列相似性最高的蛋白质通常能够得到最好的建模效果。一般而言，建模结构与真实结构之间的平均坐标一致性，会随着序列同一性每降低 10% 而下降约 0.3 Å。此外，对于与 PDB 中已有目标蛋白序列同一性低于约 30% 的蛋白质，同源建模通常不能用于结构预测。不过，在某些少见情况下，同源建模也可以为序列同一性远低于 20% 的蛋白质生成可靠的三维结构模型。

同源建模是一个多步骤过程，它利用序列比对、结构修饰、数据库搜索、能量最小化以及结构评估来生成结构。更具体地说，同源建模可以分解为五个不同步骤：

将查询蛋白或未知蛋白序列与已知结构的序列进行比对；
利用该比对结果选择并替换由于序列插入或缺失而需要改变的主链片段，通常是来自特殊 loop library（环区库）的 loops（环区）；
替换由于比对或 loop 插入/缺失过程而发生改变的侧链；
使用能量最小化对模型进行精修，以缓解碰撞或 steric strains（空间位阻张力）；
通过目视检查和软件验证工具对模型进行验证。

同源建模中最关键的步骤是第一步——alignment（比对）。错误的比对会产生类似多米诺骨牌的效应，逐步扰乱后续步骤，最终导致严重有缺陷的模型。为了减少单一 pairwise alignment（双序列比对）错误所带来的问题，许多同源建模软件包会从多个数据库同源序列中生成比对结果（如果这些同源序列存在），以提高这一至关重要的比对步骤的可靠性。

最初，同源建模是一个高度交互、严重依赖人工操作的过程，其结果在很大程度上取决于用户的专业经验，以及专用三维可视化软件和硬件的可用性。幸运的是，许多复杂而耗时的步骤现在已经实现自动化，因此几乎任何人都可以在几乎任何计算机上完成同源建模。除了若干高质量的商业软件包之外，也有一些优秀的免费同源建模软件包，包括 MODELLER（Sali 1998）、DeepView 和 HHpred（Söding et al. 2005），这些软件可以下载并安装在 MacOS、Unix 和 Windows 平台上。

MODELLER 是历史最久的软件包之一，开发于 1989 年，也可能是最著名的同源建模软件包。它使用一种称为“satisfaction of spatial restraints”（空间约束满足）的方法，即利用一组几何约束，为蛋白质中每个原子的位置建立概率密度函数。MODELLER 需要目标氨基酸序列与具有已知结构的模板蛋白之间的序列比对。MODELLER 有若干变体，包括 EasyModeller（Kuntal et al. 2010），它为 MODELLER 提供了用户友好的 GUI；以及 PyMod，这是一个免费的 PyMOL plug-in。此外，由 MODELLER 生成的数百万个蛋白质结构被收录在 MODELLER 的同源建模数据库 ModBase 中（Pieper et al. 2014）。

近年来，同源建模也已可通过 Web 使用。这些可通过 Web 访问的服务包括 SWISS-MODEL server（Schwede et al. 2003）、CPHModels server（Nielsen et al. 2010）、ModWeb server（Pieper et al. 2014）、HHpred server（Söding et al. 2005）、3D-JIGSAW（Bates et al. 2001）和 PROTEUS2（Montgomerie et al. 2008）。通常，用户只需输入或粘贴感兴趣蛋白质的序列，然后点击 submit 按钮即可。几分钟到几小时之内，用户就会通过电子邮件收到一个三维结构。HHpred 和 PROTEUS2 以速度较快而著称，响应时间通常只有几分钟。Figure 12.12 展示了一个以人硫氧还蛋白为模板、为 Escherichia coli 硫氧还蛋白生成的同源模型，该模板与目标序列只有 26% 的序列同一性。

大多数已发表的同源建模程序和服务器都经过了严格测试，因此来自任何给定软件包或 Web 服务器的结果实际上都相当可信。许多软件包都通过 Critical Assessment of Protein Structure Prediction（CASP，蛋白质结构预测关键评估）过程进行了评估。CASP 是一项由学术共同体推动的倡议，自 1994 年以来每 2 年举行一次。CASP 的目的是对蛋白质结构预测中的不同程序或方法进行独立、无偏或“blind”（盲测）评估，其中包括同源建模、threading 和 ab initio prediction。CASP 的组织者与 X-ray crystallographers（X 射线晶体学家）和 NMR spectroscopists（核磁共振波谱学家）合作，后者提供数十个新近测定或即将测定的蛋白质结构坐标。随后，这些结构的序列会被发送给注册的 CASP predictors（预测者），他们通常有数月时间生成结构，并将预测结果提交给 CASP 组织者。比赛结束后，所有提交的结构都会使用多种严格的结构比较技术进行评估，这些技术将在 Protein Structure Comparison 中介绍。根据 CASP 以及其他独立评估，MODELLER、SWISS-MODEL 和 3D-JIGSAW 似乎在同源建模服务器中表现最佳。总体而言，同源建模是蛋白质结构预测中最可靠、最准确、也是使用最广泛的方法。鉴于 PDB 的规模极其庞大（目前超过 120 000 个结构），并且已经全面覆盖了大多数已知折叠，几乎任何给定蛋白质序列都有很大机会能够通过同源建模成功生成结构。

Figure 12.12

Figure 12.12 以 human thioredoxin（3TRX，26% sequence identity）为模板，为 Escherichia coli thioredoxin 生成的同源模型（b）示意图。E. coli thioredoxin 的实际 X-ray 结构显示于（a）。请注意，通过目视检查可以看到二者在整体上具有很好的相似性。

Threading

Threading（或 fold recognition，折叠识别）是一种结构预测方法，用于预测那些与 PDB 中任何蛋白质基本没有序列同源性的蛋白质结构，或识别其共同折叠（Bowie et al. 1991; Bryant and Lawrence 1993）。换句话说，threading 是一种在同源建模无法继续发挥作用时接续使用的结构预测技术。与追求精确模型的同源建模不同，threading 通常只能生成较为近似的模型或近似折叠。

Threading 之所以得名，是因为它在表面上类似于将一根细管沿着或穿过管道系统的过程。在将这根管或探针（称为“snake”）穿过管道的过程中，导线会呈现出周围管道的形状（Figure 12.13）。如果我们把蛋白质的主链结构看作一个高度扭曲的中空管道（类似复杂的管道系统），就可以进一步设想：如果我们把一条完全不同的蛋白质序列穿过这个主链管道，会发生什么？直观上，如果探针序列类似于原始管道对应的序列，那么匹配应当相当好，氨基酸侧链也会彼此紧密堆积。相反，如果探针序列与管道序列差异很大，那么当探针序列最终被送入管道时，它可能会匹配得很差，侧链可能相互碰撞，或指向错误方向。

Figure 12.13

Figure 12.13 threading 如何执行的示意图。（a）一条序列为 THREADINGSEQ… 的查询蛋白被逐个残基地穿过 fold database（折叠数据库）中每个蛋白质的三维结构，数据库中的结构显示于（b）。每一次都会评估其能量或匹配质量，得分最高的匹配最可能代表其折叠。

如果将这个 threading 过程再推进一步并使其自动化，那么就可以将数百乃至数千条不同的探针序列逐一穿过这个蛋白质主链管道。每条序列被送入之后，都要评估其匹配程度，以确定哪一条序列最适合给定的模板管道或主链折叠。这种评估可以使用某种经验性能量项，或某种 packing efficiency（堆积效率）指标快速完成。通过这种方式，就可以评估哪些蛋白质序列与给定的主链折叠相容。显然，人们会预期那些与原始模板序列高度同源的序列应当匹配最好。然而，研究也发现，这种看似简单的方法有时能够揭示一些完全不相关的序列也可以适配到这一折叠中。当发现这类序列时，实际上就是在预测一个未知蛋白质的三级折叠，也就是在进行三维结构预测。

通过 threading 技术预测得到的三维结构或折叠通常质量并不高，正确结构与建模结构之间的典型 RMSD 通常大于 2 Å。然而，threading 方法确实能够揭示那些似乎没有已知结构同源物的蛋白质的大致形状和整体折叠。Threading 在 20 世纪 90 年代早期开始受到重视，当时它被用于建立 leptin（瘦素）的近似结构模型。Leptin 是一种在肥胖中发挥重要作用的蛋白质。当时尚无已知的序列同源物或结构同源物，所有同源建模尝试都失败了（Madej et al. 1995）。Madej et al. 生成的 threading 模型提出了该蛋白活性的一般机制，后来发现这一机制相当准确。此后，threading 便成为蛋白质结构预测领域中备受青睐的方法。

由于 threading 很受欢迎，现在已有大量基于 Web 的 threading 服务可供使用，包括 Phyre2（Kelley et al. 2015）、HHpred（Söding et al. 2005）、RaptorX（Källberg et al. 2014）、LOOPP（Vallat et al. 2009）和 MUSTER（Wu and Zhang 2008）。近年来，使用多个 threading 服务器的所谓 meta-servers（元服务器）将多个 threading 预测结果组合起来，似乎能够为结构预测提供最佳结果。meta-threading servers 的例子包括 eThread（Brylinski and Lingam 2012）和 LOMETS（Local Meta-Threading Server；Wu and Zhang 2007）。LOMETS 已被整合到结构-功能预测工具 I-TASSER 中，I-TASSER 全称为 Iterative Threading ASSEmbly Refinement（Yang and Zhang 2015）。I-TASSER 通常也被称为“Zhang server”，因为它由 University of Michigan 的 Yang Zhang 开发。在 CASP7、CASP8、CASP9、CASP10、CASP11 和 CASP12 竞赛中，也就是从 2006 年到 2016 年，I-TASSER 一直被评为蛋白质结构预测排名最高的服务器。

Ab Initio Structure Prediction

Ab initio prediction 字面意思是“从头开始预测”。换言之，这种方法试图在不利用任何相关三维结构先验知识的情况下预测蛋白质结构。Ab initio prediction 通常旨在识别新的折叠，或识别那些与现有结构完全没有任何序列相似性的折叠。在过去十年中，ab initio 蛋白质结构预测取得了显著进展；对于较小的蛋白质（<150 个残基），其结构已经能够以令人惊讶的规律性被准确预测出来。

这些进展在很大程度上归功于 University of Washington 的 Dr. David Baker 及其团队的工作。在 21 世纪初，Baker 团队开发了一个名为 Rosetta 的程序（Bonneau et al. 2001）。Rosetta 使用来自已知蛋白质结构的大型 peptide fragment（肽片段）库，并结合一种专门开发的 Monte Carlo sampling（蒙特卡罗采样）技术和一个智能 energy function（能量函数）来“fold” proteins，也就是预测蛋白质结构。Rosetta 不使用同源建模、threading 或 template-assisted structure generation（模板辅助结构生成），因此代表了一种真正的 de novo 或 ab initio 蛋白质结构预测方法。Rosetta 在早期 CASP 的 ab initio 结构预测竞赛中取得了显著成功。基于相同的搜索概念和智能能量函数，Rosetta 已经发展出若干其他变体，包括 RosettaDock（用于蛋白质-蛋白质 docking）、RosettaDesign（用于设计新型蛋白质）和 RosettaLigand（用于将小分子 docking 到蛋白质上）。

这些变体中有许多现在可以通过 RosettaCommons 网站免费下载。此外，若干 Rosetta 程序现在也可作为 Web servers 免费使用，包括 ROSIE（Lyskov et al. 2013）、Robetta（Kim et al. 2004）和 RosettaDesign（Liu and Kuhlman 2006）。Rosetta 甚至还可以作为一种用于家庭计算机或 crowd-sourced（众包式）蛋白质结构预测和 docking 的分布式“mini-platform”使用，即通过 Rosetta@home 和 Foldit 实现。

Rosetta 的成功激励了蛋白质结构预测领域的许多研究者；当今一些最成功的结构预测程序（例如 I-TASSER）都使用了借鉴自 Rosetta 的算法思想。不过，ab initio 蛋白质结构预测也存在其他方法。其中一种最引人注目的方法，是利用大规模并行 molecular dynamics（MD，分子动力学）模拟，这些模拟在定制超级计算机上运行，计算机中包含专门设计的、针对 MD 优化的计算芯片（Klepeis et al. 2009）。这些 MD 模拟已被证明足够详细且足够准确，能够模拟小型快速折叠蛋白的正确折叠过程（Lindorff-Larsen et al. 2011）。这是一项真正令人印象深刻的成就。

另一种令人着迷的 ab initio 或 de novo 蛋白质结构预测方法采用一种称为 co-evolutionary coupling（协同进化耦合）的技术（Marks et al. 2011）。在这种优雅的方法中，multiple sequence alignment（多序列比对；见 Chapter 8）被用于通过进化约束推断成对残基耦合或空间相互作用。也就是说，如果序列上相距较远的一对残基在空间上彼此接近，那么它们会以协调的方式发生变化。例如，一个小残基（如 glycine，甘氨酸）紧邻一个大残基（如 tryptophan，色氨酸）时，只有在该大残基同时被另一个中等大小残基（如 valine，缬氨酸）替代的情况下，这个小残基才可能被一个中等大小残基（如 leucine，亮氨酸）替代。通过序列比对和适当的统计分析推断出的这些协调性残基突变或“couplings”（耦合），随后被用于创建成对原子约束。这些成对约束随后可用于构建 atomic-resolution structures（原子分辨率结构）。这种 co-evolutionary coupling 方法只使用序列数据作为输入，不进行同源建模，并且已被证明能够生成与实验测定结构相差 3–5 Å RMSD 以内的蛋白质结构模型（Marks et al. 2011）。

尽管 ab initio 结构预测正在取得相当令人印象深刻的进展，而且通过计算解决蛋白质折叠问题似乎已近在眼前，但看起来其中许多优雅的 ab initio 工作可能最终会变得没有太大必要。事实上，得益于过去 50 年结构生物学家的巨大努力，目前看来，大多数天然可能存在的蛋白质折叠已经为人所知。已知蛋白质折叠的数量从 1997 年的 405 个，增加到 2007 年的 1086 个（Levitt 2007），再到 2017 年仅为 1228 个；并且在过去几年中，几乎没有新的折叠被发现。这意味着，当今几乎每一个通过 NMR、X-ray crystallography（X 射线晶体学）或 cryo-EM 解析出的蛋白质结构，都与 PDB 中一个或多个已有结构非常相似。因此，现在几乎任何人都可以使用免费的同源建模服务器或免费的 threading Web 服务器，直接从氨基酸序列推断几乎任何已知蛋白质的结构。换句话说，蛋白质折叠问题本质上已经通过“brute force”（蛮力方式）得到了解决。

当然，这并不意味着不再需要继续开发更好的预测软件，也不意味着不再需要结构生物学家或结构生物学本身。关于 protein–protein interactions（蛋白质-蛋白质相互作用）、protein dynamics（蛋白质动力学）、protein energetics（蛋白质能量学）以及 protein–ligand binding（蛋白质-配体结合）仍会有大量问题，需要通过严谨测量、精确模拟和精心设计的实验来解决。同样，随着人们逐渐认识到，多达 30% 的蛋白质或蛋白质结构域实际上是 unstructured（无结构的）或 intrinsically disordered（内在无序的），结构生物学家、计算生物学家和数据库维护人员现在也面临着一系列新的结构挑战（Varadi et al. 2014）。

107

Protein Structure Evaluation

PDF page 406-409；印刷页码 386-389

▶

Ch12 Protein Structure Prediction and Analysis / Protein Structure Evaluation

Protein Structure Evaluation

蛋白质结构评估

无论蛋白质结构的坐标是通过实验方法获得的（使用 NMR、X-ray 或 cryo-EM），还是通过建模获得的（通过 homology 或 threading），始终都需要提出一个非常简单的问题：“这个结构有多好？”一个质量较差的结构，如同一个质量较差的模型，可能会导致我们误解蛋白质如何发挥作用、它与其他蛋白质之间的关系，或者潜在 ligand 可能结合或不可能结合的位置。相反，一个高质量结构可以揭示大量具有重要生物学意义的信息，并可作为基础，用于检验关于 folding 或 function 的新假说，设计并构建 mutants，或设计新药。

PDB 中绝大多数通过实验测定的结构实际上都相当优秀；当然，大多数结构生物学家也都努力生成他们所能得到的最佳结构。然而，PDB 中至少已有十几个蛋白质结构实例被发现存在严重缺陷，以至于不得不被撤回（Hooft et al. 1996）。此外，还有数十个蛋白质结构分辨率较低（>3 Å resolution）、存在残基或原子标注错误、缺失较长片段的序列，或只提供 C𝛼 坐标。

随着 NMR spectroscopy 成为 X-ray crystallography 的替代方法之一，我们现在看到，许多蛋白质结构或蛋白质结构的某些部分，在溶液状态与固态（晶体）条件之间实际上存在相当显著的差异。即使在同一蛋白质的不同晶型之间，原子位移平均存在 ±0.5 Å 的差异，或 backbone dihedral angle 变化约 ±7°，也是十分常见的。这些结构变异并不限于实验测定的结构。例如，homology models 总是会在模型本身与真实结构（在真实结构被测定之后）之间表现出差异，而且序列一致性每下降 10%，差异幅度大约增加 0.3 Å。此外，homology models 经常至少有一两个区域建模不正确，原因可能是 sequence alignment errors、loop insertion errors 或 energy refinement errors。

尽管这些评论似乎会使人怀疑许多蛋白质结构的可靠性和实用性，但其主要目的，是提醒我们对所有科学数据都应保持适当程度的谨慎或怀疑。这些评论也旨在强调，我们始终应努力回答开头提出的问题：“这个蛋白质结构有多好？”

蛋白质结构极其复杂且高度可变。这种复杂性使得仅凭观察蛋白质结构来评估其质量或正确性几乎不可能。然而，通过研究大量蛋白质结构，并重点关注那些分辨率特别好的结构，结构生物学家已经认识到，高质量结构具有一些近乎普遍的特征。特别是，在考虑水溶性蛋白质结构时，好的蛋白质结构应当：

尽量减少 Ramachandran plot 中落在不允许区域的 torsion angles 数量；
尽量增加 hydrogen bonds 的数量；
尽量减少暴露的 hydrophobic residues 数量；
尽量增加暴露的 polar 或 charged residues 数量；
尽量减少 interstitial cavities 或 packing defects 的数量；
尽量减少 2.6 Å 范围内的 non-bonded atoms 数量；
尽量降低 hydrogen bond energies 的 standard deviation；
尽量降低 helices 中 dihedral angles 的 standard deviation；
具有较低的 R factor（X-ray structures 中 <0.20），或较低的 backbone RMSD 值（NMR structure ensembles 中 <0.8 Å）。

其中一些特征似乎也代表了蛋白质折叠的基本规则。因此，它们会在大多数蛋白质的结构特征中反复出现，并不令人意外。值得注意的是，这些特征中的许多也可以直接从蛋白质坐标数据中定量化或测量。基于这些观察结果，人们开发出了一批优秀的软件程序，用于自动评估蛋白质结构和蛋白质模型，包括 Dictionary of Secondary Structure for Proteins（DSSP；Kabsch and Sander 1983）、PROCHECK（Laskowski et al. 1993）、Volume, Area, Dihedral Angle Reporter（VADAR；Willard et al. 2003）以及 MolProbity（Davis et al. 2007）。

DSSP 是一个 open source 程序，用 C++ 编写，设计目标是生成以序列为中心的、紧凑的局部蛋白质结构特征摘要（Kabsch and Sander 1983）。它也可作为 web server 使用。DSSP 使用一种非常严格的方法来识别 hydrogen bonds 和 hydrogen bonding patterns，而这些信息随后被用于识别并标注七种不同类型的 secondary structures：alpha helices（H）、3/10 helices（G）、pi helices（I）、beta bridges（B）、extended beta strands（E）、hydrogen-bonded turns（T）和 bends（S）。DSSP 对 secondary structure 的定义已经成为 PDB 中 secondary structure annotation 的事实标准，也是多数 secondary structure prediction 方法所使用的参考集。

除了执行自动化 secondary structure identification 和 assignment 之外，DSSP 还使用 ANAREA algorithm 测定各个残基的 ASA。结果以简单的数字尺度（0–9）表示，其中 0 对应完全埋藏，9 表示完全暴露。

PROCHECK 可能是第一个定量的蛋白质结构评估程序，并且至今仍是最好的程序之一（Laskowski et al. 1993）。PROCHECK 是一个可下载程序，它接受 PDB-formatted X-ray coordinate files 作为输入，并使用 DSSP 识别 secondary structure 和计算 ASA。它还计算 torsion angles（backbone 和 side chain）、bond angles、interatomic distances 以及其他相关结构性质。通过将这些数值与极高分辨率或高质量结构中观察到的数值进行比较，PROCHECK 能够对任意查询结构的质量或等效分辨率作出估计。

PROCHECK 最吸引人的特征之一，是它能够自动生成彩色图形报告（包括 Ramachandran plots、secondary structure markups 和 scatter plots），同时还生成表格、解释和参考文献（Figure 12.14）。检查这些图形或表格，使用户能够快速识别问题区域，或聚焦于可疑和异常的结构特征。

VADAR 是一个蛋白质结构评估 web server，它使用 PDB coordinates 或 PDB ID codes 作为输入，对 NMR 和 X-ray 结构进行评估（Willard et al. 2003）。与前面提到的其他程序一样，VADAR 测量 dihedral angles，识别 hydrogen bonds，并测量 interatomic distances，以帮助评估蛋白质结构。然而，与其他程序不同的是，VADAR 采用更全面的方法识别 secondary structures：它使用三种方法生成 consensus secondary structure。它还能够识别并分类 beta turns，识别 side chain hydrogen bonds 或 salt bridges，计算 packing volume（单位为 Å³），测定精确 ASA（单位为 Å²），执行 packing “defect” checks 和 buried charge evaluation，计算 threading 和 surface free energies，确定 residue disposition，并将这些数值中的许多与高质量结构中预期出现的数值进行比较。

VADAR 会针对蛋白质的不同部分（main chain 和 side chain）生成多种表格，同时生成一个 summary table，用于描述并识别蛋白质中发现的可疑特征。Ramachandran plots（标出 outliers）和 structure quality graphs（JPG 或 PNG）也会自动创建。

Figure 12.14

PROCHECK 生成的高质量 postscript 输出数据示例。

图中为 PROCHECK 的 Ramachandran plot 示例，显示 xx_test - Chain A 中非 glycine、非 proline 残基在 phi 与 psi 二面角空间中的分布。统计结果显示：164 个残基（89.1%）位于最有利区域 [A,B,L]，20 个残基（10.9%）位于额外允许区域 [a,b,l,p]，没有残基位于宽松允许区域 [~a,~b,~l,~p] 或不允许区域。非 glycine、非 proline 残基总数为 184 个（100.0%）。

MolProbity 代表了新一代结构评估 web server，它使用 all atom contact analysis 来评估蛋白质结构（Davis et al. 2007）。具体而言，MolProbity 会向所有输入结构中添加氢原子并优化其几何构型（使用一个名为 REDUCE 的程序），随后计算其 H-bond、steric clash 和 van der Waals contacts。这类接触分析非常敏感，因为氢原子不仅是蛋白质中数量最多的原子，而且也形成了最多的原子接触。因此，在氢原子水平检测到的接触偏差，会放大并揭示任何相连的碳、氧和氮原子的问题，包括它们的 bond lengths、placement 和 angles。

与 VADAR 一样，MolProbity 能够处理 NMR 和 X-ray 结构；同样与 VADAR 一样，它还会生成 Ramachandran、amino acid rotamer 和 covalent geometry measures，以帮助进行一般结构评估。MolProbity 是一种非常强大的结构评估工具，其输出现在已经成为 wwPDB Validation Report 的组成部分；该报告会为 PDB 中所有蛋白质结构提供。

108

Protein Structure Comparison

PDF page 409-412；印刷页码 389-392

▶

Ch12 Protein Structure Prediction and Analysis / Protein Structure Comparison

Protein Structure Comparison

与序列比较类似，结构比较处于结构生物信息学的核心位置。正如序列比较能够为理解蛋白质的起源、功能、定位、相互作用和活性提供大量线索一样，结构比较也具有同样的重要作用。事实上，由于结构比序列保守得多，结构比较使我们能够追溯到更久远的地球史前时期，用以探寻许多关键酶和蛋白质的起源与演化。遗憾的是，与序列比较相比，结构比较在计算上困难得多。在序列比较中，可以使用字符串匹配或动态规划方法，较容易且快速地生成比对结果，并识别序列相似区域。而在结构比较中，必须采用完全不同的方案，因为比较或比对的对象不再是简单的二维字符字符串，而是复杂的三维形状。计算机天生非常擅长处理字符串，却并不特别擅长识别或比较三维物体。事实上，在识别或比较差异并不很大的三维物体时，人类的表现仍然优于最快的计算机。

尽管如此，仍有一些工具和技术使我们能够比较几乎相同或相对相似的三维结构。最常用的方法称为结构叠合（structure superposition）。叠合或重叠（superimposition）就是旋转或定向某个物体，直到它能够叠放到另一个相似物体之上的过程。这与人们把拼图最后一块放入正确位置时通常进行的操作非常相似：不断旋转和平移这块拼图，直到它最终吻合。实现三维叠合的最简单途径，是确定至少两组三个共同参考点：一组位于待叠合物体上，另一组位于作为覆盖基准的参考物体上。一旦确定这些点，待叠合物体便可以通过旋转和平移，使两组参考点尽可能匹配，即差异最小。当然，问题在于如何知道哪三个参考点最合适。人类非常擅长做出这种判断，而计算机则不然。对于蛋白质而言，这一问题还会进一步复杂化，因为我们通常希望同时叠合的不只是三个点，而实际上是数百个点，或者说数百个原子。

幸运的是，只要参考点已经确定，并且两个物体中已确定的点数相同，就有一些数学方法可以完成这一叠合过程。这些方法包括 Lagrangian multipliers、quaternion methods 和 matrix diagonalization techniques。本章不展开解释这些方法的细节，但可以说，这些方法都非常快速、数学上稳健，而且其中许多方法已经被编写进易于获得的计算机程序中。相同的技术也可以用于叠合两个以上的结构，这在 NMR 结构集合中经常使用。在这种情况下，通常采用迭代方法：先将最初两个已叠合的结构取平均，生成一个单一结构，然后将其作为模板来叠合第三个结构。随后重复“取平均并加入新结构”的过程，直到所有结构都完成叠合。通常，最相似的两个结构会首先被叠合，而最不相似的结构最后叠合，这与渐进式多序列比对中的做法非常类似。

许多结构可视化程序，如 PyMOL、Jmol（Herráez 2006）和 DeepView（Kaplan and Littlejohn 2001），都特别适合执行和可视化分子叠合。此外，也有大量 web servers 可以对成对蛋白质结构进行分子叠合。较常用的服务器包括 SuperPose（Maiti et al. 2004）、FATCAT（Ye and Godzik 2004）、CE（Shindyalov and Bourne 2001）和 TM-align（Zhang and Skolnick 2005）。几乎所有这些服务器都允许用户上传一对 PDB IDs 或一对 PDB files，然后只需点击 submit 按钮即可生成坐标数据。一些服务器，如 SuperPose，还允许用户叠合两个以上的结构。某些服务器（SuperPose、CE 和 TM-align）执行刚性叠合（rigid superposition），而另一些服务器（如 FATCAT）则执行更灵活的叠合（flexible superposition）。这些 web servers 的输出包括简单的 PDB coordinate lists，可由多种可视化工具查看；叠合结果的图像文件；以及关于比对、等价残基数量、RMSDs 或比对分数的信息。

建立用于定量比较蛋白质结构的方法和标准，即结构叠合，促进了一系列包含常见蛋白质折叠类型的数据库的建立。这相当于将序列家族归类到一起以识别共有序列基序，类似于 Pfam、PROSITE 和 InterPro 数据库所做的工作（见第 7 章）。在结构层面上，与之对应的数据库是 CATH（Pearl et al. 2000）和 Structural Classification of Proteins（SCOP）（Murzin et al. 1995）。利用这类数据库，可以发现远缘相关蛋白之间出人意料或尚未被发现的关系，也可以找到结构趋同演化的有趣实例。

CATH 是 Class、Architecture、Topology、Homology 的缩写，是一个根据蛋白质二级结构组成、折叠方式和序列相似性将蛋白质归入分类体系的数据库。其结果是一个层级化的结构域分类方案，使蛋白质结构能够被逻辑地分组和比较。CATH 条目来自 PDB 中较高分辨率的蛋白质结构（<3.0 Å）；对于多结构域蛋白质，在分类之前会先将其划分为组成它们的各个结构域。该层级体系的最高层是 Class level，这一级由二级结构组成自动决定。共有三大类：主要为 alpha、主要为 beta，以及 alpha/beta（见上文）。在 Architecture level，蛋白质结构会根据整体结构域形状和二级结构的取向进一步划分。这一步是人工完成的，使用文献中已有的命名约定。层级体系中的第三级是 Topology level，在这一级中，共同的 architecture 可根据其二级结构连接方式和总体形状进一步划分为不同组。在层级体系的最低级，蛋白质根据序列一致性（>35%）和序列匹配长度（>60%）进行分组。CATH 数据库可以通过文本、标识符、蛋白质序列或 PDB 结构进行检索（Figure 12.15）。CATH 还与 Gene3D 数据库相链接，后者包含来自公共数据库的数千万条蛋白质序列中预测得到的 CATH 结构域。

SCOP 数据库是一个类似的层级化数据库，但提供了略有不同的分类划分。与 CATH 类似，SCOP 数据库旨在对 PDB 中几乎所有蛋白质结构之间的结构关系和演化关系进行全面描述。与 CATH 不同的是，SCOP 数据库主要通过视觉比较和人工分组构建。这一过程会借助若干计算工具，但并不由这些工具主导。SCOP 使用六级层级结构：Species、Protein、Family、Superfamily、Folds 和 Class。Species 对应来自特定生物物种的一条独特蛋白质序列；Protein 对应功能基本相同、序列相似的蛋白质，这些蛋白质可以来自不同生物物种，也可以代表同一物种内的不同 isoforms；Family 对应序列相似但功能不同的蛋白质；Superfamily 将具有共同功能和结构特征、并被推断来自共同演化祖先的蛋白质家族联系在一起；Folds 对应具有相同主要二级结构、相同排列方式以及相同拓扑连接方式的蛋白质；Class 对应二级结构组成和组织方式相似的蛋白质。SCOP 有七个“真正”的 classes，此外还有四个用于不符合常规分类蛋白质的特殊 classes，这些类别基于二级结构组成和大小划分。自 2009 年以来，SCOP 数据库一直在发展为一个扩展版本，称为 SCOPe（Chandonia et al. 2017），同时也发展出一个新更新的层级体系，称为 SCOP2。原始 SCOP 数据库和新的 SCOPe 数据库都可以很容易地浏览：用户可以通过超链接沿着层级结构从 Classes 到 Folds，再到 Superfamilies，依次向下查看；也可以通过关键词进行搜索。SCOPe 比 SCOP 更新得多，其中包含大量带有超链接的文档和缩略结构图像，使用户能够方便地导航和探索结构关系与演化关系。

由于像 CATH 和 SCOP 那样人工分类蛋白质结构需要相当多的时间和成本，近年来已有持续趋势转向更自动化、层级性较弱的方法。特别是，已经出现了一些基于 web 的服务，使用户能够将新测定的结构与 PDB 中所有已有结构进行比较。这些结构相似性搜索服务器包括 FATCAT（Ye and Godzik 2004）、Dali（Dietmann et al. 2001）、TopSearch（Wiederstein et al. 2014）和 PDBeFOLD，后者以前称为 SSM（Krissinel and Henrick 2004）。结构相似性搜索服务器能够将用户上传的查询结构与 PDB 中的每一个结构进行成对结构叠合。从这个意义上说，FATCAT、Dali、TopSearch 和 PDBeFOLD 对结构生物学家而言，相当于 BLAST 对序列生物信息学家的作用。然而，与 BLAST 不同，结构匹配的质量并不是用 E-value 来衡量的。相反，这些结构比较算法通常会报告多种“替代性”评估指标，例如 p-values、Z-values、sequence coverage、rankings、raw scores 和 RMSDs。（需要注意的是，最好始终仔细阅读输出说明，因为评分方法并不存在统一共识。）大多数服务器还会报告结构比对区域上的序列一致性百分比。较小的 p- 或 Z-values、较小的 RMSDs、较高的 scores，以及较高的 sequence coverage，都是结构相似性的良好指标。评分方案之所以多样，是因为这些结构相似性搜索服务器执行的是非常复杂的“比对”，其复杂程度远高于 BLAST 生成的比对；这些比对会纳入几乎任意长度的 gaps、chain reversals、几何畸变，以及被比对片段拓扑连接关系的改变。

许多 X-ray crystallographers 和 NMR spectroscopists 使用 FATCAT、Dali、TopSearch 和 PDBeFOLD 来判断他们新测定的结构（尚未存入 PDB）是否代表一种新的 fold，或属于已有 fold。这样的判断对于理解蛋白质的功能和起源可能具有深远意义。如果一个功能未知结构与某个功能已知结构表现出显著的结构相似性，那么通常可以对该未知蛋白质的功能作出判断。与以往一样，那些 RMSD <2 Å、但序列一致性 <15% 的结构尤其有趣且信息量丰富。它们可能是非常古老的同源物实例，也可能是潜在有趣的趋同演化案例。

当然，并非每个人都是结构生物学家，也并非每个人都能获得一个全新蛋白质结构的坐标，因此新结构相似性搜索查询相对少见。更多时候，用户只是希望更好地理解一个已有结构，例如了解其演化关系或潜在功能。在这些情况下，上传一个已有 PDB identifier，而不是上传 PDB coordinate file，并针对预先计算好的结构邻居数据库进行搜索，会容易得多，也快得多。这类预计算邻居搜索由 VAST+（Madej et al. 2014）、FATCAT、Dali、TopSearch 和 PDBeFOLD 支持。它们也可以通过本章前面介绍过的 PDB Structure Similarity 页面使用。

Figure 12.15 CATH 数据库对 Escherichia coli thioredoxin 的描述示例，显示其 class（Alpha Beta）、architecture（3-Layer (𝛼𝛽𝛼) Sandwich）、topology（Glutaredoxin），以及与其他相关结构的 homology（Glutaredoxin）。

109

Summary + Internet Resources + Further Reading + References

PDF page 412-418；印刷页码 392-398

▶

Ch12 Protein Structure Prediction and Analysis / Summary + Internet Resources + Further Reading + References

小结

当今生物信息学中使用的许多概念和思想，例如序列比较、结构/序列可视化、结构预测、电子数据库以及进化分析，都可以追溯到结构生物学，以及开发了许多早期生物信息学工具的结构生物学家。没有结构生物学和结构生物学家的这些重要贡献，生物信息学就不会成为今天的样子。近些年来，局面开始发生转变：结构生物学家如今也开始求助于生物信息学家，以帮助解决模式发现、远缘结构比较以及大规模分布式数据管理等新兴问题。结构生物学家与生物信息学家之间的这种相互给予和吸收，对于维系这两个领域都至关重要；这种专业知识与洞见的交流无疑还将在未来持续相当长一段时间。希望本章已经说明，至少其中一部分互动是如何演变而来的，以及结构生物信息学如何继续成为深入理解生命“引擎”——蛋白质和酶——不可或缺的组成部分。

网络资源

BioMagResBank

www.bmrb.wisc.edu

CASP

predictioncenter.org

CATH/Gene3D

www.cathdb.info

source.rcsb.org/jfatcatserver/ceHome.jsp

CPHModels

www.cbs.dtu.dk/services/CPHmodels

Dali

ekhidna2.biocenter.helsinki.fi/dali/

DeepView

spdbv.vital-it.ch

DSSP

www.cmbi.ru.nl/dssp.html

FATCAT

fatcat.sanfordburnham.org

HHpred

toolkit.tuebingen.mpg.de/#/tools/hhpred

iCn3D

www.ncbi.nlm.nih.gov/Structure/icn3d/full.html

I-TASSER

zhanglab.ccmb.med.umich.edu/I-TASSER/

Jmol

jmol.sourceforge.net

JSmol

jmol.sourceforge.net

LOMETS

zhanglab.ccmb.med.umich.edu/LOMETS

LOOPP

cbsu.tc.cornell.edu/software/loopp

MMDB

www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

MODELLER

salilab.org/modeller

ModWeb

modbase.compbio.ucsf.edu/modweb

MolProbity

molprobity.biochem.duke.edu

MUSTER

zhanglab.ccmb.med.umich.edu/MUSTER

NGL Viewer

proteinformatics.charite.de/ngl/html/ngl.html

PANAV

panav.wishartlab.com

PDBe

www.ebi.ac.uk/pdbe

PDBeFOLD

www.ebi.ac.uk/msd-srv/ssm

PDBj

pdbj.org

Phyre2

www.sbg.bio.ic.ac.uk/~phyre2/html/page.cgi?id=index

Proteopedia

proteopedia.org/wiki/index.php/Main_Page

PROTEUS2

www.proteus2.ca/proteus2

PyMOL

www.pymol.org

RaptorX

raptorx.uchicago.edu

RasMol

www.openrasmol.org

RCSB-PDB

www.rcsb.org/pdb/home/home.do

Robetta

robetta.bakerlab.org

Rosetta@home

boinc.bakerlab.org

RosettaCommons

www.rosettacommons.org

RosettaDesign

rosettadesign.med.unc.edu

ROSIE

rosie.rosettacommons.org

SCOP

scop.mrc-lmb.cam.ac.uk/scop

SCOPe

scop.berkeley.edu

SHIFTX2

www.shiftx2.ca

STING Millennium

sms.cbi.cnptia.embrapa.br/SMS/STINGm

SuperPose

wishart.biology.ualberta.ca/SuperPose

SWISS-MODEL

swissmodel.expasy.org

TargetDB

sbkb.org

TM-align

cssb.biology.gatech.edu/skolnick/webservice/TM-align/index.shtml

TopMatch

topmatch.services.came.sbg.ac.at

TopSearch

topsearch.services.came.sbg.ac.at

VADAR

vadar.wishartlab.com

VAST+

www.ncbi.nlm.nih.gov/Structure/vastplus/vastplus.cgi

WebMol

bioinformatics.mpimp-golm.mpg.de/group-members/mpi-mp-group/dirk-walther/webmol-1

WHAT_CHECK

swift.cmbi.umcn.nl/gv/whatcheck/

延伸阅读

Branden, C. and Tooze, J. (1999). Introduction to Protein Structure, 2e. New York, NY: Garland Science Publishing. 这是一本出色且易读的参考书，覆盖内容优秀，并配有精美的彩色图示。本书很好地涵盖了该领域；尽管它出版于将近 20 年前，几乎每一位从事结构生物学实践工作的研究者都会拥有第一版或第二版中的某一版。

Kelley, L.A. and Sternberg, M.J.E. (2009). Protein structure prediction on the web: a case study using the Phyre server. Nat. Protoc. 4: 363–371. 这篇文章非常详细且实用地介绍了如何使用 Phyre 结构预测服务器，以及该服务器的工作原理。文章还提供了关于蛋白质结构预测的优秀背景材料，并对结构预测的优势与局限给出了很好的、平衡的评估。

Lesk, A.M. (2000). Introduction to Protein Architecture: The Structural Biology of Proteins. Oxford, UK: Oxford University Press. 这是 Lesk 博士的又一本优秀著作。全书图示精美，并且对各种背景的读者都很友好。书中还提供了许多有趣的问题和基于网络的练习。

Rhodes, G. (2006). Crystallography Made Crystal Clear: A Guide for Users of Macromolecular Models, 3e. Cambridge, MA: Academic Press. 对于非晶体学研究者而言，这是一本介绍蛋白质 X 射线晶体学的优秀入门书。它以清晰、易懂的方式解释了许多复杂概念。同时，本书还包含一组非常易读的章节，涉及 NMR 结构分析、同源模型的使用以及蛋白质结构可视化。

参考文献

Bai, X.C., McMullan, G., and Scheres, S.H. (2015). How cryo-EM is revolutionizing structural biology. Trends Biochem. Sci. 40: 49–57.

Bates, P.A., Kelley, L.A., MacCallum, R.M., and Sternberg, M.J. (2001). Enhancement of protein modeling by human intervention in applying the automatic programs 3D-JIGSAW and 3D-PSSM. Proteins (Suppl 5): 39–46.

Bernstein, F.C., Koetzle, T.F., Williams, G.J.B. et al. (1977). The Protein Data Bank. J. Mol. Biol. 112: 535–542.

Bonneau, R., Tsai, J., Ruczinski, I. et al. (2001). Rosetta in CASP4: progress in ab initio protein structure prediction. Proteins (Suppl 5): 119–126.

Borrell, B. (2009). Fraud rocks protein community. Nature 462: 970.

Bowie, J.U., Luthy, R., and Eisenberg, D. (1991). A method to identify protein sequences that fold into a known 3-dimensional structure. Science 253: 164–170.

Bryant, S.H. and Lawrence, C.E. (1993). An empirical energy function for threading a protein sequence through a folding motif. Proteins 16 (1): 92–112.

Brylinski, M. and Lingam, D. (2012). eThread: a highly optimized machine learning-based approach to meta-threading and the modeling of protein tertiary structures. PLoS One 7: e50200.

Cavanagh, J., Faribrother, W.J., Palmer, A.G. III, et al. (2006). Protein NMR Spectroscopy: Principles and Practice, 2e. Cambridge, MA: Academic Press.

Chandonia, J.M., Fox, N.K., and Brenner, S.E. (2017). SCOPe: manual curation and artifact removal in the structural classification of proteins – extended database. J. Mol. Biol. 429: 348–355.

Chou, P.Y. and Fasman, G.D. (1974). Prediction of protein conformation. Biochemistry 13: 222–245.

Corey, R.B. and Pauling, L. (1953). Molecular models of amino acids, peptides, and proteins. Rev. Sci. Instrum. 24: 621–627.

Davis, I.W., Leaver-Fay, A., Chen, V.B. et al. (2007). MolProbity: all-atom contacts and structure validation for proteins and nucleic acids. Nucleic Acids Res. 35 (Web Server issue): W375–W383.

Dietmann, S., Park, J., Notredame, C. et al. (2001). A fully automatic evolutionary classification of protein folds: Dali domain dictionary version 3. Nucleic Acids Res. 29: 55–57.

Doreleijers, J.F., Sousa da Silva, A.W., Krieger, E. et al. (2012). CING: an integrated residue-based structure validation program suite. J. Biomol. NMR 54: 267–283.

Drenth, J. (2006). Principles of Protein X-Ray Crystallography, 3e. New York, NY: Springer.

Gibson, K.D. and Scheraga, H.A. (1967). Minimization of polypeptide energy I. Preliminary structures of bovine pancreatic ribonuclease s-peptide. Proc. Natl. Acad. Sci. U.S.A. 58: 420–427.

Hagen, J.B. (2000). The origins of bioinformatics. Nat. Rev. Genet. 1: 231–236.

Hall, S.R., Allen, A.H., and Brown, I.D. (1991). The crystallographic information file (CIF): a new standard archive file for crystallography. Acta Crystallogr. Sec. A: Found. Crystallogr. 47: 655–685.

Han, B., Liu, Y., Ginzinger, S.W., and Wishart, D.S. (2011). SHIFTX2: significantly improved protein chemical shift prediction. J. Biomol. NMR 50: 43–57.

Hanson, R.M., Prilusky, J., Renjian, Z. et al. (2013). JSmol and the next-generation web-based representation of 3D molecular structure as applied to Proteopedia. Isr. J. Chem. 53: 207–216.

Herráez, A. (2006). Biomolecules in the computer: Jmol to the rescue. Biochem. Mol. Biol. Educ. 34: 255–261.

Higa, R.H., Togawa, R.C., Montagner, A.J. et al. (2004). STING Millennium suite: integrated software for extensive analyses of 3d structures of proteins and their complexes. BMC Bioinf. 5: 107.

Hodis, E., Prilusky, J., Martz, E. et al. (2008). Proteopedia – a scientific “wiki” bridging the rift between three-dimensional structure and function of biomacromolecules. Genome Biol. 9: R121.

Hooft, R.W., Vriend, G., Sander, C., and Abola, E.E. (1996). Errors in protein structures. Nature 381: 272.

Kabsch, W. and Sander, C. (1983). Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers 22: 2577–2637.

Källberg, M., Margaryan, G., Wang, S. et al. (2014). RaptorX server: a resource for template-based protein structure modeling. Methods Mol. Biol. 1137: 17–27.

Kaplan, W. and Littlejohn, T.G. (2001). Swiss-PDB viewer (Deep View). Briefings Bioinf. 2: 195–197.

Kelley, L.A., Mezulis, S., Yates, C.M. et al. (2015). The Phyre2 web portal for protein modeling, prediction and analysis. Nat. Protoc. 10: 845–858.

Kendrew, J.C., Bodo, G., Dintzis, H.M. et al. (1958). A three dimensional model of the myoglobin molecule obtained by x-ray analysis. Nature 181: 662–666.

Kim, D.E., Chivian, D., and Baker, D. (2004). Protein structure prediction and analysis using the Robetta server. Nucleic Acids Res. 32 (Web Server issue): W526–W531.

Klepeis, J.L., Lindorff-Larsen, K., Dror, R.O., and Shaw, D.E. (2009). Long-timescale molecular dynamics simulations of protein structure and function. Curr. Opin. Struct. Biol. 19: 120–127.

Krissinel, E. and Henrick, K. (2004). Secondary-structure matching (SSM), a new tool for fast protein structure alignment in three dimensions. Acta Crystallogr. Sect. D: Biol. Crystallogr. 60: 2256–2268.

Kuntal, B.K., Aparoy, P., and Reddanna, P. (2010). EasyModeller: a graphical interface to MODELLER. BMC Res. Notes 3: 226.

Laskowski, R.A., MacArthur, M.W., Moss, D.S., and Thornton, J.M. (1993). PROCHECK: a program to check the stereochemical quality of protein structures. J. Appl. Crystallogr. 26: 283–291.

Levitt, M. (2007). Growth of novel protein structural data. Proc. Natl. Acad. Sci. U.S.A. 104: 3183–3188.

Levitt, M. and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261: 552–558.

Lindorff-Larsen, K., Piana, S., Dror, R.O., and Shaw, D.E. (2011). How fast-folding proteins fold. Science 334: 517–520.

Liu, Y. and Kuhlman, B. (2006). RosettaDesign server for protein design. Nucleic Acids Res. 34 (Web Server issue): W235–W238.

Lüthy, R., Bowie, J.U., and Eisenberg, D. (1992). Assessment of protein models with three-dimensional profiles. Nature 356: 83–85.

Lyskov, S., Chou, F.C., Conchúir, S.Ó. et al. (2013). Serverification of molecular modeling applications: the Rosetta online server that includes everyone (ROSIE). PLoS One 8: e63906.

Madej, T., Boguski, M.S., and Bryant, S.H. (1995). Threading analysis suggests that the obese gene product may be a helical cytokine. FEBS Lett. 373: 13–18.

Madej, T., Lanczycki, C.J., Zhang, D. et al. (2014). MMDB and VAST+: tracking structural similarities between macromolecular complexes. Nucleic Acids Res. 42 (Database issue): D297–D303.

Maiti, R., Van Domselaar, G.H., Zhang, H., and Wishart, D.S. (2004). SuperPose: a simple server for sophisticated structural superposition. Nucleic Acids Res. 32 (Web Server issue): W590–W594.

Marks, D.S., Colwell, L.J., Sheridan, R. et al. (2011). Protein 3D structure computed from evolutionary sequence variation. PLoS One 6 (12): e28766.

Marti-Renom, M.A., Stuart, A.C., Fiser, A. et al. (2000). Comparative protein structure modeling of genes and genomes. Annu. Rev. Biophys. Biomol. Struct. 29: 291–325.

Martz, E. (2002). Protein explorer: easy yet powerful macromolecular visualization. Trends Biochem. Sci. 27: 107–109.

McCree, D.E. (1999). Practical Protein Crystallography, 2e. Cambridge, MA: Academic Press.

Murzin, A.G., Brenner, S.E., Hubbard, T., and Chothia, C. (1995). SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247: 536–540.

NCBI Resource Coordinators (2017). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 45 (D1): D12–D17.

Nielsen, M., Lundegaard, C., Lund, O., and Petersen, T.N. (2010). CPHmodels-3.0 – remote homology modeling using structure-guided sequence profiles. Nucleic Acids Res. 38 (Web Server issue): W576–W581.

Pearl, F.M.G., Lee, D., Bray, J.E. et al. (2000). Assigning genomic sequences to CATH. Nucleic Acids Res. 28: 277–282.

Pieper, U., Webb, B.M., Dong, G.Q. et al. (2014). ModBase, a database of annotated comparative protein structure models and associated resources. Nucleic Acids Res. 42 (Database issue): D336–D346.

Prlic, A., Bliven, S., Rose, P.W. et al. (2010). Pre-calculated protein structure alignments at the RCSB PDB website. Bioinformatics 26: 2983–2985.

Ramachandran, G.N., Ramakrishnan, C., and Sasisekharan, V. (1963). Stereochemistry of polypeptide chain configurations. J. Mol. Biol. 7: 95–99.

Read, R.J., Adams, P.D., Arendall, W.B. 3rd, et al. (2011). A new generation of crystallographic validation tools for the protein data bank. Structure 19: 1395–1412.

Richards, F.M. (1977). Areas, volumes, packing and protein structure. Annu. Rev. Biophys. Bioeng. 6: 151–176.

Richardson, J.S. (1981). The anatomy and taxonomy of protein structure. Adv. Protein Chem. 34: 167–339.

Rose, A.S. and Hildebrand, P.W. (2015). NGL viewer: a web application for molecular visualization. Nucleic Acids Res. 43 (Web Server issue): W576–W579.

Sali, A. (1998). 100,000 protein structures for the biologist. Nat. Struct. Biol. 5: 1029–1032.

Sayle, R.A. and Milner-White, E.J. (1995). RASMOL: biomolecular graphics for all. Trends Biochem. Sci. 20: 374–376.

Schaeffer, R.D. and Daggett, V. (2011). Protein folds and protein folding. Protein Eng. Des. Sel. 24: 11–19.

Schwede, T., Kopp, J., Guex, N., and Peitsch, M.C. (2003). SWISS-MODEL: an automated protein homology-modeling server. Nucleic Acids Res. 31: 3381–3385.

Sheffler, W. and Baker, D. (2010). RosettaHoles2: a volumetric packing measure for protein structure refinement and validation. Protein Sci. 19: 1991–1995.

Shindyalov, I.N. and Bourne, P.E. (2001). A database and tools for 3-D protein structure comparison and alignment using the combinatorial extension (CE) algorithm. Nucleic Acids Res. 29: 228–229.

Sippl, M.J. and Wiederstein, M. (2008). A note on difficult structure alignment problems. Bioinformatics 24: 426–427.

Söding, J., Biegert, A., and Lupas, A.N. (2005). The HHpred interactive server for protein homology detection and structure prediction. Nucleic Acids Res. 33 (Web Server issue): W244–W248.

Vaguine, A.A., Richelle, J., and Wodak, S.J. (1999). SFCHECK: a unified set of procedures for evaluating the quality of macromolecular structure-factor data and their agreement with the atomic model. Acta Crystallogr. Sect. D: Biol. Crystallogr. 55: 191–205.

Vallat, B.K., Pillardy, J., Májek, P. et al. (2009). Building and assessing atomic models of proteins from structural templates: learning and benchmarks. Proteins 76: 930–945.

Varadi, M., Kosol, S., Lebrun, P. et al. (2014). pE-DB: a database of structural ensembles of intrinsically disordered and of unfolded proteins. Nucleic Acids Res. 42 (Database issue): D326–D335.

Walther, D. (1997). WebMol – a Java based PDB viewer. Trends Biochem. Sci. 22: 274–275.

Wang, B., Wang, Y., and Wishart, D.S. (2010). A probabilistic approach for validating protein NMR chemical shift assignments. J. Biomol. NMR 47: 85–99.

Westbrook, J.D., Feng, Z., Chen, L. et al. (2003). The Protein Data Bank and structural genomics. Nucleic Acids Res. 31: 489–491.

Westbrook, J.D., Ito, N., Nakamura, H. et al. (2005). PDBML: the representation of archival macromolecular structure data in XML. Bioinformatics 21: 988–992.

Wiederstein, M., Gruber, M., Frank, K. et al. (2014). Structure-based characterization of multiprotein complexes. Structure 22: 1063–1070.

Willard, L., Ranjan, A., Zhang, H. et al. (2003). VADAR: a web server for quantitative evaluation of protein structure quality. Nucleic Acids Res. 31: 3316–3319.

Wu, S. and Zhang, Y. (2007). LOMETS: a local meta-threading-server for protein structure prediction. Nucleic Acids Res. 35: 3375–3382.

Wu, S. and Zhang, Y. (2008). MUSTER: improving protein sequence profile-profile alignments by using multiple sources of structure information. Proteins 72: 547–556.

Yang, J. and Zhang, Y. (2015). I-TASSER server: new development for protein structure and function predictions. Nucleic Acids Res. 43 (Web Server issue): W174–W181.

Ye, Y. and Godzik, A. (2004). FATCAT: a web server for flexible structure comparison and structure similarity searching. Nucleic Acids Res. 32 (Web Server issue): W582–W585.

Young, J.Y., Westbrook, J.D., Feng, Z. et al. (2017). OneDep: unified wwPDB system for deposition, biocuration, and validation of macromolecular structures in the PDB archive. Structure 25: 536–545.

Zhang, Y. and Skolnick, J. (2005). TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic Acids Res. 33 (7): 2302–2309.

Chapter 13

Biological Networks and Pathways

110

Introduction

PDF page 419-420；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Introduction

┌─ Reasoning ──────────────────────────────────────────────────────────────────┐

The user wants me to translate a section from Bioinformatics 4e (Chapter 13, Introduction)

into Chinese textbook style. Let me translate it carefully, following all the specified

rules.

Let me go through the text systematically and translate it.The user wants me to translate a section from Bioinformatics 4e (Chapter 13, Introduction) into Chinese textbook style. Let me translate it carefully, following all the specified rules.

引言

生物学家面临的一项重大挑战，是通过整合分子与细胞生物学各领域的现有信息，构建准确的细胞模型，并利用该模型生成可检验的假说，从而理解细胞的运作机制。特别是，如今对生物样本中 DNA、RNA 和蛋白质的常规全面测量所产生的数据量呈指数级增长，为发现新的生物功能、基因型–表型关联以及疾病致病的底层机制提供了丰富的机会。令人振奋的是，如利用 RNA-seq 方法测量转录本表达水平（第10章）和通过质谱鉴定蛋白质（第11章）等实验方法，灵敏度不断提高，能够在生物样本中检测数以万计的分子，且成本不断降低。这导致了关于生物系统的海量数据被收集起来。然而，对所有这些数据的分析与解读是许多研究者面临的一大挑战。分析结果往往列出大量基因，若要通过人工文献检索来解读这些基因，工作量可能大到难以实际执行。生物通路与网络分析为应对这一数据整合、建模与解读的挑战提供了一种有效途径。通路与网络分析方法利用关于通路（代表详细的生物过程）以及网络（通常代表分子相互作用网络，如蛋白质–蛋白质或蛋白质–DNA 相互作用网络）的信息，辅助数据解读。

为了说明通路与网络分析能够揭示生物机制中哪些有价值的洞见，来看两个成功案例。通路分析被用于鉴定由 polycomb 抑制复合体（PRC2）介导的组蛋白与 DNA 甲基化，作为室管膜瘤（ependymoma，在儿童脑肿瘤中常见）的首个理性治疗靶点（Mack et al. 2014）。该通路可被现有药物靶向，例如 5-azacytidine，该药以同情用药（compassionate use）方式用于一位终末期患者，并阻止了肿瘤的快速转移性生长。这一有前景的结果促成了两项临床试验的启动。在另一案例中，对自闭症中罕见拷贝数变异（copy number variant）数据的通路分析鉴定出数条受基因删除影响的显著性通路，而仅对单个基因或基因组位点进行病例–对照关联检验时，只发现了少数显著性结果（Pinto et al. 2010）。纳入通路信息提升了分析方法的统计功效（statistical power），并在上述两个疾病领域中揭示了原本隐藏的生物学方面。

简要回顾历史背景：通路信息学（pathway informatics）领域始于1990年代，以代谢通路的计算表示方面的研究为开端（Karp and Riley 1993）。生物网络信息学在2000年代初被引入，其推动因素是首批大规模细胞蛋白质–蛋白质和遗传相互作用图谱的出现（Ito et al. 2000; Schwikowski et al. 2000; Walhout et al. 2000; Tong et al. 2001）。针对大基因列表的通路富集分析（pathway enrichment analysis），如今已成为最流行的通路分析类型，于1990年代末被引入（Tavazoie et al. 1999），并在2000年代中期得到推广。

虽然已相当成熟，通路与网络数据仍在持续增长，该领域也仍在受到大量研究。鉴于该领域不断发展变化的性质，本章覆盖了一系列有用且可免费获取的工具与方法，同时也聚焦于应适用于未来新资源的基础理论。通用理论先行介绍，然后是工具。第一个主题是通路与分子相互作用数据，包括数据的来源及其表示、存储与访问方式。第二个主题是通路与网络可视化与分析，涵盖基本概念以及最流行、最有用的分析方法与工具。所选取的分析方法旨在说明将通路与网络数据与其他数据类型整合后可以回答的有趣生物学问题，但并未深入覆盖该领域的所有方面。因此，在全章相关之处，提供了指向在线描述以及其他通路与网络相关数据库和软件工具列表的指引。

通路与分子相互作用映射：实验与预测

在解释通路与分子相互作用数据的存储与使用方式之前，了解存在哪些类型的数据以及这些数据如何被收集是十分重要的。理想的生物学实验会告诉我们什么？答案不亚于一切：哪些分子在细胞中的什么时间、什么位置存在，有多少分子，它们与哪些分子相互作用，以及相互作用的动态变化。理想情况下，人们不仅希望获取细胞周期及其他基于时间的细胞过程中的这些信息，还希望在所有重要的环境条件和所有已知疾病状态下获取这些信息。为帮助阐明细胞系统并确定哪些细胞组分参与其中以及它们如何组合在一起，已发明了广泛的生化、分子生物学和遗传学实验方法。然而，当前的实验方法虽然有用且逐年改进，仅触及细胞或组织内部真实发生的表面。它们通常只覆盖一个层面的信息（例如蛋白质–蛋白质相互作用），且大多数是不完整的（Pouliot and Karp 2007; Braun et al. 2009）。在使用通路与网络信息时，这一点值得牢记。

代谢通路是最早的通路模型，由一系列酶促反应组成。酶促反应已被研究了数个世纪，最初考察的是诸如发酵等过程。实验性地映射代谢（主要由蛋白质酶组成）的基本原理，是鉴定一个酶促过程（例如酵母中葡萄糖转化为乙醇），并逐步纯化细胞提取物以找到参与其中的酶。验证步骤是检验纯化后的酶能否将给定底物转化为产物。这一过程需要蛋白质分离与纯化技术，以及分子鉴定方法，以识别参与反应的酶、辅因子、底物和产物。

该领域的重要进展得益于各种形式的色谱法、凝胶分离技术、核磁共振（NMR）和质谱（见第11章和第14章）。色谱与凝胶分离的基本原理是，分子混合物可根据各组分的理化性质（如大小或电荷）进行拆分。NMR 与质谱可分别基于原子距离测量和质量，直接鉴定小分子和蛋白质。酶学家进一步表征酶的反应速率（动力学）以及催化中涉及的详细酶促机制（Voet and Voet 2004）。

与代谢通路不同，信号转导通路涉及更高比例的直接蛋白质–蛋白质关系，如一个蛋白质被另一个蛋白质磷酸化（由蛋白激酶催化），可通过蛋白质–蛋白质相互作用检测方法来映射。其他分子类型，如脂质和小分子，也参与信号转导，因此蛋白质相互作用本身只能反映部分情况。许多用于测定蛋白质–蛋白质

111

Pathway and Molecular Interaction Mapping: Experiments and Predictions

PDF page 420-422；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Pathway and Molecular Interaction Mapping: Experiments and Predictions

Pathway and Molecular Interaction Mapping: Experiments and Predictions

在过去几十年中，人们开发了多种实验方法来鉴定通路与分子相互作用。其中一类广泛使用的实验基于共纯化（co-purification），其原理即前述方法。强相互作用的蛋白会以复合物的形式被纯化出来，随后可用更剧烈的纯化条件将该复合物进一步拆解，最终分离并鉴定复合物的各组分。值得注意的是，这意味着蛋白质复合物的定义取决于所使用的纯化条件，而纯化条件衡量的是蛋白质–蛋白质相互作用强度的连续谱。现代生化共纯化的一个实例是利用亲和层析（affinity chromatography）从细胞提取物中纯化蛋白质复合物，然后用质谱（mass spectrometry）鉴定所得复合物的组分（见 Chapter 11）。

酵母双杂交（Yeast two-hybrid）方法常用于确定两种蛋白质是否能够相互作用。将转录因子的激活结构域和 DNA 结合结构域分别连接到两个待测蛋白上。如果两个待测蛋白发生相互作用，激活结构域和 DNA 结合结构域也会随之结合，形成有功能的转录因子，从而驱动工程化报告基因的表达。报告基因的存在即表明发生了结合。目前已有大型项目正在利用该技术全面绘制人类细胞和组织中的相互作用图谱（Luck et al. 2017）。

另一种常用方法是分子交联（molecular cross-linking），这是一种实验方法：将一种具有两个反应性末端、长度确定的线性分子加入含有潜在复合物的混合物中，使距离相近的蛋白质发生交联；能够检测到相互作用的距离取决于所用交联剂的长度（Li et al. 2017）。由于蛋白质复合物被共价键连接在一起，而不仅仅是静电结合，后续的纯化和复合物鉴定会更加容易。此外还有许多其他测定蛋白质–蛋白质相互作用的实验方法（Phizicky and Fields 1995）。每种实验各有优缺点，必须采用多种类型的实验来提高结果在体内（in vivo）相关性的可信度。

由于这类实验通常昂贵且耗时，许多计算方法已被开发用于预测通路和相互作用。这些方法很少能达到详细"湿实验"（wet lab）分析的精度，因此应将其视为需要实验验证的假说。然而，这些方法能够快速进行预测，且通常具有较高的准确率；这在实验不可行的情况下尤为有用，例如在难以进行实验研究的生物体中。

代谢通路（metabolic pathways）可以通过直系同源（orthology）关系将一个生物体中已知通路的蛋白质（酶）映射到另一个生物体来准确预测，并在此基础上应用额外步骤来构建通路。这是可行的，因为代谢通路在物种间通常高度保守，因此可以做出相当准确的预测。预测代谢通路可使用多条规则。例如，关键反应必须存在。属于多个通路的酶不能被毫无歧义地视为某条通路存在的标志。然后通过检查通路的输入和输出质量是否平衡来验证通路。如果通路不平衡或因缺少酶而断开，则可在被注释的基因组中更彻底地搜索这些酶，这一过程称为"漏洞填补"（hole filling）。与基于直系同源的预测方法一样，当所使用的实验已知通路来自与被注释物种亲缘关系较近的物种时，重建结果会更好。BioCyc 数据库家族（见 EcoCyc 一节）所使用的 PathoLogic 算法（Karp et al. 2011）正是利用这一方法，基于某生物体的基因组预测该生物体的完整通路数据库。该预测系统的最终结果是一个质量良好的代谢模型初稿，但仍需人工审校（manual curation）来修正所得通路中的错误，以获得高质量模型。

信号传导和基因调控通路目前无法以这种方式准确预测，因为它们远不如代谢通路保守。

分子相互作用可以使用多种方法进行预测。预测的分子相互作用理想情况下应代表直接的物理结合，但大多数分子相互作用预测方法并不能保证预测出的是直接物理相互作用。例如，预测结果可能包含"功能性相互作用"（functional interactions），即同一通路内蛋白质之间或功能相似基因之间的相互作用。这仍然是有用的，因为通路内或功能相关蛋白质之间发生相互作用的可能性高于随机选取的蛋白质对。

多种模式已被发现与蛋白质–蛋白质相互作用相关联，并可用于预测这些相互作用。具有相似转录谱（transcription profiles）的基因被证明比预期更常发生物理相互作用（Ge et al. 2001; Grigoriev 2001; Jansen et al. 2002），而且蛋白质表达谱（protein expression profiles）的这种效应更强（Kim et al. 2014）。蛋白质相互作用也可以跨物种映射。如果两种蛋白质在某一生物体中的相互作用已知，就有可能成功预测它们的直系同源蛋白在另一生物体中也会结合（Matthews et al. 2001; Tien et al. 2004），不过这种模式对保守蛋白质和蛋白质复合物更为相关（Brown and Jurisica 2007）。

蛋白产物发生物理相互作用的基因有时在染色体上保持彼此相近的物理位置（Tamames et al. 1997; Dandekar et al. 1998; Overbeek et al. 1999）。该现象最典型的例子是细菌和古菌中的操纵子（operons），其蛋白产物在同一生物学过程中发挥作用的基因被转录在同一条多顺反子信使 RNA（polycistronic mRNA）上。基因组演化的两大主要驱动力是基因产生（gene genesis）和基因丢失（gene loss）（Snel et al. 2002）。一对基因在许多不同物种中保持在一起，往往代表了将它们维持在一起的协同演化努力，正如它们可能在同一生物学过程中发挥作用的情况一样。系统发育谱（phylogenetic profiles）展示了基因在来自多个物种的完整基因组中的有无（Ouzounis and Kyrpides 1996; Rivera et al. 1998; Pellegrini et al. 1999），具有非常相似系统发育谱的基因对是物理相互作用的候选者。

基因融合事件（gene fusion event）是指两个独立的父本基因发生物理融合，成为一个单一的多功能基因。这是基因共定位的终极形式：相互作用的基因不仅在基因组中保持相近位置，而是作为单一实体物理连接在一起。有观点认为，这些事件背后的驱动力是降低多个相互作用基因产物的调控负荷（Enright et al. 1999）。因此，基因融合事件提供了一种通过计算来检测蛋白质间功能相互作用和物理相互作用的方法（Enright et al. 1999; Marcotte et al. 1999）。

上述每种计算方法各有优缺点。基因邻近（gene neighborhood）和系统发育谱方法随着所用完全测序基因组数量的增加，预测效果更好。基因融合方法预测效果好但不可推广，因为实际检测到的融合事件数量通常很少。这些基于基因组的方法在原核生物基因组中往往效果更好。基因共表达分析（gene co-expression analysis）的预测能力较弱。所有方法在使用更多数据（如基因组和基因或蛋白质表达谱）时都能提高可靠性。解决这一问题的一种途径是利用机器学习方法整合所有可用预测方法的数据。每种证据来源根据其准确预测已知相互作用的能力被自动加权。该类型的首个蛋白质–蛋白质相互作用预测方法使用贝叶斯网络机器学习来预测芽殖酵母中的蛋白质相互作用（Jansen et al. 2003）。给定所有来源中关于某蛋白质相互作用的可用证据，可以计算出该相互作用的概率值。以这种方式预测的蛋白质相互作用已被证明与高通量实验技术同样可靠，且覆盖更大比例的基因（Kotlyar et al. 2015）。近期方法扩展了这一途径，纳入了更多证据来源，包括能够预测蛋白质–蛋白质相互作用结合位点的来源，至少对某些蛋白质类别如此（Jain and Bader 2016）。

112

Pathway and Molecular Interaction Databases: An Overview

PDF page 422-425；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Pathway and Molecular Interaction Databases: An Overview

通路与分子相互作用数据库：概述

鉴于来自小规模和大规模实验的通路与分子相互作用网络信息在广度和深度上都极为丰富，且这些信息对于理解生物系统的运作方式具有重要价值，因此已经建立了多个数据库来表示和存储这些信息，也就不足为奇了。事实上，在 Pathguide 链接目录（Bader et al. 2006）中列出了超过 700 个通路与分子相互作用相关的数据库资源。这些资源在形式和内容上差异很大，包括功能完备的通路数据库、专注于蛋白质–蛋白质或其他分子相互作用的数据库，以及特定物种或疾病的通路数据库。本节首先介绍通路和相互作用网络在数据库中如何定义和表示的一般理论，然后介绍一些最大的、最常用的和可免费获取的数据库资源。

在计算机中表示生物通路和相互作用网络

细胞是一个由分子构成的大型、复杂且动态的连接网络。由于其复杂性，将细胞组织为亚结构和子系统（如细胞器、通路和复合物）有助于理解其整体结构。虽然细胞器和复合物可以在显微镜下直接观察，但通路无法直接观察，因此重要的是认识到通路是人类构建的模型，是更大的、相互连接的分子相互作用网络的一部分。通路可以被视为一系列分子相互作用和反应（通常形成网络），用于执行某种特定过程。通路通常基于已识别的生化或信息处理现象来定义。例如，一系列代谢反应可以从环境中摄取一个代谢物开始，然后不可逆地将其转化为其他物质。例如，糖酵解通路（glycolysis pathway）分解葡萄糖以产生能量（三磷酸腺苷，adenosine triphosphate）。此外，信号转导通路中一系列步骤的信号传播可以被证明遵循特定通路，例如当一个配体（ligand）结合到细胞表面受体后，信号通过细胞质中的蛋白激酶级联（protein kinase cascade）传播到细胞核，从而激活转录响应。在这些情况下，通路的起点和终点通常通过在刺激或扰动后观察易于检测的表型来定义，例如在用肽类生长激素刺激细胞后观察基因表达。

通路可以分为不同类型，每种主要类型在现有的各种通路数据库中通常有不同的计算表示方式。主要的通路表示类型包括代谢通路、信号转导通路（也称为细胞信号通路）和基因调控通路。代谢通路通常由一系列化学作用及其化学结果来定义，目的是将一种分子物质转化为另一种（例如糖酵解）。信号转导通路通常由结合事件（例如蛋白质–蛋白质相互作用）来定义，有时涉及化学作用（例如磷酸化事件），目的是将信息从细胞内的一个位置传递到另一个位置。表皮生长因子受体通路（epidermal growth factor receptor pathway）是信号转导通路的常见示例，它将信息从外部激活的细胞表面受体传递到细胞核，以响应外部信号而改变基因表达。最后，基因调控网络涉及转录因子或其他调控因子激活或抑制基因（包括其他转录因子）的表达。每种通路类型通常使用特征性的表示风格来描述，其中包括对更复杂生物过程的便捷简写记法。例如，在基因调控通路中，基因调控被抽象为单一关系（例如"NOTCH regulates HES1"），而如果以代谢通路的方式表示，则将是一个大型的多步骤过程。当试图整合来自不同来源、表示方式不同的通路时，这可能导致困难。因此，了解数据库如何表示其所存储的信息对于查询数据库和理解其优势与局限性至关重要。

当分子相互作用是通路的一部分时，它们被表示为蛋白质复合物形成事件。由于高通量实验方法可以映射数千种分子相互作用（其中许多不属于通路），因此为这些相互作用开发了单独的便捷简写表示方式。分子相互作用可以发生在任何分子类型之间。相互作用通常表示为二元（成对）关系，尽管有时相互作用涉及两个以上的参与者。相互作用的类型根据参与者类型自动定义。例如，两种蛋白质之间的相互作用即为蛋白质–蛋白质相互作用（protein–protein interaction）。分子相互作用表示方案包括参与分子的类型和定义，以及用于确定该相互作用的实验细节。这也是通路与相互作用的另一个区别——通路描述的是基于许多实验建立的模型，通常不随通路一起描述实验细节；而分子相互作用通常由单个实验直接确定，这些实验提供了关于相互作用数据质量水平的重要信息。分子相互作用的集合被表示为网络（见 Network Visualization）。相互作用组（interactome）被定义为细胞或生物体中所有相互作用的集合，类似于"基因组"（genome）的概念。

通路与相互作用数据表示的考量

由于表示通路和相互作用的方式有很多，回顾一些基本的数据表示原则是有益的，以便更好地理解为什么表示这些信息相比于例如生物序列（见第 1 章）如此复杂。表示系统（也称为数据模型或抽象）是一种发明，可用于描述和组织一组信息。同一类型的信息通常可能有多种不同的表示方案，两个独立承担发明抽象任务的人很容易创建不同的系统，尤其是对于复杂且部分未定义的生物信息（如通路）。必须就单一表示方案达成一致后才能用于数据交流，尽管这样的决定需要权衡多种利弊。理想的表示系统能够紧凑且高效地描述对系统用户有用的确切信息，促进具有相同广泛共同知识的人员（例如特定子领域的科学家，他们都能理解该领域的术语和概念）之间的交流。之所以能够实现紧凑性，是因为共同知识可以被视为理所当然的，因此不必在每次交流信息时都明确表示。这种紧凑性可以极大地减少交流时间和精力，使其非常有用。然而，使用紧凑表示在不共享相同共同知识的人群之间进行交流效果并不理想。这些人除非将共同知识明确表示出来，否则将难以相互理解。这种情况在科学界不同子领域的人员交流时经常发生。类似地，未编程大量定义共同知识规则的计算机程序通常无法正确"理解"非常紧凑的表示，需要额外编码信息和逻辑才能执行诸如查询或可视化紧凑数据等操作。

一个相关的权衡是表示的简单性与复杂性之间的取舍。捕获数据基本属性的简单模型的优势在于易于创建、理解和使用，但它无法表示关于系统的所有可能已知的细节。复杂模型可能能够表示所有已知信息，但在某些情况下可能过于笨重而无法实用。生物系统中许多可能有用的表示方面会显著增加表示方案的复杂性，例如详细程度、上下文以及追踪原始信息来源（其来源信息，provenance，下文将进一步讨论）。以下分别讨论每一个方面。

在数据建模中增加详细程度对于在不同知识或理解水平上表示数据是有用的。当相关细节已知时，详细的数据模型应该能够表示它们。在包含多个详细程度的模型中，可以选择在低、中或高详细程度表示相同的信息。根据目标不同，可能需要更多或更少的细节。例如，我们可能知道一个蛋白质磷酸化事件是由酪氨酸激酶在特定氨基酸位置催化的。或者，研究蛋白质相互作用网络全局性质的人可能只对一种蛋白质与另一种蛋白质相互作用这一事实感兴趣，而认为翻译后修饰的信息是干扰性的。增加生物知识的复杂性……

113

Pathway Databases

PDF page 425-427；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Pathway Databases

The user wants me to translate a section from Bioinformatics 4e textbook into Chinese

textbook style. Let me carefully translate this passage following the specified rules.

Let me go through the text systematically and translate it.The user wants me to translate a section from Bioinformatics 4e textbook into Chinese textbook style. Let me carefully translate this passage following the specified rules.

通路数据库

在细胞图谱的表示中，细节的层次可以在时间和空间的极大跨度（尺度）范围内加以考虑，这意味着组织层级中的每一层可能都需要自己的抽象体系。以空间尺度为例，细胞的分子部件已有广泛建立的表示体系，例如蛋白质序列的 20 字母氨基酸编码，以及三维蛋白质结构中的原子、键长（以埃为单位，10⁻¹⁰ m）和原子连接关系。这两种抽象体系都不能很好地描述细胞的更大亚结构，例如细胞核或完整细胞（以微米为单位，人类神经元甚至可达米的尺度）。类似地，在时间尺度上，生化反应中超快的电子流动，以阿秒（10⁻¹⁸ s）为单位测量，在已知时可以被描述，但任何用于描述电子流动的实用抽象体系，都不适用于描述以分钟到小时为尺度的细胞周期事件。

背景信息十分重要，因为分子相互作用和反应依赖于参与分子在允许条件下的存在，例如在同一细胞的同一时间、同一位置出现。同一组参与分子在不同细胞、不同发育阶段或不同生物体中，反应可能发生也可能不发生。类似地，捕获所表示的通路知识的实验证据，以及定义通路所用的信息来源，也是有意义的。这种知识追踪信息称为溯源（provenance），简单来说就是来源与真实性的证明。描述背景、证据和溯源会增加表示模型的复杂性。

Reactome

Reactome 是一个经人工审校的人类通路数据库（Fabregat et al. 2018）。Reactome 采用生化范式来表示通路，将通路建模为不同类型事件的集合。Reactome 是最大的人类通路数据库之一，涵盖信号传导、代谢、基因调控和疾病通路；它还包含了超过半数人类蛋白质组的通路信息。每条通路都有手工绘制的图形展示可供浏览（Figure 13.1）。数据可下载为多种格式，各种通路分析和查询系统均可免费使用。

EcoCyc

EcoCyc 是一个基于文献推导并经人工审校的大肠杆菌（Escherichia coli，菌株 K12）代谢百科全书（Keseler et al. 2017）。它是所有物种特异性代谢通路数据库中覆盖最全面的（Figure 13.2）。MetaCyc（Caspi et al. 2018）是另一个基于文献推导、经人工审校的数据库，覆盖广泛的生物类群；它包含数千个物种的通路信息，包括微生物、植物和动物，其中大肠杆菌的覆盖最为丰富。BioCyc 是一个通路数据库集合，包含 EcoCyc 和 MetaCyc，以及利用 PathoLogic 算法（Karp et al. 2011）对数千个已测序基因组生物（包括人类）做出的额外代谢通路预测，如"通路与分子相互作用映射：实验与预测"一节所述。EcoCyc 和 MetaCyc 可免费获取，而 BioCyc 中其余数据库的访问需要订阅，有时可通过大学图书馆获得。Pathway Tools 软件可供学术用户免费下载，可用于为新测序基因组创建代谢通路数据库。一些数据库已使用 Pathway Tools 来审校其自身物种特异性的通路数据库（Evsikov et al. 2009）。

Figure 13.1 Reactome 数据库通路视图。中央视图展示通路参与者，如蛋白质、基因和复合物，各以方框表示。它们参与的反应以各种类型的连接线表示。底部面板展示主视图中被选中参与者的信息，可通过点击选择。被选中的参与者以黄色高亮，反应以棕色高亮。主窗口中某些参与者方框上的红色圆圈中的数字表示涉及这些参与者的物理相互作用已可用但未显示。点击红色圆圈可切换这些相互作用的显示与隐藏。左侧面板展示 Reactome 中所有通路的层级组织视图。

KEGG

京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes, KEGG）通路数据库包含经人工审校的代谢、信号传导和疾病通路（Kanehisa et al. 2002）。酶促反应、酶、小分子和基因的信息也可获取。通路以可搜索和可点击的图像形式提供，称为图谱（maps），这是 KEGG 最为人所知的特点（Figure 13.3a）。通路图谱可描绘代谢、调控通路和大型复合物（如核糖体）、疾病相关基因集以及其他基因集合。每种类型的图谱有自己的图形表示风格。大多数代谢通路图谱是参考图谱（reference maps），描绘的是通用通路（generalized pathways）。通用通路并非物种特异性，因此可能永远不会在单一物种中完整出现。物种特异性图谱通过将参考通路以直系同源（orthology）关系映射到给定物种而自动生成（Figure 13.3b）。

KEGG 通路图谱链接到多种底层 KEGG 数据库，包括用于酶、反应和化合物的 LIGAND 数据库，以及基因组信息。通路可通过 KEGG 网站进行搜索和浏览。各相互链接的 KEGG 数据库可通过万维网免费访问，但下载需要许可证。

114

Molecular Interaction Databases

PDF page 427-430；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Molecular Interaction Databases

The user wants me to translate a section from Bioinformatics 4e textbook into Chinese textbook

style. Let me carefully translate the text, following all the specified requirements

Let me go through the text section by section and translate it accurately.

The section covers:

Molecular Interaction Databases (chapter header)
Figure 13.2 caption about EcoCyc
BioGRID subsection
IntAct subsection
Figure 13.3 (a), (b), (c) captions about KEGG and BioCyc pathway reconstruction

Let me translate carefully, keeping English terms, software names, database names,

URLs, and literature citations in English, while translating the explanatory text

into professional Chinese textbook style.The user wants me to translate a section from Bioinformatics 4e textbook into Chinese textbook style. Let me carefully translate the text, following all the specified requirements.

Let me go through the text section by section and translate it accurately.

The section covers:

Molecular Interaction Databases (chapter header)
Figure 13.2 caption about EcoCyc
BioGRID subsection
IntAct subsection
Figure 13.3 (a), (b), (c) captions about KEGG and BioCyc pathway reconstruction

Let me translate carefully, keeping English terms, software names, database names, URLs, and literature citations in English, while translating the explanatory text into professional Chinese textbook style.

分子相互作用数据库

---

Figure 13.2 EcoCyc 数据库的大肠杆菌（Escherichia coli）代谢细胞总览图。中央视图展示了总览图的放大局部。节点代表代谢物分子，连线代表反应。选中分子或反应后会以红色高亮显示，并弹出包含进一步描述的信息框。顶部和右侧工具栏与菜单提供指向 EcoCyc 及相关数据库（如 BioCyc）中多种功能的链接。

---

BioGRID

Biological General Repository for Interaction Datasets，即 BioGRID，收录了人工审编的蛋白质-蛋白质相互作用、遗传相互作用以及多种物种的化学关联（Chatr-Aryamontri et al. 2017）。BioGRID 以基因为中心组织数据，即网站围绕单个基因呈现相互作用信息（Figure 13.4）。用户可搜索感兴趣的基因；对每个基因，物理相互作用（即蛋白质-蛋白质相互作用）、遗传相互作用（如合成致死，synthetic lethal）和化学相互作用（如抑制，inhibition）以表格形式呈现，并附带每项相互作用的实验证据。蛋白质翻译后修饰位点及基本基因描述信息亦可获取。数据以 Proteomics Standards Initiative–Molecular Interactions（PSI-MI）XML 和制表符分隔文本格式免费提供（见"通路与分子相互作用的标准数据格式"一节）。

---

IntAct

IntAct 由欧洲生物信息学研究所（European Bioinformatics Institute）维护，是一个蛋白质相互作用数据库，包含人工审编数据和用户提交数据。数据库记录围绕相互作用、实验和文献组织，并提供图形化网络浏览器（Figure 13.5）。IntAct 数据模型与大多数其他蛋白质-蛋白质相互作用数据库的一个区别在于：相互作用可以包含两个以上的参与者。使用集合存储相互作用的优势在于，它们可以表示源自蛋白质组学的蛋白质复合物数据——在纯化实验中共纯化的一组蛋白质已知，但这些实体之间的直接物理相互作用可能未知（Gavin et al. 2002; Ho et al. 2002）。使用集合的劣势在于，包含两个以上参与者的相互作用数据必须映射为成对相互作用才能进行网络可视化与分析。这通常采用"辐条"（spoke）扩展方式实现，即将实验中的诱饵蛋白（bait protein）与纯化实验中鉴定的所有蛋白质相连，即使它们可能并非直接物理相互作用（Bader and Hogue 2002）。IntAct 还维护一个审编的蛋白质复合物数据库（Meldal et al. 2015）。数据以 PSI-MI XML 和制表符分隔文本格式免费提供。

---

Figure 13.3 从京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes, KEGG）和 BioCyc 进行代谢通路重建的示例：人体中缬氨酸降解通路的重建。

(a) KEGG 中的缬氨酸降解参考通路。KEGG 参考通路是所有已知物种缬氨酸降解通路组成部分的超集。

(b) KEGG 在已测序的人类基因组中发现的酶以绿色高亮显示。在 KEGG 中，酶由其酶委员会编号（Enzyme Commission number, EC number）表示（如 2.6.1.42），该编号定义了酶的功能。EC 系统是酶功能的层级分类体系，类似于较新的 Gene Ontology 分子功能受控词汇表。请注意，并非参考通路中的所有酶都以绿色高亮。这是因为 KEGG 未能在人类基因组中找到这些酶。一个典型的例子是 3-羟基异丁酰辅酶 A 水解酶（3-hydroxyisobutyryl coenzyme A hydrolase, EC 3.1.2.4），它理应存在于人类缬氨酸降解通路中，因为参考通路中没有其他酶可以替代其功能。因此，该缺失的酶代表通路中的一个"空洞"（hole）。这并不意味着该酶不存在于人类基因组中。它可能因进化过程中的序列分化或基因预测不准确而难以识别。来自 BioCyc 数据库家族的 HumanCyc 通路重建能够填补该空洞。

(c) HumanCyc 能够填补空洞。注意 EC 3.1.2.4 酶已存在并与 HIBCH 基因关联。在 HumanCyc 中点击该基因可链接到包含该基因的多个序列数据库，以及提供 HIBCH 基因为 EC 3.1.2.4 酶证据的相关文献。HumanCyc 额外的计算与审编工作使得空洞得以填补。

115

Functional Interaction Databases

PDF page 430-434；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Functional Interaction Databases

The user wants me to translate a section from Bioinformatics 4e textbook into Chinese

textbook style. Let me do this carefully and accurately.The user wants me to translate a section from Bioinformatics 4e textbook into Chinese textbook style. Let me do this carefully and accurately.

功能性相互作用数据库

功能性相互作用（functional interaction）将基因联系起来，前提是这些基因预期具有相似的功能，其中"功能"可以以多种方式定义。功能性相互作用数据库从多种来源收集或预测大量（数百万条）此类关联。这些资源可用于通过考察某基因（或一组基因）所相互作用的其他基因的功能，来探索该基因的功能。

---

图 13.4 BioGRID 数据库记录。对人类 MDM2 基因进行 BioGRID 搜索的结果页面截图。页面顶部汇总了 MDM2 的相关信息，包括 BioGRID 为该基因收录的相互作用数量统计（右上角）。提供五种不同视图：interactors（相互作用因子），显示与 MDM2 相互作用的其他基因的表格；interactions（相互作用），展示每条实验相互作用证据；网络视图（本图所示）；化学相互作用因子表格；以及翻译后修饰（post-translational modification）表格。

---

图 13.5 IntAct 数据库中对人类 MDM2 基因的搜索。页面以表格形式显示了所有提及 MDM2 的相互作用摘要，同时提供了在其他相互作用数据库中匹配到的信息。还可以查看相互作用因子表格和结果的网络视图。通过点击每行左侧的小放大镜图标，可以获取每个相互作用的详细信息；使用表格顶部的工具栏，可将信息以标准格式下载。

STRING

STRING 资源（Szklarczyk et al. 2015）以图形化、用户友好的方式，为超过 2000 个基因组提供多种功能性及实验性相互作用信息。提供的相互作用类型包括：基因邻域（gene neighborhood）、基因融合（gene fusion）、系统发育谱（phylogenetic profile）、共表达（co-expression）、文献报道（publication article）、基因名称共提及（gene name co-mentions）以及实验确定的蛋白质–蛋白质相互作用（protein–protein interaction）。STRING 支持按基因名称、 accession 编号和目标序列进行搜索。结果以图形方式呈现，并使用 STRING 特有的评分方案进行评分，该评分与已验证的蛋白质–蛋白质相互作用和已知通路相关联。STRING 的一个独特功能是能够详细考察支持某一相互作用的每种独立证据来源。图 13.6 展示了 STRING 结果的截图。所有 STRING 功能性相互作用均可免费下载供本地使用。

---

图 13.6 STRING 主要查询结果页面的示例。图中展示了涉及查询基因（此处为芽殖酵母基因 FAA4）及一组功能相关基因的关系网络，不同颜色的连线表示支持各条关联的预测或实验方法。图中以图形方式提供了图例说明。底部表格汇总了每个相互作用的总体强度评分，以及各证据来源对该评分的贡献。点击最左侧的 Viewers 按钮，可访问每种证据来源的专用图形与文本报告。通过点击 Analysis 按钮，可查看通路（及其他基因集）富集分析结果。网络图下方的 More 和 Less 按钮可增加或减少所显示的相关基因数量。

GeneMANIA

GeneMANIA（Franz et al. 2018）与 STRING 类似，但侧重于九种主要模式生物，且从不同于 STRING 的来源收集数据。GeneMANIA 还使用一种搜索算法，根据查询内容计算每个功能性相互作用网络的相关性，并支持用户上传的自定义网络。给定单个查询基因时，GeneMANIA 根据相互作用关系查找可能具有相似功能的基因。给定一组基因时，GeneMANIA 利用一种机器学习算法查找与该基因集功能相似的基因，该算法类似于热门电影网站根据用户此前观看过的影片来推荐其可能喜欢的电影。例如，如果查询的是一组激酶（kinase），GeneMANIA 将查找相似的激酶，并对蛋白质域相似性网络赋予更高权重。如果查询的是某通路的成员，GeneMANIA 将预测该通路的其他成员，其依据可能是物理相互作用和共表达相互作用（图 13.7）。GeneMANIA 中发现的全部功能性相互作用均可免费下载。

116

Strategies for Navigating Pathway and Interaction Databases

PDF page 434-435；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Strategies for Navigating Pathway and Interaction Databases

The user wants me to translate a section from the Bioinformatics 4e textbook into

Chinese textbook style. Let me do this carefully, following all the specified requirements

Let me translate this section carefully, preserving all English terms, software names

, database names, URLs, and literature citations.The user wants me to translate a section from the Bioinformatics 4e textbook into Chinese textbook style. Let me do this carefully, following all the specified requirements.

Let me translate this section carefully, preserving all English terms, software names, database names, URLs, and literature citations.

通路与互作数据库的导航策略

通路与互作数据库的数量和多样性可能令人困惑。从通用和实用的角度来看，用户应优先使用上述数据库进行检索，因为它们是规模最大、开发最为活跃的资源。用户还应了解元数据库（meta-databases），这类资源从多个其他数据库收集信息，提供便捷的单一访问入口。此类整合资源的例子包括：用于通路的 Pathway Commons（Cerami et al. 2011）、用于蛋白质互作的 iRefIndex（Razick et al. 2008），以及用于信号通路中激活/抑制互作的 OmniPath（Turei et al. 2016），当然还有更多类似资源。探索更广泛的通路与互作数据库集合的一个良好起点是 Pathguide 链接目录（Bader et al. 2006）。

本节提供可用于评估通路与互作数据库质量和实用性的标准。这些标准包括范围（scope）、数据质量（data quality）、数据"新鲜度"（freshness）、数据量（data quantity）、可用性（availability）和技术架构（technical architecture），我们将逐一讨论。数据库的范围（即它收集哪些类型的记录）在检索信息之前非常重要。例如，BioGRID 数据库包含蛋白质-蛋白质互作（protein–protein interactions）和遗传互作（genetic interactions）的信息，这两种相关数据类型具有截然不同的性质。用户可能检索蛋白质互作，却发现了遗传互作，如果不了解数据库的范围，就可能将后者误判为蛋白质互作。

数据质量在很大程度上取决于整理（curation）和验证（validation）的水平，且可能难以独立评估。一般而言，应关注是否存在人工整理的证据——这通常意味着更高的数据质量——而仅包含未经人工审核的计算预测信息的数据库则质量较低。虽然专家整理的数据库是金标准（gold standard），但质量较低的信息集合仍然有用，不过通常需要用户具备专业知识和时间来筛选。例如，通过文献提取技术（text mining，文本挖掘）自动创建的蛋白质-蛋白质互作数据库可能仅有约70%的准确率，但仍可能包含其他数据库中没有的正确信息。

数据新鲜度同样重要，维护良好且定期更新的数据库往往表明更高的数据质量。用户应在数据库主页及记录中查找日期信息，或在下载站点查看数据集的创建时间（如有），以了解数据的时效性。衡量数据库实用性的另一个指标是数据量——在数据质量良好的前提下，可用数据越多越好。用户还应关注数据库的可用性，即许可条款，因为某些数据库存在知识产权限制。幸运的是，许多数据库要么对所有人免费开放，要么对学术研究者免费使用。最后，如果计划对某个数据库进行批量分析，则应考虑其技术架构（Helmy et al. 2016）。理想情况下，数据库应以标准格式提供（详见"通路与分子互作的标准数据格式"一节），并提供应用程序编程接口（APIs）。

117

Standard Data Formats for Pathways and Molecular Interactions

PDF page 435-437；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Standard Data Formats for Pathways and Molecular Interactions

通路与分子相互作用的标准数据格式

本节概述标准数据交换格式。理想情况下，人们应能从一个便捷的数据源获取解决某个研究问题所需的所有相关通路和网络信息。然而在现实中，每个数据库团队都创建了自己的数据表示方式，使得整合数据并将其用于综合分析变得极为困难。幸运的是，已经开发出了许多数据库支持的标准数据格式，使得以一个（或少数几个）兼容格式访问来自不同数据源的数据变得容易。

BioPAX

Biological Pathway Exchange（BioPAX）格式是表示生物通路的标准语言（Demir et al. 2010）。BioPAX 可以表示代谢通路和信号通路、分子相互作用与遗传相互作用，以及基因调控网络（Figure 13.8）。BioPAX 用 Web Ontology Language（OWL）编写，OWL 是一种 XML 语言，能够描述类（class）、类的属性（property）及其相互关系。BioPAX 的顶层类是 Entity，包含四种类型：Pathway、Interaction、Gene 和 PhysicalEntity。Pathway 是 Interaction 的集合，可选按步骤排序。Interaction 包含基因或物理实体：蛋白质、DNA、RNA、小分子和复合物。BioPAX 涵盖四种主要的表示风格和数据类型：生化反应与信号通路……

AKT AKT PDK1 AKT Thr308 Ser473 PP2A hsp90 P P P P P

rAKT1 is a ProteinReference

has standard-name "AKT1"

has name "PKB"

has xref Uniprot-P31749

p@308 is a ModificationFeature

has featureLocation AKT1-308

has modificationType phosphorylation

AKT1.1 is a Protein

has proteinReference rAKT1

has notFeature p@308

has notFeature p@473

reaction1 is a BiochemicalReaction

has left AKT1.2

has right AKT1.1

is left-to-right.

catalysis1 is a Catalysis

has controller PP2A.1

has controlled reaction1

has direction irr-left-to-right

AKT1.2 is a Protein

has proteinReference rAKT1

has feature p@308

has notFeature p@473

assembly1 is a ComplexAssembly

has left HSP90.1

has left AKT1.3

has right complex1

is reversible

complex1 is a Complex

has component AKT1.4

has component HSP90.2

HSP90.2 is a Protein

has proteinReference rHSP90

is boundTo AKT1.4

AKT1.4 is a Protein

has proteinReference rAKT1

has feature p@308

has feature p@473

is boundTo HSP90.2

HSP90 HSP90 AKT1 AKT1 AKT1 AKT1 308 473 308 473 308 473 308 473 P P P P P PDK2 PP2A PDK1

Figure 13.8 AKT 通路的三种表示方式：传统方法（左上，来自 www.biocarta.com）、形式化的 SBGN 图（左下，来自 www.sbgn.org），以及使用 BioPAX 语言的表示（右侧）。来源：经 Springer 许可转载自 Demir et al. (2010)。

118

Pathway Visualization and Analysis

PDF page 437-445；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Pathway Visualization and Analysis

The user wants me to translate a section from Bioinformatics 4e textbook (Ch13: Biological Networks

and Pathways / Pathway Visualization and Analysis) into Chinese textbook style. Let

me carefully translate the entire text, following the rules specified.

Let me work through this systematically, translating the text while preserving English terms

, software names, database names, URLs, and literature citations.The user wants me to translate a section from Bioinformatics 4e textbook (Ch13: Biological Networks and Pathways / Pathway Visualization and Analysis) into Chinese textbook style. Let me carefully translate the entire text, following the rules specified.

Let me work through this systematically, translating the text while preserving English terms, software names, database names, URLs, and literature citations.

通路可视化与分析

通路由转换（conversion）和控制（control）两类交互类型构成，其物理实体参与者可维护状态信息（如翻译后修饰、细胞定位和蛋白质复合物结合状态）。转换类型捕获生化反应、转运、降解和复合物组装等过程。控制类型捕获催化和调控作用。催化描述催化某一生化反应的酶，因此在代谢通路中捕获一个步骤需要两种交互（催化交互和生化反应交互）。基因调控通路由 TemplateReaction 和 TemplateReactionRegulation 交互构成。模板反应（template reaction）是指中心法则中分子之间的转换，如 DNA 到 RNA 或 DNA 到蛋白质。TemplateReactionRegulation 类型的交互对此进行控制，例如捕获调控基因表达（描述为 TemplateReaction）的转录因子。MolecularInteraction 类捕获蛋白质-蛋白质或其他分子间交互，遵循 PSI-MI 标准的风格（见 PSI-MI）。GeneticInteraction 类表示遗传交互，如基因间的合成致死（synthetic lethal）或上位性交互（epistatic interactions）。许多数据库以 BioPAX 格式提供数据，包括 Reactome（Fabregat et al. 2018）、BioCyc 数据库家族（Caspi et al. 2018）和 Pathway Commons（Cerami et al. 2011）。BioPAX 提供编程库以支持软件开发者加载、保存和查询 BioPAX 文件（Demir et al. 2013），并提供验证器服务（Rodchenkov et al. 2013）以支持内容提供者创建新的 BioPAX 文件。

PSI-MI

PSI 开发了一种基于 XML 的蛋白质-蛋白质交互交换格式，称为 PSI-MI（Hermjakob et al. 2004）。该格式的数据模型包含一个"交互"记录，由一组发生交互的蛋白质（可以超过两个）、"实验条件"受控词汇表、以及出版物参考文献和蛋白质特征信息（如结合位点和翻译后修饰位点）组成。PSI-MI 工作组还维护了一个广泛的术语本体，用于描述交互类型和实验方法类型等概念，作为 PSI-MI 中的受控词汇表使用（Mayer et al. 2014）。图 13.9 展示了 PSI-MI 记录的顶层结构。许多数据库和工具支持 PSI-MI，与 BioPAX 类似，也有软件库、Web 服务和验证器可供软件开发和数据库团队支持该标准。PSI-MI 和 BioPAX 开发工作组协同工作以确保格式之间的兼容性，使 BioPAX 中的 MolecularInteraction 类可与 PSI-MI 格式互相转换。PSI-MI 还提供了一种制表符分隔的格式版本，称为 MITAB（molecular interaction tab delimited），便于在脚本中处理文件。

SBML

系统生物学标记语言（Systems Biology Markup Language, SBML）是一种基于 XML 的数学通路模拟模型交换格式（Hucka et al. 2003）。数学通路模型的一个例子是描述通路中所有反应速率的常微分方程系统。给定正确的参数（如分子初始浓度和反应动力学常数），计算机可以计算通路中各分子物种随时间变化的浓度。许多模拟工具支持这些格式。BioModels 数据库包含许多通路的 SBML 模型（Le Novere et al. 2006），许多软件工具可用于模拟 SBML 模型。

通路可视化与分析

通路可视化工具是能够自动绘制通路图的计算机程序。自动通路可视化工具，尤其是用于浏览代谢通路的工具，在第一批代谢数据库建立后不久即已出现。例如，ACeDB 数据库（Eeckman and Durbin 1995）和 EcoCyc（Karp et al. 2002）中都包含通路绘制工具。许多这类工具显示静态图片，其中的组件（如酶或小分子）可以点击以从源数据库获取更多关于该组件的信息。静态可点击通路图片的示例可在 Reactome 数据库中找到（图 13.1）。更先进的工具能够从底层数据库动态生成通路图，允许用户改变通路的查看方式。例如，EcoCyc 数据库包含的通路可视化工具可以显示通路的不同细节层次，从概览到显示通路中所有小分子化学结构的详细视图（图 13.10）。PathVisio 可以显示来自多个来源的通路图，并能通过将基因表达和其他基因组数据叠加在通路图上来辅助数据解读（图 13.11; Kutmon et al. 2015）。一般而言，PathVisio 及类似工具必须能够加载通路信息和基因表达数据，并将一个数据集中的基因与另一个匹配。这通常要求两个数据集之间的基因标识符相匹配，虽然许多工具提供了将标识符从一种类型映射到另一种类型的功能以帮助数据集间的基因匹配，但这有时可能出错（Zeeberg et al. 2004）。

系统生物学图形符号（Systems Biology Graphical Notation, SBGN）是通路图的标准格式（Le Novere et al. 2009）。存在三种版本以捕获不同的通路表示范式。过程描述（Process Description, PD）图可视化生化风格的代谢和信号通路（图 13.12 和 13.13）。实体关系（Entity Relationship, ER）图显示涉及参与者的交互网络。活动流（Activity Flow, AF）图展示通路内信息流动的方式，包括激活和抑制关系。SBGN-ML 是交换 SBGN 图的标准 XML 格式（van Iersel et al. 2012），许多编辑器和可视化工具支持自动绘制 SBGN 图（Sari et al. 2015; Hartmann and Jozefowicz 2018）。

通路分析的主要类型是通路富集分析（pathway enrichment analysis），用于解读基因组和其他基因组规模的数据。它识别在大基因列表中比预期更富集或更不富集的通路，这些基因列表通常来源于高通量转录组或蛋白质组方法。在此分析中，对通路在实验基因列表中高于随机预期的过度代表性进行统计检验。例如，一个实验推导的基因列表中包含 50% 的细胞周期基因，这令人意外地富集，因为只有 8%的人类蛋白质编码基因参与此过程。

通路富集分析涉及三个主要步骤。第一步，利用可用的高通量数据定义感兴趣的基因列表。此类实验的原始数据通常需要计算处理，如标准化和评分以识别感兴趣的基因。例如，可以从 RNA-seq 数据推导出两组样本之间差异表达的基因列表。第二步，执行通路富集分析。使用统计方法识别第一步基因列表中相对于随机预期富集的通路。对给定数据库中的所有通路在基因列表中进行富集检验，所得 p 值经过多重假设检验校正以识别显著富集的通路。第三步，对通路富集分析结果进行可视化与解读。第二步可能识别出许多富集通路，通常包括同一通路的多个相关版本。可视化可以帮助识别此列表中的主要生物学主题及其关系，以便聚焦研究。

许多统计方法已被提出用于执行通路富集分析（Khatri et al. 2012），但主要有两种类型针对特定类型的基因列表而设计。第一种设计用于分析包含数十到数千基因的基因列表，如在癌症基因组学实验中可能定义的列表（即与正常样本相比，癌样本中所有突变基因的集合）。这类基因列表可以使用 Fisher 精确检验来计算输入列表中的基因与通路中的基因之间非随机关联的概率。该检验对数据库中的所有通路基因集重复进行，使用 Benjamini–Hochberg 错误发现率（FDR）方法校正重复检验（多重假设）（Hochberg and Benjamini 1990）。结果是一组在基因列表中显著富集的通路基因集及其关联的校正 p 值（也称为 q 值）。执行此分析的有用工具是基于 Web 的 g:Profiler 系统（图 13.14; Reimand et al. 2016）。

第二种重要的基因列表类型是按实验评分排序的。典型例子是在 RNA-seq 实验中比较一种条件与另一种条件时测量的所有差异表达基因组列表。此基因列表按差异表达评分排序，条件 A 与 B 相比最正差异表达（上调）的基因位于列表顶部，未差异表达的基因位于中间，负差异表达（下调）的基因位于底部。通常没有自然的方法对此列表设定阈值以定义适合输入基于 Fisher 精确检验的分析方法的较小基因列表。此外，设定阈值可能移除生物学相关信号，因为弱差异表达的基因可能为给定富集通路贡献信号。为解决这一问题，排序型通路富集分析方法已被开发；这些方法不需要定义阈值，而是考虑列表中的所有基因。此类方法中最常用的是基因集富集分析（Gene Set Enrichment Analysis, GSEA），主要实现为可在桌面本地安装的免费软件（Subramanian et al. 2005）。GSEA 方法搜索其基因在排序基因列表顶部或底部比随机预期更富集的通路。例如，如果最顶部差异表达的基因涉及细胞周期，则提示细胞周期通路在实验中受到调控。相比之下，如果细胞周期基因在整个排序列表中随机散布，则细胞周期通路可能未受到显著调控。为计算通路的富集评分（enrichment score, ES），GSEA 从排序列表顶部到底部逐步检查基因，如果基因属于该通路则增加富集评分，否则减少评分。这些运行累加值经过加权，因此排名最高（和最低）基因的富集被放大，而排名更居中的基因的富集不被放大。ES 计算为运行累加值的最大值，并相对于通路大小进行标准化，得出标准化富集评分（normalized enrichment score, NES），反映通路在基因列表中的富集程度。正和负 NES 值分别代表列表顶部和底部的富集（图 13.15）。此过程对数据库中的每个通路重复进行。最后，计算基于置换的 p 值并校正多重检验以产生基于置换的 FDR q 值，范围从 0（高度显著）到 1（不显著）。置换 p 值通过多次使用随机基因集或随机分配实验类别标签（如"病例"和"对照"）重复分析来计算，若有超过五个样本则推荐后者。从排序基因列表底部开始执行同样的分析以识别列表底部富集的通路。所得通路使用 FDR q 值阈值（如 q < 0.05）筛选，并使用 NES 排序。检查在富集评分达到峰值之前促使其增加的"前沿基因"（leading edge genes）也很有用。

在上述两种分析类型中，显著富集的通路通常以表格展示。通路信息本身具有冗余性，因为基因通常参与多个通路，且来自不同数据库的通路可能重复。通路富集分析因此经常突出同一通路的多个版本。将冗余通路折叠为单一生物学主题可简化解读。

Enrichment Map 可视化软件是 Cytoscape 网络可视化和分析软件（见"网络可视化"部分）中的一个应用，旨在解决此问题（Bindea et al. 2009; Merico et al. 2010）。富集图是一种表示富集通路之间重叠的网络（图 13.16）。通路表示为圆形（节点），按富集评分着色，以连线（边）连接，边的大小基于相连通路共享的基因数量。网络布局和聚类算法用于自动显示并将相似通路分组为主要生物学主题。可以交互式地探索通路富集评分（过滤节点）和通路之间的连接（过滤边）。如果可选地加载了基因表达数据，点击通路节点将显示该通路中所有基因的基因表达热图。多个富集分析结果可以同时在一个富集图中可视化以进行比较，此时每个富集结果使用不同颜色标记节点（Reimand et al. 2019）。

---

图 13.9 Proteomics Standards Initiative–Molecular Interactions (PSI-MI) 数据模型中描述蛋白质-蛋白质交互的主要组成部分。方框表示定义的 XML 数据类型。虚线表示可选元素。六边形方框表示其下方元素的集合。小方框中的减号和加号符号分别代表每个元素的折叠和展开视图。折叠方框内部有更多未显示的元素。PSI-MI 的完整 schema 可在 PSI-MI Web 网站上获取。

图 13.10 由支持 BioCyc 数据库家族的 Pathway Tools 软件动态绘制的缬氨酸生物合成通路。自动通路图布局的优势在于可以根据用户偏好绘制图。此处展示了同一通路的两个视图，(b) 中的视图比 (a) 提供更多细节。注意 (b) 中小分子结构的存在。通路图中的节点代表代谢物，连接代表酶。

图 13.11 PathVisio 软件的输出，显示了叠加了三个乳腺癌细胞系样本基因表达数据的人类细胞周期通路的一部分。矩形代表基因或通路（如标注所示），并根据右侧图例按基因表达水平着色，其中黄色代表低 mRNA 基因表达，蓝色代表高 mRNA 基因表达。

图 13.12 系统生物学图形符号（SBGN）过程描述（PD）格式中可用的符号类型集合。

图 13.13 使用系统生物学图形符号（SBGN）过程描述（PD）绘制的黑腹果蝇（Drosophila melanogaster）细胞周期，并着色以增加视觉吸引力。来源：转载自 Toure et al. (2018)。

图 13.14 使用 g:Profiler 工具进行通路富集分析的结果。屏幕顶部显示输入表单，包括输入基因列表的文本框（左上）、可选择的各种分析选项（中上）和可选的基因集数据库（右上）。富集结果以表格形式显示在图底部。每行包括通路名称（左列）、富集统计信息（中间列）和查询基因及其所属通路的图形视图（右图）。

图 13.15 基因集富集分析（GSEA）富集图。图的下半部分代表完整的排序基因列表，从高（左）到低（右）排序。排序列表中匹配某通路（基因集）的基因以黑色垂直线显示。运行富集评分以绿色线绘制在顶部。这是一个高度富集通路的示例，因为绿色线迅速上升到高水平后才下降。展示了三个图：(a) 排序基因列表顶部有良好富集，(b) 富集较差（通路基因在排序列表中随机分布），(c) 列表底部有良好富集。

图 13.16 富集通路之间重叠的网络表示（Enrichment Map）。

119

Network Visualization and Analysis

PDF page 445-451；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Network Visualization and Analysis

网络可视化与分析

蛋白质定位于细胞边缘的正调控

蛋白质定位于膜的正调控

质膜组织

蛋白质定位于质膜的调控

蛋白质定位于膜的调控

蛋白质定位于膜的建立

凋亡信号通路的调控

凋亡相关的线粒体变化

线粒体组织的调控

内源性凋亡信号通路

凋亡信号通路的负调控

凋亡信号调控

质膜组织

Figure 13.16 展示两个富集主题的富集图（enrichment map）。每个节点代表一个通路基因集，名称如标签所示。节点大小与该通路中的基因数量成正比。节点颜色代表富集分数（enrichment score），颜色越深表示分数越好。边代表两条通路之间共享的基因，边越粗表示共享基因越多。相关通路已使用 Cytoscape 的 AutoAnnotate 应用自动分组为图中以大型标签和阴影圆圈标注的主题。

网络可视化与分析

虽然查看单条通路对于详细的机制研究很有用，但对于可视化和分析大量分子相互作用以及已知的、研究充分的通路之外的知识映射，它并不适用。因此，人们开发了网络可视化与分析工具。网络可视化与分析依赖于计算机科学领域图论（graph theory）的概念，因此本节首先简要讨论图论的基本概念。

图论基于图（graph）的概念——将连接数据表示为一组节点（node，或称顶点 vertex）和一组连接边（edge）（Figure 13.17）。边可以是有方向的，此时可称为弧（arc）。节点和边可以关联权重或其他数据值。图有不同的类别；例如，不包含任何环（cycle）的图称为无环图（acyclic graph，也称树）。树图具有根节点（root node）和叶节点（leaf node），树的集合称为森林（forest）。生物信息学中有向无环图的一个例子是 Gene Ontology（参见 Chapter 7; Ashburner et al. 2000），其中最一般的注释术语是根节点，最具体的术语是叶节点。在无向图中，与一个节点相连的边数称为度（degree）。对于有向图，入度（in-degree）和出度（out-degree）分别是输入和输出某个节点的弧数。图是一个抽象的数学概念，可以映射到任何能够想象出映射关系的问题；因此，方向、权重和连通性在被映射之前并不具有任何特定的生物学（或其他领域）含义。

Figure 13.17 计算机科学图论领域中使用的术语和视觉标记介绍。蓝色圆圈是节点或顶点（vertex，单数形式），无向线（红色和绿色）称为边（edge），有向线（青色）称为弧（arc）。节点或边可以有关联属性，例如权重。此处显示了两个边权重：5 和 −7。一系列形成闭合环路的边称为环（cycle，红色线）。此图中的颜色仅用于标注图的结构，并非常规视觉标记的一部分。图是一个抽象的数学概念。边的方向、权重和其他属性在被映射到具体问题之前没有任何含义。

直觉上，生物分子相互作用网络可以映射到图，其中生物分子表示为节点，相互作用表示为边。其他信息也可以被映射；例如，边的方向可以代表激活关系，边的权重可以从相互作用的置信度信息映射而来。某些类型的生物相互作用信息无法忠实地映射到图，或者可能存在多种模糊的映射方式，或映射会导致信息丢失。例如，在免疫共沉淀（co-immunoprecipitation）实验中检测到的大于两个分子的蛋白质复合物，不容易用图中的二元关系来描述；相反，它们只能准确地表示为一个集合，因为实验并不提供复合物中蛋白质之间直接物理连接的信息。该集合可以用不同的方式映射到图，例如将集合中所有蛋白质在团（clique，即完全连接的图）中彼此连接，或者创建一个代表该集合的节点并将每个蛋白质链接到该新节点（Bader and Hogue 2002）。

使用图论来表示生物网络的原因在于它有助于回答许多有意义的生物学问题。例如，如果想知道某一蛋白质是否与蛋白质相互作用网络中的另一蛋白质相连，可以运行一种算法（称为广度优先搜索，breadth-first search），该算法在数学上保证能找到两个节点之间的最短路径（如果存在）。许多其他有用的图算法可用于操作、查询、分析和可视化图。关于图论的更多信息见 Box 13.1 以及专门讨论图论算法的著作（Bollobás 1998; Mehlhorn and Näher 1999; Cormen 2001）。

Box 13.1 高级图论应用

图论与线性代数之间存在天然的关联。任何图都可以表示为一个 N × N 矩阵，称为邻接矩阵（adjacency matrix），其中行和列代表图中的节点，如果节点 i 与节点 j 相连，则在矩阵位置 (i,j) 处放置"1"。如果图中的边有权重，则权重可以记录在位置 (i,j) 处，而不用"1"。由于生物信息学中许多类型的矩阵是 N × N 的方阵，它们可以表示为图，有时进行这种转换以可视化矩阵是有用的。一个有趣的例子是蛋白质序列相似性矩阵，它以全对全（all-against-all）的方式记录一组序列的序列相似性（例如由 BLAST 计算，参见 Chapter 3）。相似性矩阵的行和列代表被比较的对象集合；在本例中是蛋白质序列，矩阵位置 (i,j) 记录蛋白质 i 与蛋白质 j 相比对的相似性分数。通过将这些数据可视化为网络而非矩阵，相似蛋白质聚类之间的连接在视觉上更为明显（Akiva et al. 2014）。

数学家也可以将图转换为邻接矩阵，以对矩阵应用代数矩阵运算来求解特定的图问题。有时，矩阵运算比使用标准算法直接在图上执行的相同运算更快。例如，邻接矩阵平方后的条目 (i,j) 对应于图中节点 i 与节点 j 之间长度为 2 的路径数量。这可以推广到邻接矩阵的更高次幂。如果矩阵是稀疏的（填充了大量零），对矩阵求平方可以快速得到答案；但如果图是稠密的，则不会那么快。幸运的是，生物学中的许多问题可以转化为稀疏图。生物信息学中利用这种数学问题求解策略对相似性矩阵进行聚类的一种算法是 Markov 聚类（MCL）算法（Enright et al. 2002）。通过对相似性图的邻接矩阵进行一系列乘法及其他数学运算，可以检测出相似蛋白质的聚类。同一相似性聚类中的蛋白质之间的路径比它们到其他聚类中蛋白质的路径更多。矩阵平方运算涉及计算从一个蛋白质到另一个蛋白质的路径数量。

网络可视化

网络可视化工具依赖于计算机科学领域中的网络布局（network layout）算法。通常，网络布局算法试图使图看起来美观；也就是说，它们尽量减少节点的重叠和边的交叉，使图尽可能多地清晰可见。网络布局是实用的，通常在中小型网络（如在典型大小的显示区域——如计算机显示器——上，节点数从几十到几千）上效果良好。比这更大的网络需要超出常规的显示区域，或者需要降低网络复杂度才能查看，例如通过过滤边或放大感兴趣的节点区域。

网络布局算法有很多类型，例如层级排列节点、环形排列或较不结构化的格式。重要的是，最适合的布局算法类型取决于输入网络的类型。例如，高度连接的网络以层级方式布局时显示效果不佳；只有真正具有层级结构的网络（如树）才能在这种情况下良好布局。因此，网络可视化工具包含多种布局方法，应全部尝试以确定哪种方法能为特定网络生成美观的布局。

最常用的布局类型之一是弹簧嵌入算法（spring-embedded algorithm），它源力于力导向布局算法（force-directed layout algorithm）的一般类别，并有许多变体。在典型情况下，网络被建模为物理系统，其中边是弹簧，节点是带同种电荷的粒子相互排斥。布局开始时将所有节点随机放置，然后计算每个节点的位置——长边如同被拉伸的弹簧，会将相连的节点拉近，而节点之间越接近则相互排斥力越强。通过随时间迭代，网络可以在最终布局上稳定下来，此时边相对较短，节点相对不重叠。可以将此想象为将一堆带同种电荷的珠子（节点）用弹簧（边）连接，抛到空中，看它们落地时如何排列。

网络布局完成后，需要进行解读。在生物相互作用网络中有三种主要模式值得关注（Merico et al. 2009）。第一种模式表现为"关联即有罪"（guilt by association），描述了功能相似的基因在蛋白质或基因相互作用网络中通常彼此相连的现象。这对于根据邻近基因的功能来预测未知基因的功能很有用。第二种模式呈现密集连接的区域，即聚类（cluster），它们经常指示通路、系统或分子复合物。第三种分析模式是关注全局特征，例如密集连接区域之间的组织关系，这可能有助于理解哪些区域彼此密切相关。

Cytoscape 是一款免费开源的基于 Java 的网络可视化与分析工具，也是同类工具中使用最广泛的（Shannon et al. 2003）。Cytoscape 能够在其他类型数据（例如基因组数据）的背景下可视化和分析网络数据，并对网络进行布局。Cytoscape 的网络是交互式的，可以编辑；可以使用鼠标选择、拖动和旋转节点。还可以通过基于用户定义的已加载属性与网络拓扑的组合过滤来进行精细的节点和边选择。Cytoscape 的一个主要优势是能够通过从 Cytoscape 应用商店下载"apps"来添加新功能（Lotia et al. 2013）。任何人都可以使用 Java 编程语言开发应用。已有数百个实现了各种可视化和分析方法的应用被开发并贡献给该项目。使用 R、Python 或其他脚本语言自动化 Cytoscape 功能也是可行的（Demchak et al. 2018）。

Cytoscape 在整合和可视化网络上的信息时使用网络属性（network attribute）和视觉属性（visual attribute）的概念。网络属性有两种类型：节点属性和边属性。节点属性是与节点关联的数据值（通常通过从文件加载）。如果节点代表一个蛋白质，节点属性可以是该蛋白质的名称、描述该蛋白质功能分类的术语（可能来自 Gene Ontology），或蛋白质丰度测量值。类似地，边属性是与边关联的数据值。如果边代表两个蛋白质之间的相互作用，边属性可以是相互作用的强度或用于检测该相互作用的实验方法类型。只要每种类型具有不同的名称，就可以同时加载多种类型的节点和边属性。任一属性都可以是离散的（discrete）或连续的（continuous）。离散边属性的一个例子是相互作用检测实验方法的列表。连续节点属性的一个例子是范围从 0.0 到 1.0 的一组基因表达值。

Cytoscape 中的视觉属性是网络图可以用不同方式显示的方面（Figure 13.18）。对于节点，这些包括形状、大小、标签、字体、颜色、边框颜色和边框类型；对于边，这些包括标签、字体、颜色、线型（例如实线或虚线）、目标箭头和源箭头。一旦网络被加载到 Cytoscape 中，任何节点或边属性都可以使用 Cytoscape 的可视化映射器（visualization mapper），即"Style"系统，映射到视觉属性。蛋白质相互作用网络视觉样式的一个具体示例是将包含归一化基因表达值（范围从 0.0 到 1.0，其中 1.0 为该集合中的最高基因表达值）的节点属性映射到节点颜色，表达值 0.0 映射为绿色，1.0 映射为红色。Cytoscape 将随后根据样式自动对所有节点进行连续着色，表达值 0.5 将被着色为绿色和红色之间的中间色。Cytoscape 有数百种功能，记录在 Cytoscape 手册、在线教程和各种操作流程中，也可以通过涉及大量用户社区的邮件列表获取支持。

Figure 13.18 在 Cytoscape 中放大网络，展示了来自芽殖酵母的大型蛋白质和遗传相互作用连接网络的一部分。此视图旨在强调 Cytoscape 中可用的视觉自定义功能。节点代表基因，颜色按基因表达值着色（类似于 PathVisio），大小按节点度数设定。重要的是，Cytoscape 中的此视图可以使用 Cytoscape 的视觉映射器（左侧面板）进行高度自定义。

网络分析

许多类型的生物数据可以与生物网络整合，以深入了解特定生物学背景（如疾病）中活跃的机制。本节简要描述一系列已开发的网络分析方法，所有这些方法均可通过 Cytoscape 或其他系统免费获取。

拓扑分析（Topological analysis） 仅关注网络中节点和边连接的模式。最基本的拓扑分析是分析网络中所有节点的度（连接数）分布。生物网络的度分布倾向于遵循幂律（power law），即少数节点具有非常高的度（称为"枢纽"，hub），而多数节点具有较低的度。有人提出这种组织方式是生物系统鲁棒性（robustness）的基础（Barabasi and Oltvai 2004），且枢纽是这些系统中最重要的节点。衡量节点重要性的指标有很多，通常称为中心性度量（centrality measure）。例如，"聚类系数"（clustering coefficient）衡量节点邻域中边的密度。这些度量可以使用 Cytoscape 提供的 Network Analyzer 应用计算（Assenov et al. 2008），也可以通过其他工具计算。

其次，可以识别网络中的小模式，称为网络模体（network motif）（Alon 2007）。例如，前馈环（feed-forward loop）由至少三个节点组成，节点通过有向边串联连接（如 A → B → C），同时 A 也通过有向边连接到 C，其中方向表示"调控"。许多生物网络中特定模体类型富集，模拟表明这些模体具有特定的生物学属性，例如"延迟"或"放大"。网络模体可以使用 NetMatchStar Cytoscape 应用发现（Rinnone et al. 2015）。

再次，网络中更大的模式称为模块（module，也称系统或聚类），对应于彼此之间比与模块外节点连接更紧密的节点组。蛋白质-蛋白质相互作用网络中的模块往往是蛋白质复合物（Bader and Hogue 2003），模块化是生物系统的关键原则（Hartwell et al. 1999）。网络模块可以使用 ClusterMaker2 Cytoscape 应用推导（Morris et al. 2011）。

第二类网络分析是差异分析（differential analysis），即比较或比对两个或多个网络（Ideker and Krogan 2012）。这种分析方法有助于识别在进化时间中保守的区域，因此可能普遍重要。它还可以识别条件之间的差异区域，例如疾病特异性的区域，可能有助于理解潜在的疾病机制。DyNet Cytoscape 应用是这种网络比较工具的一个例子（Goenawan et al. 2016）。

第三类网络分析是预测分析（predictive analysis），即使用网络对样本进行分类或预测疾病结局。例如，根据突变模式对癌症样本进行分类依赖于将具有共同突变的样本分组。然而，许多癌症样本匹配对之间没有任何共同突变，从而无法进行任何分组。癌症被认为是一种通路疾病，其中癌症标志通路需要被激活（促肿瘤）或失活（抑肿瘤）；这些效应可以通过多种突变机制发生，而不仅仅是重复影响相同的基因（Hanahan and Weinberg 2011）。因此，即使两个样本具有不同的突变集合，受突变影响的基因可能在同一模块内相互作用，这些关系可以使用基因功能相互作用网络来检测。一种称为"网络平滑"（network smoothing）的方法被提出，用于在基因相互作用网络上"扩散"每个样本中突变的信息，从而增加样本之间在网络层面的相似性。由此得到的样本来源的相互作用网络可以比仅靠突变更有效地分组（Hofree et al. 2013）。

第四类是网络推断（network inference），即从现有数据预测网络边。已提出两种主要类型的网络推断：基于蛋白质序列的和基于相关性的。基于蛋白质序列的方法使用机器学习来识别蛋白质序列中预测物理相互作用的模式（Schoenrock et al. 2014）。基于相关性的方法识别给定数据集中的相关性来定义网络。例子包括加权相关网络分析（WGCNA），它计算基因表达数据集中所有基因对之间的表达谱相关分数（Langfelder and Horvath 2008）。相关分数被映射为相关网络中的加权边。网络经过过滤以保留最强的相关性，并进行聚类以识别模块。另一个例子是 ARACNE（Algorithm for the Reconstruction of Accurate Cellular Networks），它使用互信息度量和专门的过滤方法（数据处理不等式，data processing inequality）来构建富集已知调控因子（如转录因子）与潜在靶标之间直接相关性的相关网络。所得网络被预测对应于基因调控关系（Margolin et al. 2006）。Cytoscape 的 CyNI 工具包应用实现了此方法及相关方法（Guitart-Pla et al. 2015）。

最后一类是整合分析（integrative analysis），即使用多层数据执行上述任一分析类型。数据整合的优势在于，来自独立数据源的误差通常会被减少（增加置信度），因为每个数据源预计以不同方式产生误差；系统的覆盖范围可以增加，因为每个数据源可能包含系统不同方面的信息。挑战包括处理数据匹配以避免错误，包括匹配基因标识符或数据类型（例如连续型与离散型），以及考虑数据集偏差（例如某一数据源可能因其存在偏差或易出错而干扰整合）。数据整合已被应用于从多种数据类型预测蛋白质相互作用（Jain and Bader 2016）、网络模块识别（Wang et al. 2014）以及受癌症突变影响的网络模块识别（Wu and Stein 2012）。最后一种功能可在 ReactomeFIViz Cytoscape 应用中使用。该应用接受一个基因列表，然后在一个通过整合多种数据（包括蛋白质相互作用）创建的功能相互作用网络中进行查询；接着使用网络聚类算法检测模块；最后，使用通路富集分析方法对每个模块进行注释。

Figure 13.19 通路分析工作流程概览，总结了本章中的多种工具。最上层蓝色部分描绘了不同的基因组学数据类型。下一层浅橙色部分展示了从数据推导基因列表所需的数据处理步骤。基因列表由红色方框表示。绿色方框描述了数据分析和解读步骤，左侧为通路富集分析，右侧为网络分析。这两条并行途径都通向对通路、网络区域和感兴趣基因的聚焦分析（底部绿色部分）。黄色矩形突出显示本章讨论的工具。箭头连接方框以显示整体工作流程中的路径。ChIP，染色质免疫沉淀；CLIP，交联免疫沉淀；CNV，拷贝数变异；exp.，实验；GSEA，Gene Set Enrichment Analysis；mass spec.，质谱；miRNA，微小 RNA；SNP，单核苷酸多态性；TF，转录因子。

120

Summary + Acknowledgments + Internet Resources + Further Reading + References

PDF page 451-456；印刷页码待核对

▶

Ch13 Biological Networks and Pathways / Summary + Acknowledgments + Internet Resources + Further Reading + References

The user wants me to translate the Summary, Acknowledgments, Internet Resources, Further Reading

, and References sections from Chapter 13 of Bioinformatics 4e into Chinese textbook

style. Let me follow the rules:

Professional and accurate, no information omitted, no added facts
Keep English terms, software names, database names, URLs, literature citations
Translate Figure/Table/Box titles and descriptions, keep numbering
References bibliographic entries stay in English; Further Reading description text gets

translated

Output Markdown body, no process explanation

Let me do this carefully.The user wants me to translate the Summary, Acknowledgments, Internet Resources, Further Reading, and References sections from Chapter 13 of Bioinformatics 4e into Chinese textbook style. Let me follow the rules:

Professional and accurate, no information omitted, no added facts
Keep English terms, software names, database names, URLs, literature citations
Translate Figure/Table/Box titles and descriptions, keep numbering
References bibliographic entries stay in English; Further Reading description text gets translated
Output Markdown body, no process explanation

总结

鉴于目前可用的通路和网络分析方法种类繁多，选择能够适用于任意或所有给定数据类型的适当分析方法是一项困难的工作。就基因列表解读而言，一个好的工作流程是：首先使用通路富集分析方法识别感兴趣的通路。由于通路分析聚焦于已知通路，它并不包含典型基因组中的许多基因，因此还应并行完成网络分析——在 Cytoscape 中使用 GeneMANIA 和 ReactomeFIViz 来识别感兴趣的网络区域。然后可以对选定的感兴趣通路和网络及其参与基因进行深入审视，同时手动考虑所有可用数据和文献，以生成可供实验验证的假设（Figure 13.19）。

网络和通路信息仍在快速增长，但这些信息通常以静态形式呈现，缺少关于动态性（例如钙波或反馈环路）、细节（例如原子级蛋白质结构）和上下文（例如细胞类型和发育阶段）的信息。仍需大量工作来开发能够综合考虑细胞中生物机制所有可用数据的表示和分析方法，以提高我们识别生物学模式和做出可检验的生物学系统预测的能力。除本章已涵盖的内容外，分子相互作用与通路领域还存在许多其他主题，例如数学通路建模（Bower and Bolouri 2001）、蛋白质与蛋白质以及蛋白质与小分子的分子对接（Ofran and Rost 2003），以及遗传相互作用（Boone et al. 2007）。

致谢

作者感谢 Anton Enright 共同撰写了本书上一版中本章的内容。

网络资源

资源名称	URL
BioCyc	biocyc.org
BioGRID	thebiogrid.org
BioPAX	www.biopax.org
Cytoscape	www.cytoscape.org
GeneMANIA	genemania.org
g:Profiler	biit.cs.ut.ee/gprofiler
Human Protein Reference Database (HPRD)	www.hprd.org
IntAct	www.ebi.ac.uk/intact
The Kyoto Encyclopedia of Genes and Genomes (KEGG)	www.genome.jp/kegg/kegg2.html
Pathguide	www.pathguide.org
Proteomics Standards Initiative–Molecular Interactions (PSI-MI)	www.psidev.info/groups/molecular-interactions
Reactome	reactome.org
Systems Biology Graphical Notation (SBGN)	sbgn.github.io/sbgn
Systems Biology Markup Language (SBML)	sbml.org
STRING	string-db.org

参考文献

Akiva, E., Brown, S., Almonacid, D.E. et al. (2014). The structure-function linkage database. Nucleic Acids Res. 42 (Database issue): D521–D530.

Alon, U. (2007). Network motifs: theory and experimental approaches. Nat. Rev. Genet. 8 (6): 450–461.

Ashburner, M., Ball, C.A., Blake, J.A. et al. (2000). Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat. Genet. 25 (1): 25–29.

Assenov, Y., Ramirez, F., Schelhorn, S.E. et al. (2008). Computing topological parameters of biological networks. Bioinformatics 24 (2): 282–284.

Bader, G.D. and Hogue, C.W. (2002). Analyzing yeast protein-protein interaction data obtained from different sources. Nat. Biotechnol. 20 (10): 991–997.

Bader, G.D. and Hogue, C.W. (2003). An automated method for finding molecular complexes in large protein interaction networks. BMC Bioinf. 4 (2).

Bader, G.D., Cary, M.P., and Sander, C. (2006). Pathguide: a pathway resource list. Nucleic Acids Res. 34 (Database issue): D504–D506.

Barabasi, A.L. and Oltvai, Z.N. (2004). Network biology: understanding the cell's functional organization. Nat. Rev. Genet. 5 (2): 101–113.

Bindea, G., Mlecnik, B., Hackl, H. et al. (2009). ClueGO: a Cytoscape plug-in to decipher functionally grouped gene ontology and pathway annotation networks. Bioinformatics 25 (8): 1091–1093.

Bollobás, B. (1998). Modern Graph Theory. New York, NY: Springer.

Boone, C., Bussey, H., and Andrews, B.J. (2007). Exploring genetic interactions and networks with yeast. Nat. Rev. Genet. 8 (6): 437–449.

Bower, J.M. and Bolouri, H. (2001). Computational Modeling of Genetic and Biochemical Networks. Cambridge, MA: MIT Press.

Braun, P., Tasan, M., Dreze, M. et al. (2009). An experimentally derived confidence score for binary protein-protein interactions. Nat. Methods 6 (1): 91–97.

Brown, K.R. and Jurisica, I. (2007). Unequal evolutionary conservation of human protein interactions in interologous networks. Genome Biol. 8 (5): R95.

Caspi, R., Billington, R., Fulcher, C.A. et al. (2018). The MetaCyc database of metabolic pathways and enzymes. Nucleic Acids Res. 46 (D1): D633–D639.

Cerami, E.G., Gross, B.E., Demir, E. et al. (2011). Pathway commons, a web resource for biological pathway data. Nucleic Acids Res. 39 (Database issue): D685–D690.

Chatr-Aryamontri, A., Oughtred, R., Boucher, L. et al. (2017). The BioGRID interaction database: 2017 update. Nucleic Acids Res. 45 (Database issue): D369–D379.

Cormen, T.H. (2001). Introduction to Algorithms. Cambridge, MA: MIT Press.

Dandekar, T., Snel, B., Huynen, M., and Bork, P. (1998). Conservation of gene order: a fingerprint of proteins that physically interact. Trends Biochem. Sci. 23 (9): 324–328.

Demchak, B., Otasek, D., Pico, A.R. et al. (2018). The Cytoscape Automation app article collection. F1000Research 7: 800.

Demir, E., Cary, M.P., Paley, S. et al. (2010). The BioPAX community standard for pathway data sharing. Nat. Biotechnol. 28 (9): 935–942.

Demir, E., Babur, O., Rodchenkov, I. et al. (2013). Using biological pathway data with paxtools. PLoS Comput. Biol. 9 (9): e1003194.

Eeckman, F.H. and Durbin, R. (1995). ACeDB and macace. Methods Cell Biol. 48: 583–605.

Enright, A.J., Iliopoulos, I., Kyrpides, N.C., and Ouzounis, C.A. (1999). Protein interaction maps for complete genomes based on gene fusion events. Nature 402 (6757): 86–90.

Enright, A.J., Van Dongen, S., and Ouzounis, C.A. (2002). An efficient algorithm for large-scale detection of protein families. Nucleic Acids Res. 30 (7): 1575–1584.

Evsikov, A.V., Dolan, M.E., Genrich, M.P. et al. (2009). MouseCyc: a curated biochemical pathways database for the laboratory mouse. Genome Biol. 10 (8): R84.

Fabregat, A., Jupe, S., Matthews, L. et al. (2018). The reactome pathway knowledgebase. Nucleic Acids Res. 46 (D1): D649–D655.

Franz, M., Rodriguez, H., Lopes, C. et al. (2018). GeneMANIA update 2018. Nucleic Acids Res. 46 (Web Server issue): W60–W64.

Gavin, A.C., Bosche, M., Krause, R. et al. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature 415 (6868): 141–147.

Ge, H., Liu, Z., Church, G.M., and Vidal, M. (2001). Correlation between transcriptome and interactome mapping data from Saccharomyces cerevisiae. Nat. Genet. 29 (4): 482–486.

Goenawan, I.H., Bryan, K., and Lynn, D.J. (2016). DyNet: visualization and analysis of dynamic molecular interaction networks. Bioinformatics 32 (17): 2713–2715.

Grigoriev, A. (2001). A relationship between gene expression and protein interactions on the proteome scale: analysis of the bacteriophage T7 and the yeast Saccharomyces cerevisiae. Nucleic Acids Res. 29 (17): 3513–3519.

Guitart-Pla, O., Kustagi, M., Rugheimer, F. et al. (2015). The Cyni framework for network inference in Cytoscape. Bioinformatics 31 (9): 1499–1501.

Hanahan, D. and Weinberg, R.A. (2011). Hallmarks of cancer: the next generation. Cell 144 (5): 646–674.

Hartmann, A. and Jozefowicz, A.M. (2018). VANTED: a tool for integrative visualization and analysis of -omics data. Methods Mol. Biol. 1696: 261–278.

Hartwell, L.H., Hopfield, J.J., Leibler, S., and Murray, A.W. (1999). From molecular to modular cell biology. Nature 402 (6761 Suppl): C47–C52.

Helmy, M., Crits-Christoph, A., and Bader, G.D. (2016). Ten simple rules for developing public biological databases. PLoS Comput. Biol. 12 (11): e1005128.

Hermjakob, H., Montecchi-Palazzi, L., Bader, G. et al. (2004). The HUPO PSI's molecular interaction format – a community standard for the representation of protein interaction data. Nat. Biotechnol. 22 (2): 177–183.

Ho, Y., Gruhler, A., Heilbut, A. et al. (2002). Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature 415 (6868): 180–183.

Hochberg, Y. and Benjamini, Y. (1990). More powerful procedures for multiple significance testing. Stat. Med. 9 (7): 811–818.

Hofree, M., Shen, J.P., Carter, H. et al. (2013). Network-based stratification of tumor mutations. Nat. Methods 10 (11): 1108–1115.

Hucka, M., Finney, A., Sauro, H.M. et al. (2003). The Systems Biology Markup Language (SBML): a medium for representation and exchange of biochemical network models. Bioinformatics 19 (4): 524–531.

Ideker, T. and Krogan, N.J. (2012). Differential network biology. Mol. Syst. Biol. 8: 565.

Ito, T., Tashiro, K., Muta, S. et al. (2000). Toward a protein-protein interaction map of the budding yeast: a comprehensive system to examine two-hybrid interactions in all possible combinations between the yeast proteins. Proc. Natl. Acad. Sci. U.S.A. 97 (3): 1143–1147.

Jain, S. and Bader, G.D. (2016). Predicting physiologically relevant SH3 domain mediated protein-protein interactions in yeast. Bioinformatics 32 (12): 1865–1872.

Jansen, R., Greenbaum, D., and Gerstein, M. (2002). Relating whole-genome expression data with protein-protein interactions. Genome Res. 12 (1): 37–46.

Jansen, R., Yu, H., Greenbaum, D. et al. (2003). A Bayesian networks approach for predicting protein-protein interactions from genomic data. Science 302 (5644): 449–453.

Kanehisa, M., Goto, S., Kawashima, S., and Nakaya, A. (2002). The KEGG databases at GenomeNet. Nucleic Acids Res. 30 (1): 42–46.

Karp, P.D. and Riley, M. (1993). Representations of metabolic knowledge. Proc. Int. Conf. Intell. Syst. Mol. Biol. 1: 207–215.

Karp, P.D., Riley, M., Saier, M. et al. (2002). The EcoCyc database. Nucleic Acids Res. 30 (1): 56–58.

Karp, P.D., Latendresse, M., and Caspi, R. (2011). The pathway tools pathway prediction algorithm. Stand. Genomic Sci. 5 (3): 424–429.

Keseler, I.M., Mackie, A., Santos-Zavaleta, A. et al. (2017). The EcoCyc database: reflecting new knowledge about Escherichia coli K-12. Nucleic Acids Res. 45 (Database issue): D543–D550.

Khatri, P., Sirota, M., and Butte, A.J. (2012). Ten years of pathway analysis: current approaches and outstanding challenges. PLoS Comput. Biol. 8 (2): e1002375.

Kim, M.S., Pinto, S.M., Getnet, D. et al. (2014). A draft map of the human proteome. Nature 509 (7502): 575–581.

Kotlyar, M., Pastrello, C., Pivetta, F. et al. (2015). In silico prediction of physical protein interactions and characterization of interactome orphans. Nat. Methods 12 (1): 79–84.

Kutmon, M., van Iersel, M.P., Bohler, A. et al. (2015). PathVisio 3: an extendable pathway analysis toolbox. PLoS Comput. Biol. 11 (2): e1004085.

Langfelder, P. and Horvath, S. (2008). WGCNA: an R package for weighted correlation network analysis. BMC Bioinf. 9: 559.

Le Novère, N., Bornstein, B., Broicher, A. et al. (2006). BioModels Database: a free, centralized database of curated, published, quantitative kinetic models of biochemical and cellular systems. Nucleic Acids Res. 34 (Database issue): D689–D691.

Le Novère, N., Hucka, M., Mi, H. et al. (2009). The systems biology graphical notation. Nat. Biotechnol. 27 (8): 735–741.

Li, P., Li, J., Wang, L., and Di, L.J. (2017). Proximity labeling of interacting proteins: application of BioID as a discovery tool. Proteomics 17 (20): 1–10.

Lotia, S., Montojo, J., Dong, Y. et al. (2013). Cytoscape app store. Bioinformatics 29 (10): 1350–1351.

Luck, K., Sheynkman, G.M., Zhang, I., and Vidal, M. (2017). Proteome-scale human interactomics. Trends Biochem. Sci. 42 (5): 342–354.

Mack, S.C., Witt, H., Piro, R.M. et al. (2014). Epigenomic alterations define lethal CIMP-positive ependymomas of infancy. Nature 506 (7489): 445–450.

Marcotte, E.M., Pellegrini, M., Ng, H.L. et al. (1999). Detecting protein function and protein-protein interactions from genome sequences. Science 285 (5428): 751–753.

Margolin, A.A., Nemenman, I., Basso, K. et al. (2006). ARACNE: an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context. BMC Bioinf. 7 (Suppl 1): S7.

Matthews, L.R., Vaglio, P., Reboul, J. et al. (2001). Identification of potential interaction networks using sequence-based searches for conserved protein-protein interactions or "interologs". Genome Res. 11 (12): 2120–2126.

Mayer, G., Jones, A.R., Binz, P.A. et al. (2014). Controlled vocabularies and ontologies in proteomics: overview, principles and practice. Biochim. Biophys. Acta 1844 (1 Pt A): 98–107.

Mehlhorn, K. and Näher, S. (1999). LEDA: A Platform for Combinatorial and Geometric Computing. New York, NY: Cambridge University Press.

Meldal, B.H., Forner-Martinez, O., Costanzo, M.C. et al. (2015). The complex portal – an encyclopaedia of macromolecular complexes. Nucleic Acids Res. 43 (Database issue): D479–D484.

Merico, D., Gfeller, D., and Bader, G.D. (2009). How to visually interpret biological data using networks. Nat. Biotechnol. 27 (10): 921–924.

Merico, D., Isserlin, R., Stueker, O. et al. (2010). Enrichment map: a network-based method for gene-set enrichment visualization and interpretation. PLoS One 5 (11): e13984.

Morris, J.H., Apeltsin, L., Newman, A.M. et al. (2011). clusterMaker: a multi-algorithm clustering plugin for Cytoscape. BMC Bioinf. 12 (1): 436.

Ofran, Y. and Rost, B. (2003). Analysing six types of protein-protein interfaces. J. Mol. Biol. 325 (2): 377–387.

Ouzounis, C. and Kyrpides, N. (1996). The emergence of major cellular processes in evolution. FEBS Lett. 390 (2): 119–123.

Overbeek, R., Fonstein, M., D'Souza, M. et al. (1999). The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. U.S.A. 96 (6): 2896–2901.

Pellegrini, M., Marcotte, E.M., Thompson, M.J. et al. (1999). Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. Proc. Natl. Acad. Sci. U.S.A. 96 (8): 4285–4288.

Phizicky, E.M. and Fields, S. (1995). Protein-protein interactions: methods for detection and analysis. Microbiol. Rev. 59 (1): 94–123.

Pinto, D., Pagnamenta, A.T., Klei, L. et al. (2010). Functional impact of global rare copy number variation in autism spectrum disorders. Nature 466: 368–372.

Pouliot, Y. and Karp, P.D. (2007). A survey of orphan enzyme activities. BMC Bioinf. 8: 244.

Razick, S., Magklaras, G., and Donaldson, I.M. (2008). iRefIndex: a consolidated protein interaction database with provenance. BMC Bioinf. 9: 405.

Reimand, J., Arak, T., Adler, P. et al. (2016). g:Profiler—a web server for functional interpretation of gene lists (2016 update). Nucleic Acids Res. 44 (W1): W83–W89.

Reimand, J., Isserlin, R., Voisin, V. et al. (2019). Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap. Nat. Protoc. 14 (2): 482–517.

Rinnone, F., Micale, G., Bonnici, V. et al. (2015). NetMatchStar: an enhanced Cytoscape network querying app. F1000Research 4: 479.

Rivera, M.C., Jain, R., Moore, J.E., and Lake, J.A. (1998). Genomic evidence for two functionally distinct gene classes. Proc. Natl. Acad. Sci. U.S.A. 95 (11): 6239–6244.

Rodchenkov, I., Demir, E., Sander, C., and Bader, G.D. (2013). The BioPAX validator. Bioinformatics 29 (20): 2659–2660.

Sari, M., Bahceci, I., Dogrusoz, U. et al. (2015). SBGNViz: a tool for visualization and complexity management of SBGN process description maps. PLoS One 10 (6): e0128985.

Schoenrock, A., Samanfar, B., Pitre, S. et al. (2014). Efficient prediction of human protein-protein interactions at a global scale. BMC Bioinf. 15: 383.

Schwikowski, B., Uetz, P., and Fields, S. (2000). A network of protein-protein interactions in yeast. Nat. Biotechnol. 18 (12): 1257–1261.

Shannon, P., Markiel, A., Ozier, O. et al. (2003). Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Res. 13 (11): 2498–2504.

Snel, B., Bork, P., and Huynen, M.A. (2002). Genomes in flux: the evolution of archaeal and proteobacterial gene content. Genome Res. 12 (1): 17–25.

Subramanian, A., Tamayo, P., Mootha, V.K. et al. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. U.S.A. 102 (43): 15545–15550.

Szklarczyk, D., Franceschini, A., Wyder, S. et al. (2015). STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Res. 43 (Database issue): D447–D452.

Tamames, J., Casari, G., Ouzounis, C., and Valencia, A. (1997). Conserved clusters of functionally related genes in two bacterial genomes. J. Mol. Evol. 44 (1): 66–73.

Tavazoie, S., Hughes, J.D., Campbell, M.J. et al. (1999). Systematic determination of genetic network architecture. Nat. Genet. 22 (3): 281–285.

Tien, A.C., Lin, M.H., Su, L.J. et al. (2004). Identification of the substrates and interaction proteins of aurora kinases from a protein-protein interaction model. Mol. Cell. Proteomics 3 (1): 93–104.

Tong, A.H., Evangelista, M., Parsons, A.B. et al. (2001). Systematic genetic analysis with ordered arrays of yeast deletion mutants. Science 294 (5550): 2364–2368.

Toure, V., Le Novère, N., Waltemath, D., and Wolkenhauer, O. (2018). Quick tips for creating effective and impactful biological pathways using the systems biology graphical notation. PLoS Comput. Biol. 14 (2): e1005740.

Turei, D., Korcsmaros, T., and Saez-Rodriguez, J. (2016). OmniPath: guidelines and gateway for literature-curated signaling pathway resources. Nat. Methods 13 (12): 966–967.

van Iersel, M.P., Villeger, A.C., Czauderna, T. et al. (2012). Software support for SBGN maps: SBGN-ML and LibSBGN. Bioinformatics 28 (15): 2016–2021.

Voet, D. and Voet, J.G. (2004). Biochemistry. New York, NY: Wiley.

Walhout, A.J., Boulton, S.J., and Vidal, M. (2000). Yeast two-hybrid systems and protein interaction mapping projects for yeast and worm. Yeast 17 (2): 88–94.

Wang, B., Mezlini, A.M., Demir, F. et al. (2014). Similarity network fusion for aggregating data types on a genomic scale. Nat. Methods 11 (3): 333–337.

Wu, G. and Stein, L. (2012). A network module-based method for identifying cancer prognostic signatures. Genome Biol. 13 (12): R112.

Zeeberg, B.R., Riss, J., Kane, D.W. et al. (2004). Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics. BMC Bioinf. 5: 80.

Chapter 14

Metabolomics

121

Introduction

PDF page 457-459；印刷页码待核对

▶

Ch14 Metabolomics / Introduction

引言

本书的大部分内容介绍了促进基因组学、转录组学和蛋白质组学研究所需的计算工具与数据库。换言之，所关注的主要分子对象是蛋白质、RNA 和 DNA 等大分子或巨型聚合物。那么，氨基酸、核苷酸和脂质等小分子呢？在过去十年中，越来越多的生物信息学研究者通过一个新兴的科学领域——代谢组学（metabolomics）——将目光投向了这些小分子。

代谢组学是"组学"（omics）科学的一个分支，侧重于对代谢组（metabolome）中的小分子代谢物进行全面表征。代谢组定义为在细胞、生物体液、器官或生物体中发现的所有小分子（分子量 <1500 Da）的完整集合（Wishart 2005）。这些小分子包括内源性代谢物，如短肽、氨基酸、核酸、碳水化合物、脂质、有机酸、维生素和矿物质。它们还包括外源性化学物质或异生素（xenobiotics），如食品添加剂、植物源化学物质、药物、化妆品化学成分、染料、清洁剂、污染物，以及生物体可以摄入或暴露于其中的几乎任何其他小分子化学物质。

小分子对生命至关重要。它们是细胞的砖瓦与灰浆，作为所有大分子（蛋白质、RNA 和 DNA）的构建模块参与基本细胞功能。它们还为细胞过程提供燃料，为维持细胞完整性提供屏障，为帮助细胞耐受环境压力提供缓冲，并为许多细胞内和细胞间信号传递事件充当信使。由于许多小分子代谢物由特定基因"编码"，并且它们在几乎所有细胞过程中都发挥如此关键的作用，代谢物有时被称为"基因组的金丝雀"（canaries of the genome）。正如金丝雀曾作为煤矿中有毒气体或其他问题的敏感指示器，小分子代谢物也可以作为基因组问题的极其灵敏的指示器。事实上，基因中单个碱基的改变即可导致某些代谢物浓度发生高达 10 000 倍的变化（Wishart et al. 2007）。这种非凡的灵敏性是新生儿筛查的基础——代谢物检测已被用于发现遗传缺陷（如苯丙酮尿症）达数十年之久（Levy 2010）。

代谢物水平不仅对基因组中发生的变化极其敏感，对环境中的变化也同样极其敏感。事实上，代谢物水平受到营养、活动、有害化学物质暴露、一天中的时间甚至外界温度的强烈影响（Bassini and Cameron 2014; Brown 2016）。由于代谢物是细胞内部事件（基因组）与细胞外部事件（环境）之间复杂相互作用的终产物，代谢组学方法使得对基因与环境之间相互作用的全面评估成为可能。既然生物体基因型与其环境相互作用的终产物（即基因型 × 环境）被定义为其表型，代谢组学就为科学家提供了一条理想的途径，可以实时测量生物体的表型或生理状态（Fiehn 2002）。这代表了代谢组学相对于基因组学的一个重要优势：基因组可以告诉你可能发生什么，而代谢组则能告诉你正在发生什么。

分析化学和计算数据分析技术的持续进步，正在使代谢组学对更广泛的学科领域变得更为可及。事实上，代谢组学如今已被常规用于疾病筛查、生物医学研究、药物发现、食品与营养分析、兽医学研究、作物评估、生物材料生产和环境监测（Holmes et al. 2008; Viant 2008; Kim et al. 2016; Wishart 2016）。这些代谢组学研究已取得一些引人注目的发现，例如鉴定出微生物来源的氧化三甲胺（TMAO）是动脉粥样硬化的关键驱动因素之一（Wang et al. 2011a），以及确定高血清支链氨基酸水平可以在 2 型糖尿病实际发病前 10–15 年预测谁将罹患该病（Wang et al. 2011b）。因此，代谢组学经历了迅猛增长——1999 年仅有两篇代谢组学论文发表，而到 2016 年已超过 3100 篇。

图 14.1 展示了代谢组学实验典型工作流程的示意图。首先，收集生物样品（如组织、器官、植物、细胞培养物中的细胞，甚至环境样品）。然后，使用液氮或其他快速冷冻技术对其进行代谢淬灭（metabolic quenching），随后进行提取或匀浆，以产生含有数百种代谢物的液体混合物。在大多数情况下，收集生物体液（如血液、尿液、树液或细胞培养基）要容易得多，因为这可以免去组织粉碎/提取的过程。一旦获得了合适的……

Figure 14.1 代谢组学实验典型工作流程示意图。实线框表示所有代谢组学实验中均需执行的步骤。虚线框表示依赖于样品类型的步骤。首先收集样品（如组织、器官、细胞或生物体液），然后快速"淬灭"以终止所有代谢反应。如果使用组织，则必须将样品研磨成细粉（在冷冻状态下）。随后对样品进行提取以获取代谢物，再进行分离或过滤（并非所有样品都需要分离/过滤）。此步骤之后，可通过核磁共振（NMR）、气相色谱-质谱联用（GC-MS）、液相色谱-质谱联用（LC-MS）或其他分析化学技术对样品进行分析。所得谱图随后被处理，代谢物被注释。注释后的数据使用各种统计和可视化技术进行进一步分析。最后，将代谢组学数据与其他类型的信息整合，进行进一步的生物学解释。FTIR，傅里叶变换红外光谱；MeOH，甲醇；PCA，主成分分析；PLS-DA，偏最小二乘判别分析；U/HPLC，超高效液相色谱。

122

Data Formats

PDF page 459-464；印刷页码待核对

▶

Ch14 Metabolomics / Data Formats

The user wants me to translate the Bioinformatics 4e textbook section on "Data Formats"

from Chapter 14 (Metabolomics) into Chinese textbook style. Let me carefully translate

this following their established preferences and rules.

Let me work through this section systematically, translating it into professional

Chinese textbook style while preserving all English terms, software names, database names

, URLs, and literature citations as required.The user wants me to translate the Bioinformatics 4e textbook section on "Data Formats" from Chapter 14 (Metabolomics) into Chinese textbook style. Let me carefully translate this following their established preferences and rules.

Let me work through this section systematically, translating it into professional Chinese textbook style while preserving all English terms, software names, database names, URLs, and literature citations as required.

数据格式

代谢物提取物或生物体液获得后，需要通过一种或多种分析化学平台进行检测。这些分析平台可以是配备液相色谱（LC）或气相色谱（GC）系统的质谱（MS）仪器，也可以是核磁共振（NMR）仪器。偶尔也会使用其他类型的分析工具，如傅里叶变换红外光谱仪（FTIR）或库仑阵列（电化学）系统。这些分析工具能够从复杂的化学混合物中分离、检测和表征数百甚至数千种化合物。在几乎所有情况下，NMR、GC-MS 或 LC-MS 仪器产生的谱图或色谱图都包含数百至数千个峰。因此，代谢组学的首要生物信息学挑战是拥有合适的软件工具来确定谱图中的哪些峰对应哪些化合物（即图 14.1 中的代谢物注释）。次要的生物信息学挑战是拥有合适的软件来确定哪些化合物或谱峰发生了显著变化及其原因（即图 14.1 中的数据分析与生物学解释）。

本章旨在概述进行代谢组学分析所需的生物信息学工具和数据库。全章分为六个部分：代谢组学简介、代谢组学不同数据格式的描述、主要代谢组学数据库的简要综述、代谢物鉴定或注释常用生物信息学工具的描述、多变量数据分析与可视化精选生物信息学工具的总结，以及代谢物和/或生物学解释的若干生物信息学工具的描述。希望深入了解代谢组学技术和分析工具的读者，可参阅涵盖这些主题的综述文献（Dunn et al. 2005; Wishart 2008; Naz et al. 2014）。

数据格式

代谢组学数据在本质上不同于基因组学或蛋白质组学数据。如第 1 章所述，基因组或蛋白质组学数据通常由 FASTA 格式（序列文件）或 FASTQ 格式（序列读段）的基因或蛋白质序列构成。而代谢组学数据一般由化学名称、化学标识符、化学结构及其对应的 MS 或 NMR 谱图组成。因此，代谢组学数据的大部分数据格式和格式规则归属于化学（而非分子生物学）以及化学信息学（而非生物信息学）范畴。这些化学数据标准遵循国际纯粹与应用化学联合会（IUPAC）制定的规则和建议。

在基因组学或蛋白质组学中，若鉴定出一个新基因或新蛋白质，通常根据其功能命名（例如"醇脱氢酶"）。如果功能尚不明确，也可以赋予一个完全随意的名称，如"Sonic Hedgehog"或"Reaper"。而若鉴定出一个新化合物，其正式名称则由其结构按照严格的 IUPAC 命名规则来定义。这些命名规则设计得足够完善，几乎任何化合物都可以仅凭其结构通过计算机程序自动命名。近年来，支持逆向过程（即由名称生成结构）的软件也已开发出来。若干商业软件包以及一些开放获取的软件工具和 Web 服务器（如 Openmolecules.org 和 OPSIN Web 服务器）可以执行名称到结构和结构到名称的转换操作。虽然 IUPAC 命名规范已被普遍采用，但在代谢组学中，许多化合物仍广泛使用通用名（common names）、品牌名（brand names）和同义名或俗名（trivial names）。鉴于通用名或俗名的歧义性，许多代谢组学研究者转向使用化学结构或标准化化学标识符来消除这种歧义。下面概述其中一些标识符。

---

化学表示与交换格式

代谢组学研究者可以使用多达四种不同的数据格式选项来表示化合物或化学结构：文本字符串表示、指纹表示、二维（2D）结构（或连接图）表示和三维（3D）结构表示。

文本字符串表示是代谢组学中最简单且最广泛使用的化学表示方式，主要因其紧凑性和与常见编程语言的兼容性。最常用的文本字符串格式包括 SMILES 格式（Simplified Molecular Input Line Entry System；Weininger 1988）、InChI 字符串（International Chemical Identifier）和 InChI 键（Heller et al. 2015）。这三种格式在许多代谢组学软件包和数据库中广泛使用，不过 InChI 表示的优势在于完全规范化（canonicalized，标准化），并且可以在 Web 上进行完整查询。本质上，这三种格式都使用可编程规则将化学结构转换为描述原子类型和键连接关系的简单文本字符串。例如，氨基酸 L-丙氨酸可以用 SMILES 字符串"CC@HC(O)=O"、InChI 字符串"InChI=1S/C3H7NO2/c1-2(4)3(5)6/h2H,4H2,1H3,(H,5,6)/t2-/m0/s1"和 InChI 键"InChIKey=QNAYBMKLOCPYGJ-REOHCLBHSA-N"来表示。这些文本字符串表示相当于化学领域的 FASTA 序列格式。然而，通常无法通过 SMILES 或 InChI 标识符执行化学相似性搜索。与序列相似性搜索不同，化学相似性搜索必须通过子结构匹配和指纹表示来完成。

与化学结构的文本字符串表示不同，指纹表示能够编码足够的化学子结构信息，从而允许化学相似性搜索与匹配。这些指纹作为二元化学片段描述符，能够比文本字符串匹配更快速、更精确地进行结构匹配（类似于生物信息学中的序列或结构匹配）。L-丙氨酸的 Molecular Design Limited（MDL）或 Molecular ACCess System（MACCS 166）化学指纹示例如图 14.2 所示。在该表示中，共有 166 个位（0 和 1），每一位指示某一特定结构模式在该分子中存在（1）或不存在（0）。因此，大多数现代化学数据库将指纹作为其化学相似性搜索功能的基础。最常见的指纹格式包括 MDL 键（Durant et al. 2002）、Daylight 片段表示（Daylight Solutions）以及 Chemistry Development Kit（CDK）提供的指纹（Steinbeck et al. 2006）。

虽然 ASCII（American Standard Code for Information Interchange）文本字符串和二元指纹对计算机而言是理想的，但结构图像更适合人类使用。事实上，大多数代谢组学研究者以 2D 结构来思考化学物质。由于需要生成和共享化学结构的 2D 可视化表示，已经开发了若干用于化学结构表示的数据交换格式。所有这些格式都包含化合物的组成原子、键或键类型、原子连接关系及其分子坐标等信息。最常用的 2D 结构格式是 Structure Data Format（SDF）和 Molfile（MOL）文件格式（Dalby et al. 1992）。L-丙氨酸的 2D MOL 文件格式示例如图 14.3 所示。小分子的 3D 结构也可以用 SDF 和 MOL 文件格式来表示。在许多方面，SDF 和 MOL 格式相当于用于表示蛋白质、DNA 和 RNA 结构的 Protein Data Bank（PDB）格式（Westbrook and Fitzgerald 2003）。有趣的是，PDB 格式也广泛用于表示小分子的 3D 结构。此外，通常可以使用免费的数据交换工具（如 Open Babel；O'Boyle et al. 2011）将 PDB 格式文件转换为 SDF 或 MOL 格式文件。

Figure 14.2 L-丙氨酸的 Molecular Design Limited（MDL）化学指纹示例，旁边绘制了 L-丙氨酸的结构。指纹是二元位字符串，旨在生成特定分子特征的"位模式"。指纹编码不同的分子描述符集合、结构片段、分子内的原子连接路径或不同的药效团（pharmacophores）。

Figure 14.3 L-丙氨酸二维表示的 MOL 文件示例。前几行是标识符。前三列给出了 x,y,z 坐标，其中丙氨酸氮原子的坐标为 0.6740, −0.6740, 0.0000。连接表（六个原子之间的连接关系）位于坐标列表下方。例如，原子 2（α碳）通过单键与原子 1（氮）连接，连接表记录为 2 1 1（连接表的第一行）。同样，原子 4（羰基碳）通过双键与原子 6（氧原子）连接，连接表最后一行记录为 4 6 2。

---

谱图表示与交换格式

除了明确的名称、文本表示和 2D（或 3D）结构之外，大多数小分子还需要关联特定的"参照性" NMR 或 MS 谱图。这些参照谱图不仅为化合物的存在提供实验证据，还提供一种独特且通常易于解读的信号特征，可在含有许多化合物的生物样本的复杂谱图中清晰地鉴定该化合物。谱图数据在代谢组学领域的重要性不可低估。事实上，在大多数代谢组学实验中，感兴趣的代谢物最终必须通过参照谱图库的谱图匹配来鉴定。这些谱图库包含数千条经过精心收集的单一、高纯度化合物的谱图。然而，为了使谱图匹配算法正常工作，谱图库的数据格式需要与查询谱图的格式兼容。幸运的是，现在已有多种用于存储、查询和共享 NMR 和 MS 谱图数据的通用数据交换格式。

历史上，交换小分子 NMR 和 MS 谱图数据的"官方"格式称为 JCAMP-DX，即 Joint Committee on Atomic and Molecular Physical Data eXtension。该数据格式由原子与分子物理数据联合委员会在 1980 年代开发（McDonald and Wilks 1988）。然而，JCAMP-DX 现已相当过时，正被多种更现代的可扩展标记语言（XML）格式所取代。这些格式包括：较为通用的 Chemical Markup Language（CML）（Kuhn et al. 2007）；用于处理质谱数据的 mzML（Deutsch 2017）；以及用于处理 NMR 谱图数据的 nmrML（Schober et al. 2018）。L-丙氨酸 nmrML 数据文件的一部分示例如图 14.4 所示。

Figure 14.4 L-丙氨酸的 nmrML 数据文件示例。实际文件长达数百行，包含 L-丙氨酸核磁共振（NMR）谱图的数字（字节格式）表示。nmrML 格式的价值在于头部信息，其中提供了关于 NMR 谱图采集和处理方式的丰富数据。

这些较新的谱图数据格式能够捕获更多元数据（metadata，即关于数据的数据），并能更好地反映 MS 和 NMR 光谱学的最新技术发展和现有需求。这些标记语言格式也专门针对代谢组学研究者的需求而设计，可用于捕获更多信息并注释纯化合物参照谱图以及复杂生物体液混合物的谱图。

---

分子编辑器

如第 12 章所述，拥有合适的工具来可视化和编辑蛋白质、DNA 和 RNA 等大分子结构对于理解其功能、结合位点、作用机制、进化和整体架构至关重要。对小分子而言也是如此。由于代谢物结构比蛋白质或 RNA 结构小得多，通常可以使用一类称为"分子编辑器"（molecular editor）的软件程序手工绘制代谢物。分子编辑器不仅允许用户绘制结构，还允许用户交互式地编辑、操控和可视化化学结构。它们通常支持一种或多种标准文件格式（如 MOL 或 SDF）的读写和/或行记法（如 SMILES 或 InChI）的处理。所有分子编辑器都能显示 2D 化学结构，部分还支持 3D 化学结构和 3D 数据格式（如 PDB 或 PDBx/mmCIF）的转换与显示。大多数分子编辑器设计有大型中央绘图画布和专用面板或结构图标，允许用户选择、拖拽并放置子结构、原子或键到画布中。许多编辑器还允许将结构文件或 SMILES 文本字符串拖入绘图画布，即时将其渲染为结构以便进一步查看、操控或保存。表 14.1 提供了部分免费可用的分子编辑器和可视化工具列表。其中一些是独立程序，另一些则以 Web 应用形式提供。无论选择哪种程序，学会使用至少一款高质量分子编辑器对任何在代谢组学实验室工作的人来说都是必不可少的。

Table 14.1 免费可用的分子编辑器与可视化工具列表

程序名称	供应商或参考文献	平台	功能
ACD/ChemSketch	ACD/Labs	Windows, macOS (VM)	2D 绘制、编辑、性质计算、logP 预测、结构命名
Avogadro	Hanwell et al. (2012)	Windows, macOS, Linux, 开源	3D 绘制、编辑、3D 可视化
HTML5 Molecular Editor	MolSoft	所有平台, JavaScript	2D 绘制、编辑
JChemPaint	Krause et al. (2000)	Windows, macOS, Linux, 开源	2D 绘制、编辑、反应绘制
JME and JSME Molecule Editor	Ertl (2010), Bienfait and Ertl (2013)	所有平台, Java applet, JavaScript	2D 绘制、编辑
Jmol and JSmol	Hanson et al. (2013)	所有平台, Java applet, JavaScript	3D 绘制、可视化
KnowItAll Academic	Bio-Rad	Windows	2D 绘制、编辑、反应绘制、谱图分析、性质计算
MarvinSketch	ChemAxon	所有平台, Java applet	2D 绘制、编辑、反应绘制
XDrawChem	www.woodsidelabs.com/chemistry/xdrawchem.php	Windows, macOS, Linux, 开源	2D 绘制、编辑、性质预测、NMR 和 IR 谱预测、3D 结构生成

2D，二维；3D，三维；IR，红外；NMR，核磁共振。

---

谱图查看器

在代谢组学领域，化学谱图与化学结构同样重要。因此，拥有合适的工具来显示、注释和操控谱图对代谢组学的发展尤为重要。许多高质量的谱图查看工具随现代 MS 或 NMR 仪器一起销售。此外还有众多独立的第三方商业谱图查看/操控软件供应商。因此，专门用于查看红外（IR）、MS 和 NMR 谱图的免费独立程序相对较少。许多商业工具使用各自供应商的专有格式，但几乎所有谱图查看工具也支持一种通用谱图交换格式——JCAMP-DX（或 *.jdx）格式。两个使用 JCAMP-DX 的免费谱图查看工具是 JCAMP-DX Data Viewer 和 JDXview（见 Internet Resources），它们仅兼容 Windows 操作系统。一个开源 Java 版本 JSpecView 也已开发（Lancashire 2007），目前已成为 JSmol 的一部分。JSpecView（和 JSmol）是易于使用的、跨平台的谱图查看、注释和操控工具。

虽然兼容 JCAMP-DX 的查看器仍然主导该领域，但也有推动开发能够处理更现代数据格式（如 mzML 和 nmrML）的化学谱图可视化与编辑工具的趋势。其中两个较知名的免费工具包括 mMass（Niedermeyer 2016）——一个质谱处理工具，以及 JSpectraViewer（见 Internet Resources）——一个 NMR 谱图分析工具。mMass 是一个可下载的跨平台软件包，支持 mzML、mzXML 和 mzData 格式的读写，不仅允许质谱可视化和注释，还支持谱图平滑、基线校正、峰拾取（peak picking）和谱图去卷积（deconvolution）。JSpectraViewer 是一个基于 Web 的 JavaScript 工具，允许一维（1D）NMR 谱图的可视化和注释，以及傅里叶变换、相位校正、平滑、基线校正和峰标注。L-丙氨酸的 JSpectraViewer 截图如图 14.5 所示。JSpectraViewer 已与 Bayesil Web 服务器（Ravanbakhsh et al. 2015）集成，以支持各种生物体液的自动化 NMR 谱图去卷积分析。Web 化的结构和谱图查看工具或应用（如 Jmol、MarvinView 和 JSpectraViewer）的可用性，也在积极影响多个代谢组学数据库所提供的可用性和可视化功能。

123

Databases

PDF page 464-471；印刷页码待核对

▶

Ch14 Metabolomics / Databases

The user wants me to translate a section from Bioinformatics 4e textbook (Chapter

14, Metabolomics / Databases) into Chinese textbook style. Let me carefully translate this

while following all the specified rules.

Let me work through this systematically, translating each part while preserving English terms

, database names, software names, URLs, and literature citations.

I need to be very careful with:

Preserving all English terms, database/software names
Keeping Figure/Table/Box numbering and titles
Translating Table 14.2 content
Keeping references in English
Not adding facts not in the original
Professional textbook style in Chinese

Let me translate this section carefully.

For Table 14.2, I need to translate the column headers and content descriptions, while

keeping database names, references, and abbreviations in English.

Let me produce the full translation now.The user wants me to translate a section from Bioinformatics 4e textbook (Chapter 14, Metabolomics / Databases) into Chinese textbook style. Let me carefully translate this while following all the specified rules.

Let me work through this systematically, translating each part while preserving English terms, database names, software names, URLs, and literature citations.

I need to be very careful with:

Preserving all English terms, database/software names
Keeping Figure/Table/Box numbering and titles
Translating Table 14.2 content
Keeping references in English
Not adding facts not in the original
Professional textbook style in Chinese

Let me translate this section carefully.

For Table 14.2, I need to translate the column headers and content descriptions, while keeping database names, references, and abbreviations in English.

数据库

数据库是生物信息学的基石。如果没有 GenBank、UniProt 或 PDB 这样的数据库，基因组学或蛋白质组学领域就不会存在。同样，如果没有专门的代谢组学数据库，代谢组学领域也不会存在。在过去十年中，许多高质量的代谢组学或化合物数据库已被开发出来，以满足代谢组学界日益增长的数据需求。这些数据库包括：Human Metabolome Database (HMDB; Wishart et al. 2007)、PubChem (Wheeler et al. 2006)、Chemical Entities of Biological Interest database (ChEBI; Hastings et al. 2013)、LIPID MAPS (Fahy et al. 2007)、METLIN (Tautenhahn et al. 2012)、Kyoto Encyclopedia of Genes and Genomes (KEGG; Kanehisa et al. 2014)、MetaboLights (Haug et al. 2013) 以及 Toxic Exposome database (Wishart et al. 2015)。这些数据库可大致分为四类：化合物数据库、光谱数据库、代谢通路数据库和物种特异性代谢组学数据库。Table 14.2 详细列出了各类别中的主要数据库及其内容简介。以下将对这些数据库的性质与内容作更详细的说明。

化合物数据库

化合物数据库是可搜索的化学名称和结构数据库，旨在尽可能广泛地覆盖已知化学"空间"。一般而言，化合物数据库更注重覆盖广度而非深度。鉴于其庞大体量，几乎所有现代化合物数据库都支持名称/文本搜索，以及用于结构相似性搜索的化学子结构或指纹匹配。世界上最大的公共化合物数据库是 PubChem (Wheeler et al. 2006)，由美国国家生物技术信息中心 (NCBI) 维护。PubChem 是一个归档型数据库，包含来自许多不同组织、实验室和公司提交的数据——最新统计已超过 350 家。目前，PubChem 包含超过 8000 万个独特化合物。每个条目包含化学结构信息、名称、同义词和标识符、物理性质以及供应商或来源信息。如有可用数据，PubChem 条目还包括药物与用药信息、用途与制造数据、安全数据、毒性信息、文献引用、通路数据和生物分子相互作用，以及化学分类信息。Figure 14.6 展示了 PubChem 数据库的一组截图。PubChem 与 PubMed 有广泛链接，许多 PubChem 化合物通过 PubMed 摘要提供了其生物活性的描述。鉴于其规模、可访问性和高标准，PubChem 在代谢组学研究者中尤为流行。然而，必须牢记的是，PubChem 中发现的化学物质中，真正属于生物化合物的不到 0.1%。

Figure 14.5 L-alanine 的 JSpectraViewer 图像。JSpectraViewer 是一个 Java 小程序，也嵌入在 Human Metabolome Database 中。它正在显示 Figure 14.4 中所示的 nmrML 文件。

Table 14.2 开放访问的化学、光谱、通路与代谢组学数据库列表

数据库名称	数据库类型	参考文献	内容
PubChem	化合物数据库	Wheeler et al. (2006)	9100 万化合物、名称、化学性质、检测数据、标识符
ChemSpider	化合物数据库	Williams (2008)	5000 万+化合物、光谱、名称、标识符
LIPID MAPS	化合物数据库	Fahy et al. (2007)	40 000+脂质结构、命名、分类
ChEBI	化合物数据库	Hastings et al. (2013)	52 000 化合物、命名、本体
KNApSAcK	化合物数据库	Nakamura et al. (2013)	50 000+化合物、111 000物种归属
NMRShiftDB	光谱数据库	Steinbeck and Kuhn (2004)	43 000+化合物及 NMR 光谱
BioMagResBank	光谱数据库	Markley et al. (2008)	900+化合物及 NMR 光谱、4000 NMR 光谱
Human Metabolome Database (HMDB)	光谱数据库及代谢组学数据库	Wishart et al. (2007)	42 000 人类化合物、105 000 MS 光谱、3800 NMR 光谱
MassBank of North America (MoNA)	光谱数据库	Kind et al. (2017)	61 000+化合物、211 000 MS 光谱
METLIN	光谱数据库	Tautenhahn et al. (2012)	200 000+化合物、10 000+化合物 MS/MS 数据
Golm Metabolome DB	光谱数据库	Kopka et al. (2005)	26 000+光谱，2200+代谢物
CFM-ID	光谱数据库	Allen et al. (2014)	100 000+化合物 300 000+预测 MS 光谱
Kyoto Encyclopedia of Genes and Genomes (KEGG)	通路数据库	Kanehisa et al. (2014)	18 000+化合物、512代谢通路、4600物种
Reactome	通路数据库	Croft et al. (2011)	2100+人类蛋白质与代谢物通路
WikiPathways	通路数据库	Kelder et al. (2012)	2400+蛋白质与代谢物通路
Small Molecule Pathway Database (SMPDB)	通路数据库	Jewison et al. (2014)	724 人类代谢物通路
MetaCyc, BioCyc databases	通路数据库	Karp et al. (2000)	2800+物种的 2500+代谢物通路
MetaboLights	代谢组学数据库	Haug et al. (2013)	2000+物种的 24 000+代谢物、400+研究
Metabolomics Workbench	代谢组学数据库	Sud et al. (2016)	25物种的 60 000+代谢物、300+研究
Yeast Metabolome Database (YMDB)	代谢组学数据库	Jewison et al. (2012)	16 000+代谢物、30 000+ MS 与 NMR 光谱
Toxic Exposome Database (T3DB)	代谢组学数据库	Wishart et al. (2015)	3600+化合物、11 000+ MS 与 NMR 光谱

DB, database; MS, mass spectrometry; NMR, nuclear magnetic resonance.

在工业制造中使用过或曾释放到环境中的化合物更是少之又少。这意味着，在 PubChem 中搜索代谢组学或暴露评估实验的化合物匹配，将导致 99.9% 的假阳性率。

当然，PubChem 并非唯一可公开访问的化合物数据库。其他更专业化的化合物数据库也存在。这些数据库通常包含 PubChem 不常收录的不同类型的数据。

(a)

(b)

Figure 14.6 PubChem 网页上分子 L-alanine 的两幅截图。(a) 大多数 PubChem 条目中可见的头部数据。(b) 为 L-alanine 收集的生物分子相互作用数据。PubChem 中 L-alanine 的实际条目还包含许多其他图像、超链接、化学/生物描述符和参考文献。

例如，ChemSpider (Williams 2008) 是一个备受好评的开放访问化合物数据库，包含超过 3000 万化合物。它以精心整理的化学同义词集合和丰富的光谱数据集合而闻名。然而，与 PubChem 类似，ChemSpider 中绝大多数化合物不是生物化合物，也不存在于环境中。其他值得关注的数据库包括 LIPID MAPS (Fahy et al. 2007)，一个包含超过 30 000 种生物脂质的综合性数据库；ChEBI (Hastings et al. 2013)，一个包含 40 000+ 生物相关化合物的数据库；以及 KNApSAcK (Nakamura et al. 2013)，一个包含近 30 000 种植物次生代谢物的数据库。LIPID MAPS、ChEBI 和 KNApSAcK 是较小的天然产物数据库的典型代表，对代谢组学研究者而言，它们通常比 PubChem 或 ChemSpider 更有用。

光谱数据库

光谱数据库主要包含纯化合物的实验性一维 NMR、电子轰击离子化 (EI)-MS 或电喷雾离子化 (ESI) 串联质谱 (MS/MS) 光谱。这些参考光谱集合对于化合物鉴定或确认化合物身份至关重要。这种鉴定过程在代谢组学中尤为重要。虽然 Wiley、Aldrich、ACD/Labs 和 Bio-Rad 等公司出售若干优秀且非常全面的商业光谱库，但也有越来越多的免费开放访问光谱数据库。其中许多资源支持子光谱峰搜索或全局光谱匹配，以及标准文本查询。

开放访问的参考性 1H 和 13C NMR 光谱（在不同 NMR 场强下）可在 NMRShiftDB 和 NMRShiftDB2 (Steinbeck and Kuhn 2004)、BioMagResBank (Markley et al. 2008) 和 HMDB (Wishart et al. 2007) 中找到。NMRShiftDB2 包含超过 40 000 种化合物的近 52 000 条 1H 和 13C 光谱。遗憾的是，这些光谱中的大多数 (>90%) 并非来自生物化合物（即代谢物），而且大多数并非在水溶液中采集（水是大多数代谢组学实验的标准溶剂）。这种溶剂差异会导致化学位移和光谱峰的差异，使得通过光谱匹配进行化合物鉴定变得有一定困难。BioMagResBank 和 HMDB 包含约 1000 种常见代谢物的数千条高场 (400–700 MHz) NMR 光谱。几乎所有这些光谱都来自已知代谢物，且几乎全部在水溶液中采集。虽然目前可用于代谢组学的参考 NMR 光谱数量令人印象深刻，但与目前已公开可用的 EI-MS 或 ESI-MS/MS 光谱数量相比，这个数字就显得微不足道了。数十万条 ESI-MS/MS 和 EI-MS 光谱可通过 NIST（由美国国家标准与技术研究院维护的 MS 数据库）、MassBank of North America (MoNA; Kind et al. 2017)、MzCloud、METLIN (Tautenhahn et al. 2012) 和 Golm Metabolome Database (Kopka et al. 2005) 进行访问、查看和搜索。MoNA 是代谢组学的重要资源，包含来自 80 000 多种不同代谢物的超过 190 000 条实测和预测光谱。MoNA 还支持用户提交实测的 MS 和 MS/MS 光谱。Figure 14.7 展示了 MoNA 中 L-alanine 条目的一组截图。

使用这些 MS 数据库光谱的挑战在于，每种化合物通常由数十条不同的 MS 光谱表示，这些光谱是在不同的 MS 仪器上、在不同离子化条件或不同碰撞能量下、或经不同化学修饰后采集的。因此，虽然实验采集的 MS 光谱数量庞大，但这一多样化集合所代表的独特（母体）化合物实际数量可能不到 30 000。这只占已知或预期代谢物的一小部分（可能 <15%），而后者据估计超过 200 000 (Psychogios et al. 2011)。鉴于实验采集的 MS/MS 或 EI-MS 光谱严重短缺，且现有 MS 数据库在短期内不太可能有显著扩展，一些研究者已开始使用计算工具来预测 MS/MS 和 EI-MS 光谱，预测精度令人瞩目 (Allen et al. 2015, 2016)。许多这类 in silico MS 光谱现已可通过 Competitive Fragmentation Modeling and Identification (CFM-ID) 数据库 (Allen et al. 2014) 获取。无论 MS 光谱是实验采集的还是计算预测的，MS 数据库通过与 MS 光谱处理工具的整合，在化合物鉴定和化合物确认中发挥着日益重要的作用。

(a)

(b)

Figure 14.7 MassBank of North America (MoNA) 中 L-alanine 的气相色谱-质谱联用 (GC-MS) 数据页面的两幅截图。(a) 化合物查询的典型结果页面。(b) L-alanine 的展开 GC-MS 光谱。

代谢通路数据库

代谢通路数据库提供一组集中的通路示意图，描绘当前关于细胞、组织或生物体内代谢过程（即分解代谢、合成代谢或信号传导过程）的知识状态。从这个意义上讲，代谢

通路数据库在代谢组学数据的生物学解释和可视化中发挥着关键作用。一些最受欢迎的小分子通路数据库包括基于 Web 的资源，如 KEGG (Kanehisa et al. 2014)、Reactome database (Croft et al. 2011)、"Cyc" 系列数据库 (Karp et al. 2000)、WikiPathways (Kelder et al. 2012) 和 Small Molecule Pathway Database (SMPDB; Jewison et al. 2014)。此外还有一些商业通路数据库，如 BioCarta、TransPath（来自 BioBase, Inc.）和 Ingenuity Pathway Analysis（来自 Ingenuity Systems, Inc.）。

大多数代谢通路数据库的设计旨在促进跨多种物种的代谢和代谢物探索。这在增进我们对代谢诸多方面的演化与保守性的理解方面发挥了关键作用。覆盖物种范围广泛的通路数据库，如 KEGG 和 Reactome，倾向于使用非常通用且高度简化的通路图；而更具物种特异性的数据库，如 SMPDB，倾向于使用更丰富、更有细节色彩和内容的通路图。大多数通路数据库支持交互式图像映射，带有超链接信息内容，允许用户查看化学信息（点击化合物时）或基因/蛋白质简要摘要（点击蛋白质或酶时）。几乎所有通路数据库都支持某种有限的文本搜索，少数数据库如 Reactome、SMPDB 和 Cyc 系列数据库支持将基因、蛋白质和/或代谢物表达数据映射到通路图上。大多数通路数据库还以常见的机器可读数据交换格式提供其通路数据，如 BioPAX (Demir et al. 2010)、Systems Biology Markup Language (Hucka et al. 2003) 或 Systems Biology Graphical Notation Markup Language (van Iersel et al. 2012)。其他数据库，如 KEGG，则有自己独特的数据交换格式（称为 KGML 或 KEGG Markup Language）。更多关于通路数据库的信息可在第 13 章找到。

物种特异性代谢组学数据库

现代代谢组学数据库通常将化合物数据库、光谱数据库和通路数据库的所有功能整合到单一资源中。换言之，综合性代谢组学数据库必须是"一站式"资源，支持特定物种代谢组学研究的几乎所有环节。历史上，大多数代谢组学研究者对光谱或化合物数据库的需求如此迫切，以至于他们并不太关心数据来源于哪个物种。然而，如果不适当考虑所研究的物种，许多代谢组学发现和初步化合物鉴定很可能是不正确的。

目前有六个广泛使用的综合性代谢组学数据库。其中两个是代谢组学数据提交的归档资源，四个是精心整理的参考性数据库，旨在覆盖特定物种或特定环境的代谢组。两个归档数据库是 Metabolomics Workbench (Sud et al. 2016)，由加州大学圣地亚哥分校维护，以及 MetaboLights (Haug et al. 2013)，由欧洲生物信息学研究所 (EBI) 运行。MetaboLights 和 Metabolomics Workbench 是代谢组学领域对应于 GenBank 或 PDB 数据库的等效资源。两者都接受原始和经处理的代谢组学数据，并都支持代谢组学数据分析。两者还从提交的数据（及其他外部资源）中挖掘信息，提供参考性数据，如化合物结构、化合物名称、化合物浓度（如可用）和单个代谢物的光谱信息。这一"参考层"对代谢组学研究者具有重大价值，因为它提供了比较和确认初步化合物鉴定所需的数据。它还允许研究者开发代谢组学研究预测工具，并进行大规模代谢比较。

另一组精心整理的参考性代谢组学数据库包括 Human Metabolome Database (HMDB; Wishart et al. 2007)、E. coli Metabolome Database (ECMDB; Guo et al. 2013)、Yeast Metabolome Database (YMDB; Jewison et al. 2012) 和 Toxic Exposome Database (T3DB; Wishart et al. 2015)。HMDB 是一个综合性

在线资源，包含关于人体中所有已知或预期的小分子代谢物的参考性信息。数据库包含四种类型的数据：化学数据、光谱数据、临床数据和分子生物学/生物化学数据。Figure 14.8 展示了 HMDB 的一组截图。该数据库最新版本包含超过 114 000 种化合物、5700 个蛋白质靶标、酶或转运蛋白、>18 000 条浓度数据、>45 000 通路图和 >330 000 条 MS/NMR 光谱（包括实验和预测光谱）。HMDB 还具有丰富的光谱与质量匹配工具以辅助化合物鉴定，以及文本、序列和化学结构搜索工具。HMDB 中的许多化合物是内源性代谢物，但大约四分之一的条目实际上来源于人类消费的食品（包括生鲜和加工食品）。另有 3% 的化合物来源于药物和药物代谢物。

ECMDB 和 YMDB 在结构、设计和内容上与 HMDB 相似。然而，Escherichia coli 和 Saccharomyces cerevisiae 是比人类更简单的生物，基因组更小、代谢过程更不复杂。因此，这些数据库中的信息量显著较少。具体而言，ECMDB 仅包含 3700 种化合物的数据，而 YMDB 包含不到 12 000 种化合物的数据。然而，对微生物代谢的了解远多于对人类代谢的了解。因此，ECMDB 有近 1600 条图示代谢通路，覆盖了近 90% 的代谢组；相比之下，HMDB 有 25 000 条通路，仅覆盖了人类代谢组的 20%。

与其他代谢组学数据库不同，T3DB 是一个暴露组数据库。暴露组 (exposome) 指的是一个生物体在其一生中可能接触的化学物质（主要是毒性或异源物质）的集合 (Wild 2005)。从这个意义上讲，T3DB 包含关于毒性环境化学物质的综合信息，如除草剂、杀虫剂、污染物，以及某些内源性毒素，如尿毒症毒素（干扰肾脏功能）或肿瘤代谢物 (oncometabolites，与癌症相关)。因此，T3DB 并非物种特异性数据库，而是环境特异性数据库。T3DB 中大多数关注的化学物质可在（或影响）人类、其他哺乳动物、爬行动物、两栖动物、鱼类、昆虫和植物中发现。T3DB 还包含关于生物靶标、结合常数、毒性机制和毒性浓度的详尽数据。所有这些物种特异性代谢组学数据库都配备了光谱和质量匹配软件以辅助化合物鉴定，以及文本、序列和化学结构搜索工具。

代谢物鉴定的生物信息学

绝大多数代谢组学实验以病例-对照研究的形式开展，旨在鉴定疾病的因果或预测性生物标志物。在代谢组学病例-对照研究中，对一定数量 (10–1000) 的正常或健康对照样本和近乎等量的"病例"（患病、经处理、受扰动）样本采集 NMR 和/或 MS 数据。在某些情况下，可能有两个或更多病例组。比较两组（或多组）并寻找区分各组的重要差异，通常是这类病例-对照研究的主要目标。无论研究如何设计，典型的代谢组学实验几乎总是会生成大量 MS 或 NMR 光谱数据（通常达数 GB）。分析和解释代谢组学数据的过程实际上与分析或解释转录组学（微阵列或 RNA-seq）数据或蛋白质组学数据的过程非常相似。这三种方法都需要：将原始数据转化为"特征"列表；使用多元统计将特征列表缩减为显著特征的

124

Bioinformatics for Metabolite Identification

PDF page 471-479；印刷页码待核对

▶

Ch14 Metabolomics / Bioinformatics for Metabolite Identification

The user wants me to translate a section from the Bioinformatics 4e textbook (Ch14 Met

abolomics / Bioinformatics for Metabolite Identification) into Chinese textbook style

. Let me carefully translate the entire text following the specified requirements

Let me go through the text systematically and translate it accurately.The user wants me to translate a section from the Bioinformatics 4e textbook (Ch14 Metabolomics / Bioinformatics for Metabolite Identification) into Chinese textbook style. Let me carefully translate the entire text following the specified requirements.

代谢物鉴定的生物信息学

在线资源，包含人类已知或预期的小分子代谢物的参考信息。该数据库包含四种类型的数据：化学数据、光谱数据、临床数据以及分子生物学/生物化学数据。HMDB的一组截图如图14.8所示。该数据库的最新版本包含超过114,000种化合物、5,700种蛋白靶标、酶或转运蛋白、>18,000条浓度记录、>45,000张通路图以及>330,000张MS/NMR谱图（包括实验谱图和预测谱图）。HMDB还拥有丰富的光谱匹配和质谱匹配工具，以促进化合物鉴定，以及文本、序列和化学结构搜索工具。HMDB中的许多化合物是内源性代谢物，但大约四分之一的条目实际上来源于人类食用的食品（包括原料和加工食品）。HMDB中另有3%的化合物来源于药物及药物代谢物。

ECMDB和YMDB在结构、设计和内容上与HMDB类似。然而，Escherichia coli和Saccharomyces cerevisiae比人类更为简单，基因组更小，代谢过程也更不复杂。因此，这些数据库中的信息量显著较少。具体而言，ECMDB仅有约3,700种化合物的数据，而YMDB的数据不足12,000种化合物。然而，人们对微生物代谢的了解远多于人类代谢。因此，ECMDB拥有近1,600条配图代谢通路，覆盖了近90%的代谢组；相比之下，HMDB拥有25,000条通路，仅覆盖人类代谢组的20%。

与其他代谢组学数据库不同，T3DB是一个暴露组（exposome）数据库。暴露组指生物体在其一生中可能接触到的化学物质（主要是毒性物质或外源性物质）的集合（Wild 2005）。在这方面，T3DB包含关于有毒环境化学物质的全面信息，如除草剂、杀虫剂、污染物，以及某些内源性毒素如尿毒症毒素（干扰肾功能）或肿瘤代谢物（与癌症相关）。因此，T3DB不是物种特异性的数据库，而是环境特异性的数据库。T3DB中关注的大多数化学物质存在于（或影响）人类、其他哺乳动物、爬行动物、两栖动物、鱼类、昆虫和植物。T3DB还包含关于生物靶标、结合常数、毒性机制和毒性浓度的详尽数据。所有这些物种特异性的代谢组学数据库都配备光谱匹配和质谱匹配软件以促进化合物鉴定，以及文本、序列和化学结构搜索工具。

代谢物鉴定的生物信息学

绝大多数代谢组学实验以病例-对照研究的形式进行，旨在鉴定疾病的因果性或预测性生物标志物。在代谢组学病例-对照研究中，对一定数量（10–1000）的正常或健康对照样本和几乎等量的"病例"（患病、接受处理、受到扰动）样本采集基于NMR和/或MS的数据。在某些情况下，可能有两个或更多病例队列。比较两组（或更多组）并寻找区分各组的重要差异，通常是此类病例-对照研究的主要目标。无论研究如何设计，典型的代谢组学实验几乎总会产生大量的MS或NMR光谱数据（通常达数GB规模）。分析和解释代谢组学数据的过程实际上与用于分析或解释转录组学（微阵列或RNA-seq）数据或蛋白质组学数据的过程非常相似。三种方法都要求：将原始数据转换为"特征"列表，使用多变量统计将特征列表缩减为显著性特征短列表，并确定这些显著性特征如何参与各种生物通路或过程。本章后续部分将描述如何进行这三个分析步骤。本节将聚焦于与靶向和非靶向代谢组学均相关的代谢物鉴定（Box 14.1）。

---

Figure 14.8 Human Metabolome Database (HMDB) 中 L-alanine 条目的两张截图。(a) HMDB中化合物的典型metabocard条目。L-alanine的实际条目包含超过120个数据字段，涵盖该化合物的化学、生化及生物医学信息。(b) 与 L-alanine 相关的实验气相色谱（GC）和/或液相色谱-质谱联用（LC-MS）谱图列表。

---

Box 14.1 靶向与非靶向代谢组学

代谢组学有两种不同的策略。在一种策略（称为非靶向代谢组学，untargeted metabolomics）中，化合物最初并不被鉴定。相反，首先提取（未命名或未鉴定的）光谱特征或光谱峰并进行统计分析，以识别最显著的特征或峰。只有在显著特征/峰被识别之后，才尝试鉴定对应这些峰的化合物。在另一种策略（称为靶向代谢组学，targeted metabolomics）中，首先通过仔细分析峰及其位置或模式来鉴定和定量特定化合物。然后将所得的化合物及浓度列表用多变量统计分析以识别最显著的代谢物。换言之，靶向代谢组学在第一步就鉴定代谢物，而非靶向代谢组学在最后一步才鉴定代谢物——如果真的能鉴定的话（Wishart 2011）。通常，非靶向代谢组学方法用于代谢物发现和假设生成，而靶向代谢组学方法用于生物标志物发现和假设确认。

两种策略各有优缺点。非靶向代谢组学高度适合自动化，并能产生对代谢物数据的无偏评估。然而，非靶向代谢组学不太擅长提供代谢物的绝对定量，这限制了其可重复性。此外，通过非靶向代谢组学发现的许多"重要"特征不易被鉴定。事实上，非靶向代谢组学研究中检测到的液相色谱-质谱联用特征中，通常仅有<2%被鉴定（da Silva et al. 2015）。这限制了可得出的结论以及以生物学有意义的方式解释数据的能力。与非靶向代谢组学相比，靶向代谢组学聚焦于化合物鉴定和绝对定量。这使得靶向代谢组学在不同实验室间更具可重复性。另一方面，靶向代谢组学对代谢组的视角更为有限或更有偏向，因为仅测量或鉴定了某些预先选定的代谢物。典型的靶向代谢组学研究可产生50至200种化合物的定量数据。然而，随着该领域最近的进展，许多靶向研究中通常测量的代谢物数量正在增加。因此，越来越多的偏好倾向于使用靶向代谢组学而非非靶向代谢组学（Wishart 2011）。

---

代谢物鉴定的等级

并非所有代谢物都能同等程度地被鉴定——至少使用代谢组学方法不行。根据代谢组学标准倡议（Metabolomics Standards Initiative, MSI）（Sumner et al. 2007），代谢物鉴定分为四个等级：确定性鉴定化合物（等级1）、推定性鉴定化合物（等级2）、推定性鉴定为某化合物类别的化合物（等级3）和未知化合物（等级4）。确定性鉴定化合物指那些具有名称、已知结构、Chemical Abstract Services编号或InChI标识符的化学物质。要归入此类别，化合物必须在相同或近乎相同的数据采集条件下，使用纯化的真实标准品（authentic standard），通过两个独立的正交参数（至少对于MS而言）进行鉴定。这些正交参数包括：保留时间/指数 + 质谱图、精确母离子质量 + MS/MS谱图，或精确母离子质量 + 同位素丰度模式。对于NMR，与真实标准品的1H NMR谱图精确匹配（通过光谱反卷积）或与真实加标标准品的谱图匹配即可达到等级1标准。推定性鉴定化合物（等级2）指仅有一个分析测量值与真实化合物匹配（仅保留时间或仅精确母离子质量）的化合物，或其NMR谱图特别简单（一两个峰）以致其真实身份存在一定模糊性的化合物。当然，如果该化合物已知存在于所研究的生物体液或提取物中（如大量文献报告所表明），则这些推定性化合物鉴定更为可靠，可被视为"近确定性"鉴定。

化合物鉴定的第三等级是许多脂质的典型情况，其确切结构无法完全确定，但已知属于特定的脂质类别（磷脂或甘油三酯），或者已知一个模糊的化学结构（即PC(38:3)——意为一种磷脂酰胆碱，具有两条酰链，总共38个碳原子和3个不饱和键）。化合物鉴定的第四等级是"未知"类别。在代谢组学中，既有"已知未知"（known unknowns），也有"未知未知"（unknown unknowns）。"已知未知"指先前已有描述（在文献或数据库中）但在所研究样本中尚未确定性或推定性鉴定的代谢物。而"未知未知"是真正的新代谢物，从未在文献中被描述或被任何人正式鉴定（据其所知）。通常，一种化合物被标注为"未知"仅仅是因为研究者在其分析中不够彻底，或其用于化合物鉴定的软件/数据库不够充分、不完整或太小。这些未知物在技术上属于"已知未知"。在代谢组学论文、海报或报告中报告化合物时，始终建议在表格中注明每种化合物被鉴定的确切等级（1、2、3或4）。

---

基于NMR的化合物鉴定

在NMR中进行代谢物鉴定的标准方法是使用光谱反卷积（spectral deconvolution）。光谱反卷积的思路是将复杂谱图简化为各个"纯"化学成分的单独谱图。NMR中的这一过程如图14.9所示。在代谢组学中，光谱反卷积意味着将对应复杂化学混合物（如血液或尿液等生物体液）的谱图还原为其各个（纯）化学成分的谱图。该过程通常需要专门构建的光谱数据库，以及专门开发的光谱拟合软件。光谱反卷积中使用的光谱数据库应由已知或预期存在于所研究生物样本中的纯化合物参考谱图组成。这些参考谱图必须在与生物体液分析完全相同的条件（即相同的pH、相同溶剂、相同盐浓度和相同温度）下采集。

如图14.10b（下方图像）所示，典型的生物混合物的1H NMR谱图由数百至数千个尖锐峰组成。该混合物中的单个化合物平均包含10–15个不同的峰或峰簇（具有不同的强度、自旋偶合和线形），分布在NMR谱图的不同位置。通过将单个参考谱图库与观测的混合物谱图进行适当匹配和拟合，可以同时鉴定和定量混合物中的大多数化合物（Wishart 2008）。光谱反卷积对NMR特别有效的一个原因是，大多数代谢物具有独特的、几乎不变的化学位移指纹，由多个化合物特异性峰组成。与单个化合物相关的NMR峰的多重性有助于减少光谱冗余问题。换言之，在NMR中，随机选取的两个化合物不太可能具有相同数量的峰以及相同的化学位移、峰强度、自旋偶合或线形。

有多款商业软件支持NMR光谱反卷积用于代谢物鉴定，包括AMIX（Bruker）和NMR Suite（Chenomx）。两款软件包都拥有包含数百种代谢物的大型NMR光谱库。用户必须手动点击、拖拽和调整参考谱图的大小以获得良好的光谱拟合。这些软件包的新版本现在支持半自动反卷积以实现更高通量的分析。最近，Bruker推出了WineScreener和JuiceScreener软件包，可对葡萄酒、果汁甚至蜂蜜的NMR谱图进行全自动反卷积。然而，该软件必须与专门设计的NMR谱仪一起购买，这使得投资成本非常高。

除NMR光谱反卷积的商业软件包外，最近还有几款免费软件包或Web服务器可用。这些包括Bayesil（Ravanbakhsh et al. 2015）和BATMAN（Hao et al. 2014）。BATMAN是一个可下载的软件包，使用贝叶斯统计自动反卷积1D 1H NMR谱图。它可以同时鉴定和定量化合物；但要求用户在拟合过程之前手动对NMR谱图进行相位校正、化学位移参比和基线校正。这可能导致不同用户之间代谢物定量结果的显著差异。BATMAN使用的拟合算法也相当慢（需要数小时才能完成），且仅能处理20–25种化合物的混合物（排除了大多数生物体液）。另一方面，Bayesil非常快速（<2分钟）且可处理多达60种化合物的混合物。Bayesil还自动执行光谱相位校正（调整NMR峰的形状使其完全出现在基线之上）、化学位移参比（定义0.00 ppm原点）和基线校正（使基线或无峰区域完全平坦），从而确保更高的可重复性和实验室间一致性。Bayesil Web服务器支持对血清、血浆、唾液、脑脊液和粪便水在多种NMR谱仪频率（500、600、700 MHz）下的自动反卷积。Bayesil Web前端的一组截图如图14.10所示。

---

Figure 14.9 基于核磁共振（NMR）的代谢组学中光谱反卷积工作原理的简化示意图。化合物A、B和C的NMR谱图是顶部所示混合物谱图的组成部分。

---

Figure 14.10 Bayesil Web服务器的两张截图。(a) 人血清的核磁共振谱图。(b) 葡萄糖的光谱拟合（及相应的反卷积结果），在该血清样本中葡萄糖浓度被测定为4579.9 μM。

---

基于GC-MS的化合物鉴定

GC-MS和LC-MS的光谱反卷积过程如图14.11所示。从图中可以看出，来自代谢物混合物的典型GC-MS谱图或总离子色谱图（total ion chromatogram, TIC）由数十个尖锐峰（对应离子计数）组成，覆盖约30–45分钟的洗脱时间。每个峰可能包含一个或多个来自一种或多种化合物的EI（电子轰击离子化，electron ionization）质谱图（图14.11）。多种商业GC-MS反卷积工具可用于反卷积GC-MS和EI-MS谱图，如自动质谱反卷积与鉴定系统（Automated Mass Spectral Deconvolution and Identification System, AMDIS）、反卷积与报告软件-DRS（Agilent）、ChromaTOF（Leco）和AnalyzerPro（SpectralWorks）。提取EI-MS谱图后，代谢物鉴定的方式与NMR类似。即：将混合物中提取的EI-MS谱图逐个与包含数千种纯化、衍生化和验证化合物的EI-MS谱图的光谱参考库进行比较。EI-MS谱图通常由多个不同强度或丰度的m/z峰组成。与具有特征峰形和多重峰（multi-peak）模式的NMR谱图不同，MS谱图可视为对应于质量和强度的单线或细条。因此，查询MS谱图与参考MS谱图的相似性可以更简单地使用称为匹配因子（match factor, MF）的指标来评估，其定义为查询谱图和参考谱图强度的归一化、质量加权乘积，公式如下：

MF = 1000 × (∑_wM [I_qry × I_ref]^1/2)² / (∑I_qry^M × ∑I_ref^M)

其中，I_ref对应参考谱图的强度，I_qry对应查询谱图的强度，M对应质量（m/z），w为用于惩罚不确定峰的加权项（Stein 1999）。一般规则是，EI-MS谱图之间的初步匹配需要在0–1000的量表上得分>600，1000为完美匹配。

基于GC-MS的化合物鉴定有三个关键因素：提取的查询谱图质量、光谱匹配算法的质量或复杂程度，以及参考光谱数据库的质量和全面性。查询谱图的质量取决于仪器（其色谱柱、灵敏度和分离参数）以及光谱反卷积软件。假设仪器条件已优化，关键问题通常是反卷积软件的性能。与NMR中假阳性峰极其罕见不同，GC-MS经常充斥大量假阳性峰。在某些情况下，GC-MS谱图中多达50%的特征是来自色谱柱基质、衍生化试剂或代谢物本身的碎片、加合物或衍生物。一项有趣的研究（Lu et al. 2008）使用由35种浓度变化范围很大的化合物组成的定义混合物，比较了三种最常用的GC-MS反卷积软件包（AMDIS、ChromaTOF和AnalyzerPro）。这些作者发现AMDIS和ChromaTOF软件包产生了异常多的假阳性或假/不纯谱图，而AnalyzerPro软件包总体表现最佳。

最终，决定GC-MS化合物鉴定成功（或失败）的主要因素是光谱参考数据库的大小和质量。最常用和最广泛使用的资源是NIST的质谱数据库。最新版本包含近200,000种化合物或衍生化化合物的EI-MS谱图，以及另外21,800种化合物的保留指数值。然而，NIST中的大多数化合物并非代谢物或并非来自生物材料。这可能导致许多假阳性鉴定，特别是如果不使用真实标准品验证化合物身份时。其他数据库虽然规模较小，但可能更适合代谢物鉴定。这些包括Golm Database（Kopka et al. 2005）、Fiehn Metabolome Database（BinBase）和HMDB（Wishart et al. 2007）。所有这些数据库均以AMDIS兼容格式提供保留指数数据和EI-MS数据。Golm数据库主要面向植物，而BinBase和HMDB更面向哺乳动物。

---

Figure 14.11 基于气相色谱（GC）和/或液相色谱-质谱联用（LC-MS）的代谢组学中光谱反卷积工作原理的示意图。从色谱图中提取峰，然后将MS、电喷雾离子化（ESI）-串联质谱（MS/MS）或电子轰击离子化（EI）-MS谱图与已知化合物谱图库（在MS或MS/MS数据库中）进行比较以鉴定化合物。

---

基于LC-MS的化合物鉴定

如图14.11所示，来自代谢物混合物的典型LC-MS谱图由许多尖锐峰（对应离子计数）组成，覆盖约10–35分钟的洗脱时间。每个峰可能包含来自一种或多种化合物的一个或多个ESI m/z值。因此，LC-MS代谢组学研究很容易产生大量的光谱特征或推定性化合物（>10,000）。这远多于NMR或GC-MS所见。这些LC-MS特征中有许多实际上是噪声峰、色谱柱污染物、源内碎片、加合物和同位素变体。因此，LC-MS数据通常需要大量的后处理和峰整合以将峰数减少到可靠的可计数数量（优选<2000种推定性化合物）。

LC-MS数据通常还因液相色谱数据逐次运行间的变异性显著大于NMR或GC-MS数据而更加复杂。因此，通过LC-MS技术获取的代谢组学数据通常需要额外的去噪、对齐和平均处理，以确保选择和比较正确的峰。进一步的数据缩减通常使用更复杂的统计方法（将在

125

Multivariate Statistics

PDF page 479-490；印刷页码待核对

▶

Ch14 Metabolomics / Multivariate Statistics

多变量统计 459

利用母离子的精确质量测量（单独使用），也可以通过将 MS/MS 碎片模式与相应的 MS/MS 光谱库进行匹配来尝试鉴定代谢物。通过精确母离子质量（或者更准确地说，质荷比 m/z）测量进行代谢物鉴定，需要使用超高分辨质谱仪器，如 QTOF、Orbitrap 或傅里叶变换离子回旋共振（FT-ICR）质谱仪。如果母离子质量被测量到小数点后四到五位，对应质量精度 <5 ppm，通常可以通过化学式计算器确定该离子的分子式及其推定身份（level 3 鉴定）。目前有多种商业 MS 化学式计算器，包括 SigmaFit（Bruker）、Formula Predictor（Shimadzu）和 MassHunter（Agilent），以及若干免费软件包，如 7-Golden-Rules（Kind and Fiehn 2007）和 SIRIUS（Böcker et al. 2009）。通过限制代谢物中常见的元素类型（即 C、N、O、S、H 和 P），以及对氢碳比、同位素丰度和其他若干专家规则提出要求，通常可以进一步缩小可行化学式的数量，常常可缩小 15 倍或更多（Kind and Fiehn 2010）。遗憾的是，即使有了这些改进，基于母离子的代谢物鉴定仍然风险很高，因为在现有化合物数据库中，仍有许多质量或分子式可以匹配数十种代谢物。对于大多数 LC-MS 代谢组学研究者而言，首选的代谢物鉴定途径是同时使用母离子（或分子式）匹配和 MS/MS 光谱匹配。MS/MS 光谱具有特征性的碎片模式，可提供关于分子及其化学结构的重要信息。LC-MS/MS 光谱匹配的成功与否，关键在于是否有仪器特异性或条件特异性的 MS/MS 产物离子碎片库。其中许多库与前面提到的仪器配套软件捆绑在一起。另一方面，公共 MS/MS 数据库，如 METLIN（Tautenhahn et al. 2012）、MoNA 和 HMDB（Wishart et al. 2007），通常由免费软件包（XCMS、MS-DIAL 和 MZmine）用于执行 MS/MS 光谱匹配。即使拥有最好的光谱数据库和最好的光谱处理工具，通过非靶向 LC-MS 代谢组学方法，仍然很难有信心地鉴定（MSI level 2）并部分定量超过 200–300 种代谢物。靶向 LC-MS 代谢组学（使用多反应监测和同位素稀释分析）通常可以鉴定并准确定量约 150–250 种代谢物。

多变量统计

靶向代谢组学在每次样品运行中可以轻松产生数十到数百种代谢物，而非靶向代谢组学则可以轻松产生数千个特征或峰。无论使用哪种方法，代谢组学实验都会产生包含数千个变量的庞大列表——这与蛋白质组学或转录组学实验十分类似。因此，代谢组学研究者经常借助蛋白质组学或转录组学中常用的计算机工具和计算机统计分析方法。由于每个生物体液样品通常关联数百到数千个变量（即代谢物、代谢物浓度或峰值），因此必须使用的统计技术称为多变量统计（multivariate statistics）。在多变量统计中，变量被称为"维度"（dimensions）。多变量统计的主要目标之一是减少变量或维度的数量，从而使问题可以用传统的单变量统计方法更简单地处理，例如 Student t 检验或方差分析（ANOVA）技术（见第 18 章）。具体而言，多变量统计使用一类称为降维（dimensionality reduction）的数学技术，使多变量数据看起来更像单变量数据。降维使我们能够识别大型多变量数据集中包含最大信息量或最大化组间差异的关键成分。因此，降维将一长串代谢物（或基因或蛋白质）缩减为最显著的代谢物（或基因或蛋白质）的较短列表。降维最常见的形式称为主成分分析（principal component analysis, PCA）。

主成分分析

PCA 是一种无监督聚类技术。聚类是将一组对象分组的过程，使得同一组内的对象彼此之间比与其他组的对象更加相似。聚类有助于根据代谢、基因组或蛋白质组参数区分不同组别，如病例组和对照组。PCA 也称为奇异值分解（singular value decomposition）或特征向量分析（eigenvector analysis），它基于数据中的相关特征进行聚类。PCA 可以使用多种免费或近乎免费的软件程序轻松完成，如 MATLAB 或 R 编程语言（使用 R 的 prcomp 或 princomp 命令）。PCA 也可以使用可免费下载的软件包执行，如 XCMS（Smith et al. 2006）、MS-DIAL（Tsugawa et al. 2015）、MAVEN（Melamud et al. 2010）和 Galaxy-M（Davidson et al. 2016），这些软件包均常用于处理 LC-MS 数据。处理 NMR 数据可使用 MVAPACK（Worley and Powers 2014）执行 PCA。还有一些免费可用的网络服务器支持 PCA 及其他常用多变量统计技术，包括 Meta-P 服务器（Kastenmüller et al. 2011）、MeltDB（Kessler et al. 2013）和 MetaboAnalyst（Xia et al. 2015）。这些网络服务器提供易于使用的图形界面，允许用户通过简单的点击操作执行复杂的多变量统计分析，或生成彩色的交互式图表。MetaboAnalyst 在代谢组学界尤其流行，近三分之一的已发表代谢组学论文使用了这一免费网络服务器。

PCA 是一种统计方法，它为一组数据点确定最优线性变换，使得该样本的属性沿少数坐标轴（或主成分轴）最为清晰地呈现。PCA 使代谢组学研究者能够基于代谢物及其浓度的共有特征的线性组合，轻松绘制、可视化和聚类多组代谢物列表。Figure 14.12 给出了 PCA 的简化图解说明。这里我们使用手电筒在墙上投射阴影的类比来寻找某个对象的"最大信息投影"。在此例中，我们试图将一个三维对象降为一系列最大信息量的二维投影，从而使我们能够重建原始对象的适当模型。如果感兴趣的对象是一个厚环或圆环面（torus），那么将手电筒正对着环面照射，就会产生特征性的"环形"阴影。另一方面，如果手电筒对准环的边缘照射，所产生的阴影将是信息量较少的香肠状。如果单独使用这个香肠状阴影，很可能会导致观察者对对象的形状做出错误判断。然而，通过将环形阴影与香肠状阴影（即两个主成分）结合起来，就可以重建原始三维环或圆环面的形状和厚度。

Figure 14.12 使用简化的手电筒投影类比来说明主成分分析的概念。

虽然这个例子展示了三维对象如何将其关键成分缩减为二维，但 PCA 的强大之处在于它对超维（多维）对象同样适用。

PCA 在代谢组学中最常用于确定一个或多个样品是否与其他样品不同。它还可以识别哪些变量对这种差异贡献最大，以及这些变量是以相同方式（即相关）还是独立地（即不相关）起作用。PCA 特别有吸引力的原因在于它允许直观地检测样品聚类或分组。具体而言，PCA 的结果通常从得分（scores）和载荷（loadings）两个方面进行讨论。得分表示新坐标系中的原始数据，载荷是投影过程中应用于原始数据的权重。使用两组得分（一组用于 X 轴，一组用于 Y 轴）绘制数据将产生"得分图"（scores plot）。Figure 14.13 展示了使用 MetaboAnalyst 生成的三维 PCA 得分图示例（Xia et al. 2015）。

Figure 14.13 三维主成分分析（PCA）"得分"图，显示对四组饲喂不同日粮的牛的瘤胃液进行分析所获得的分离。每个主成分对解释方差的百分比贡献标注在三个轴上。

要了解该图像是如何生成的，我们简要概述其过程。首先，进入 MetaboAnalyst 主页（见 Internet Resources）。在主页顶部，选择 Click here to start，然后在 Module Overview 页面左上角点击 Statistical Analysis 按钮（Figure 14.14）。

Figure 14.14 MetaboAnalyst Module Overview 页面。该页面允许用户选择分析模块来处理或可视化其数据。

然后，在 Data Upload 页面向下滚动，在页面下半部分找到 Try our test data 部分。使用单选按钮选择第二个浓度数据集（标注为 Metabolite concentrations of 39 rumen…），然后点击页面底部的 Submit 按钮（Figure 14.15）。

Figure 14.15 MetaboAnalyst Data Upload 页面。该页面允许用户上传自己的数据或选择要使用的测试数据集。在此特定示例中，已选择 Try our test data 中列出的第二组数据。

此操作将数据集加载到 MetaboAnalyst 中。跳过数据完整性检查后，导航至 Data Normalization 页面。该页面允许用户对数据进行缩放和归一化，使其更适合标准统计分析。对于此特定数据集，在归一化选项中选择 Normalization by a pooled sample from the group，并从下拉菜单中选择 group 0。将 Data transformation 设为 None，Data scaling 保持 Auto scaling（Figure 14.16）。

Figure 14.16 MetaboAnalyst Data Normalization 页面。已选择最优的归一化和缩放操作。

点击页面底部的 Normalize 按钮，然后点击 View Result 按钮。归一化和缩放操作的结果以弹出窗口显示（Figure 14.17）。

Figure 14.17 MetaboAnalyst Data Normalization and Scaling 结果，在点击 Figure 14.16 所示 Data Normalization 页面底部的 View Result 按钮后生成。弹出窗口可以通过点击右上角的 X 关闭，也可以应用替代的归一化或缩放函数。尝试找到比文中建议的更好的缩放/归一化函数组合。

注意，之前非常"偏斜"的浓度数据（左侧）现在在右侧的分布中看起来更呈钟形（即高斯分布）。将数据变换为这种形态很重要，这样才能进行标准统计分析。查看结果后，关闭弹出窗口并点击 Proceed 按钮（Figure 14.16）。完成这些早期数据处理步骤后，就可以开始进行 PCA 分析了。

MetaboAnalyst 包含 16 种支持代谢组学数据分析的统计方法。这些统计方法分为五个类别：单变量分析（univariate analysis）、多变量分析（multivariate analysis）、显著特征鉴定（significant feature identification）、聚类分析（cluster analysis）以及分类与特征选择（classification and feature selection）。多变量方法包括 PCA 和偏最小二乘判别分析（PLS-DA）等。

要对所考虑的数据集执行 PCA，在点击 Proceed 按钮后出现的页面上（位于 Chemometrics Analysis 标题下）点击 PCA 超链接。几秒钟后，PCA 结果将呈现在一个多面板页面中。默认面板显示前五个 PC 之间的成对得分图。每个 PC 解释的方差显示在相应的对角线单元格中。点击页面顶部的 2D Scores Plot 选项卡可获得更详细的得分图，默认为 PC1-PC2（Figure 14.18）。

Figure 14.18 二维主成分分析（PCA）"得分"图，显示对四组饲喂不同日粮的牛的瘤胃液进行分析所获得的分离。每个主成分（PC）对解释方差的百分比贡献标注在两个轴上。详见正文。

这两个成分解释了样品中 >70% 的变异。我们可以看到组 0、15、30 和 45 之间的主要分离方向。组 0 和组 45 分离良好，而组 30 与组 15 和组 45 均有显著重叠。点击 3D Scores Plot 选项卡将生成 Figure 14.13 所示的图像。

在某些情况下，无论使用多少个 PC，PCA 都无法识别出任何明显的分组。如果是这种情况，明智的做法是接受该结果，并假设推定的类别或组别无法区分。一般而言，如果 PCA 分析连适度的组间分离都未能实现，那么使用其他统计技术来尝试分离它们可能也不值得。

PCA 也是量化数据中有效信息含量的非常有用的技术。这通常通过在 PCA"载荷图"（loadings plot）中绘制各成分的权重来实现。要通过 MetaboAnalyst 生成载荷图，可以使用与上述完全相同的流程，但不要点击 2D Scores Plot（生成 Figure 14.18 的选项），而应点击 Loadings Plot 选项卡，该选项卡显示 PC1 和 PC2 的载荷（Figure 14.19）。

Figure 14.19 主成分分析（PCA）"载荷"图，显示驱动 Figure 14.18 中"得分"图所见分离的最具信息量或统计显著的代谢物。详见正文。

注意，原始得分图中的分离方向是从左下到右上（对角线方向）。通过观察载荷图中位于右上和左下区域的化合物，可以识别驱动分离的最有影响力的化合物。可以通过点击图中的各个点来实现，这会在图的右上角生成一个箱线图。在此例中，位于右上方的天冬氨酸（aspartate）、异丁酸（isobutyrate）和 3-苯基丙酮酸（3-phenylpyruvate），以及位于左下方的内毒素（endotoxin）、葡萄糖（glucose）和甲胺（methylamine）是驱动此分离的关键代谢物。需要注意的是，这种显示特定代谢物身份的载荷图只有在化合物已通过靶向代谢组学方法鉴定和定量的情况下才可能实现。如果化合物在分析前未被鉴定（如非靶向代谢组学），则载荷图可用于将特征或峰列表缩小到仅少数需要鉴定的重要特征。

偏最小二乘判别分析

PCA 是可用于鉴定重要代谢物或光谱特征的众多多变量统计方法之一。另一种可用于此目的的多变量统计方法称为有监督分类（supervised classification）。有监督分类器要求在运行分析之前提供关于类别身份的信息。换言之，利用关于哪些样品属于"病例"以及哪些样品属于"对照"的先验知识来标记每个样品。有监督分类器的例子包括软独立建模类类比（Soft Independent Modeling of Class Analogy, SIMCA）、PLS-DA 和正交潜在结构投影–判别分析（Orthogonal Projection of Latent Structures – Discriminant Analysis, OPLS-DA）。所有这些技术都可用于将大量的 NMR、LC-MS/MS 和 GC-MS 代谢物列表（针对靶向代谢组学）或其对应的光谱特征（针对非靶向代谢组学）转化为短得多的、高度显著的代谢物和/或特征列表。

PLS-DA 常在 PCA 技术未产生预期聚类时使用。具体而言，PLS-DA 可用于增强 PCA 得分图中数据点之间的分离，其方式本质上是旋转 PCA 成分以使各类别之间获得最大分离。这种分离增强使我们能够更好地理解哪些变量对分离所观察到的（或表观的）类别最为重要。PLS-DA 的基本原理与 PCA 类似。然而，在 PLS-DA 中使用了第二部分信息——标记的类别身份集合。这一额外信息用于优化 PC 并训练聚类过程。形式上，PLS-DA 是 PCA 的分类扩展，它利用先验类别信息来尝试最大化测试变量与训练变量之间的协方差。

继续前面描述的 MetaboAnalyst 示例，在生成和分析 PCA 图之后，可以轻松生成 PLS-DA 图。为此，返回 MetaboAnalyst 分析页面并点击页面上的 PLSDA 超链接。注意有多个 PLS-DA 选项（regular PLS-DA、sparse PLS-DA 和 orthogonal PLS-DA），请确保选择常规版本。等待 5–10 秒让 MetaboAnalyst 完成其默认分析。结果随后呈现在多面板页面中，默认显示前五个成分的成对得分图。点击页面顶部的 2D Scores Plot 选项卡查看前两个 PLS 成分之间的得分图（Figure 14.20）。PLS-DA 获得了比 PCA（Figure 14.18）好得多的分离。由此可以对 PLS-DA 分离质量进行额外评估，方法包括置换检验或绘制下文讨论的 R2/Q2 数据。

Figure 14.20 偏最小二乘判别分析（PLS-DA）图，显示对四组饲喂不同日粮的牛的瘤胃液进行分析所获得的分离。详见正文。

使用 PLS-DA 方法时必须谨慎，因为这些分类技术可能被过度训练。也就是说，PLS-DA 可能产生看似令人信服的聚类或类别，但它们在训练数据之外不可推广（即对数据过拟合）。避免这些问题的最佳方法是在独立数据集上测试所得模型。然而，独立数据并非总能获得，因此解决过拟合问题的一个实用方法是使用 N 折交叉验证（N-fold cross-validation）方法或置换（随机重标记）方法来评估 PLS-DA 所导出的数据聚类的可推广性。许多免费可用的代谢组学软件包和网络服务器（如 MetaboAnalyst 和 Galaxy-M）可以执行这些检验。

评估 PLS-DA 模型的另一种定量方法是报告 R2 和/或 Q2 值。代谢组学网络服务器和软件包（如 MetaboAnalyst 或 SIMCA）通常同时报告 R2 和 Q2。Figure 14.21 展示了 MetaboAnalyst 生成的 R2/Q2 图示例。

Figure 14.21 MetaboAnalyst 使用正文中 MetaboAnalyst 示例所描述的牛饲喂实验相同数据生成的 R2/Q2 图示例。

R2 是相关指数，指拟合优度或解释变异（explained variation）。另一方面，Q2 指预测变异或预测质量（predicted variation）。R2 是一个定量指标（最大值为 1，最小值为 0），指示 PLS-DA 模型在数学上再现数据集中数据的能力。拟合较差的模型 R2 约为 0.2 或 0.3，而拟合良好的模型 R2 约为 0.7 或 0.8。为防止过拟合，通常还需确定 Q2（其最大值也为 1，最小值为 0）。Q2 通常通过交叉验证或置换检验来估计，以评估模型相对于 PLS-DA 模型中所用成分数的预测能力。在实践中，Q2 通常与 R2 非常接近。然而，如果 PLS-DA 模型出现过拟合，Q2 达到最大值后便会开始下降。一般而言，Q2 > 0.5 被认为是良好的，而 Q2 为 0.9 则是出色的。

从 PLS-DA 分析中，可以利用所得数据生成另一种图，称为投影变量重要性（variable importance in projection, VIP）图。Figure 14.22 展示了 VIP 图示例。用于创建此 VIP 图的数据与本节开头 PCA 和 PLS-DA 示例中使用的数据相同。每个代谢物的重要性沿 X 轴以数值表示（VIP 得分或回归系数），而代谢物名称及其排名（按重要性排序）显示在 Y 轴上。一般而言，VIP 得分大于 1.0 为显著，VIP 得分大于 2.0 为非常显著。从该图中可以看到，通过 PCA 载荷图识别出的相同显著代谢物再次通过 VIP 图被识别，天冬氨酸、异丁酸、3-苯基丙酮酸、内毒素、葡萄糖和甲胺位于 VIP 图的顶部，因此最为重要。

还有多种其他分类方法和代谢物/特征选择程序，它们使用统计方法（如 OPLS-DA）或机器学习协议（如支持向量机、随机森林技术和人工神经网络）来帮助从代谢物或光谱特征的起始列表中鉴定显著代谢物/特征。这些相同技术可以与逻辑回归或线性回归技术结合使用，以鉴定重要的代谢物生物标志物。许多此类高级分析可以通过 MetaboAnalyst 等工具轻松访问。关于 MetaboAnalyst 及其如何辅助代谢组学数据分析、生物标志物检测和数据缩减的更详细综述，参见 Xia and Wishart (2016)。

126

Bioinformatics for Metabolite Interpretation

PDF page 490-494；印刷页码待核对

▶

Ch14 Metabolomics / Bioinformatics for Metabolite Interpretation

The user wants me to translate a section from Bioinformatics 4e textbook into Chinese

textbook style. Let me carefully translate this section following all the rules specified.

Let me work through this systematically, translating each paragraph while preserving

technical terms, database names, software names, URLs, and references in English.

The user wants me to translate a section from Bioinformatics 4e textbook into Chinese textbook style. Let me carefully translate this section following all the rules specified.

Let me work through this systematically, translating each paragraph while preserving technical terms, database names, software names, URLs, and references in English.

代谢物解读的生物信息学

识别显著性代谢物可以使研究者排除代谢组学研究中无关或无意义的代谢物噪声。一旦确定了相对较少的一组显著性代谢物，解读代谢组学数据就变得更加容易。代谢物解读通常涉及确定所识别的代谢物是否属于同一个通路

或一组相关的通路。在许多情况下，这需要搜索或仔细阅读各种在线代谢组学数据库，如 HMDB、YMDB 或其他数据库。这可能还涉及进行文献综述，以了解这些代谢物的已知信息以及它们如何可能导致所观察到的表型。

几乎所有主要的通路数据库——包括 KEGG、Reactome、Cyc 数据库、WikiPathways 和 SMPDB——都允许用户加载代谢物数据，并生成在给定通路中突出显示关键代谢物位置的图。所研究的生物体类型和需要展示的通路类型通常决定了选择哪个数据库更为合适。大多数代谢物/代谢数据库（如 KEGG、Cyc 数据库、WikiPathways 和 Reactome）仅包含与内源性代谢物合成或降解相关的合成代谢或分解代谢通路。几乎没有提供关于代谢物信号通路（如花生四烯酸的信号效应）、疾病代谢通路（如 Warburg 效应）、代谢性疾病（如苯丙酮尿症）或药物作用通路（展示阿司匹林如何起效）的信息。因此，许多代谢组学通路分析仅限于以最简单的术语（即分解代谢或合成代谢反应）来解读复杂的代谢物数据。一个重要的例外是 SMPDB。该资源包含超过 700 条代谢物通路，包括数百条合成/分解代谢通路、数十条信号通路，以及数百条疾病和药物通路。目前，SMPDB 是唯一涵盖如此广泛通路多样性的开放获取数据库——尤其针对小分子。然而，SMPDB 仅包含与人类（及其他高等哺乳动物）相关的通路，因此对于在植物、微生物、寄生虫、鱼类或昆虫中开展代谢组学研究的研究者来说，其用处不大。

虽然将代谢物归入已知代谢通路可以提供关于其生物学角色的重要洞见，但同样重要的是考虑它们在特定通路中的上下文位置。在这方面，一种名为 MetPA（Xia and Wishart 2010a）的新型软件工具已被开发出来，以进一步促进通路分析。MetPA 是一个免费访问的 Web 服务器，它将多种通路富集分析程序与通路拓扑特征分析相结合，帮助识别与给定代谢组学研究最相关的代谢通路。与许多代谢组学 Web 服务器应用一样，MetPA 使用简单的点击操作，允许用户执行复杂的统计分析。MetPA 支持三种类型的分析：通路富集分析、通路拓扑分析和通路影响分析。（有关通路富集分析的更多信息，参见第 13 章

）通路富集分析可以通过过度表征分析进行，也可以通过代谢物集合富集分析（MSEA）使用 Fisher 精确检验、超几何检验和 GlobalAncova 来实现（Xia and Wishart 2010a）。通路拓扑分析基于代谢物在给定代谢网络中的中心性度量。中心性是代谢物相对于通路中其他代谢物位置的定量度量，可用于估计代谢物在通路或网络图中的相对重要性或角色。由于代谢网络或通路是有向图，MetPA 使用相对"中介中心性"（betweenness centrality）和"出度中心性"（out-degree centrality）度量来计算代谢物的相对重要性。这意味着位于通路边缘或参与副反应的代谢物影响较小，并不特别"核心"。另一方面，位于通路瓶颈处或作为多个反应枢纽或前体的代谢物通常更具核心性。通过计算给定通路中不同代谢物的拓扑重要性，以及某些代谢物在通路中的富集程度，可以计算通路影响评分（pathway impact score）。形式上，通路影响评分是匹配代谢物重要性度量之和除以该通路中所有代谢物重要性度量之和的归一化值。通过将通路影响评分与该通路中出现的显著性代谢物数量（以 –log(P) 值表示，使用代谢物集合富集标准）作图，可以生成如图 14.23 所示的图。

该图展示了在给定代谢组学实验中从约 30 个显著变化的代谢物集合中检测到的最重要通路。通路影响评分绘制在 X 轴上，通路的显著性（由高度显著代谢物的富集水平衡量）绘制在 Y 轴上。圆圈的大小代表特定通路中代谢物的数量，圆圈的颜色表示其整体显著性，红色为最显著，淡黄色或白色为最不显著。点击圆圈可以看到通路的可缩放视图，展示通路名称、通路组分及其拓扑关系。每个检测到的代谢物也可点击，允许生成箱线图（box-and-whisker plot），展示病例与对照样本之间代谢物浓度和范围。MetPA 最近已整合到 MetaboAnalyst 中，目前拥有从 21 个不同模型生物收集的近 900 条不同通路的数据库。最近还出现了几种其他通路映射或代谢物网络方法，包括 MetaMapp（Barupal et al. 2012）和 MetaMapR（Grapov et al. 2015）。MetaMapp 将来自 KEGG 的生化反应与化学相似性和质谱相似性评分相结合。这种方法允许构建扩展的代谢物网络，将已识别和未识别的代谢物映射到潜在通路和网络聚类。MetaMapR 将这一概念进一步推进，允许用户在程序内直接计算结构相似性和质谱相似性，同时支持交互式网络可视化。

除通路分析和/或网络分析之外，还有多种其他方法可用于解读、可视化或探索代谢组学数据。一种特别有用的方法是使用 MSEA（Xia and Wishart 2010b）。MSEA 是一种功能富集分析形式，类似于基因集合富集分析（GSEA）。要使代谢物集合富集分析有效，软件需要拥有以下之一：综合性代谢通路数据库、健康/疾病代谢物水平数据库，或代谢物与单核苷酸多态性（SNP）之间关联的数据库，或代谢物与基因表达水平之间关联的数据库。理想情况下，一个好的 MSEA 系统应拥有所有这些数据库并支持所有这些功能分析。另一种解读代谢组学数据的方法是将其与基因表达或蛋白质表达数据相结合（Xia et al. 2013）。有多种新兴方法支持这种整合，包括 MetScape（Karnovsky et al. 2012）。MetScape 是一个广泛使用的开源网络分析和可视化工具 Cytoscape 的插件（见第 13 章）。MetScape 通过整合 KEGG 和 Edinburgh Human Metabolic Network 数据库，支持代谢物和基因表达数据的交互式、基于网络的探索与可视化。MetScape 允许用户从基因或代谢物表达谱数据中识别富集通路，构建和分析基因或代谢物网络，并交互式可视化基因或代谢物数据的变化。另一种提供类似功能的整合"组学"方法称为整合代谢组学与表达分析（INMEX; Xia et al. 2013）。这一基于 Web 的工具现已通过 MetaboAnalyst 可用。与 MetScape 类似，INMEX 利用 KEGG 通路数据库以及 SMPDB 的多条通路。

另一种可用于解读代谢组学数据的生物信息学技术涉及代谢模拟和代谢通量平衡分析（metabolic flux balance analysis; Lewis et al. 2012）。这些技术通常需要对整个生物体的代谢通路进行详细重建，考虑质量和电荷平衡、代谢物区室化（compartmentalization）以及已知或估计的代谢物浓度。它们还需要对所有酶促反应和代谢转运反应所需的基因、蛋白质和辅因子有详细了解。代谢重建和代谢模拟已在多种生物中被描述，包括 E. coli、酵母、Caenorhabditis elegans、Arabidopsis，甚至人类（Ruppin et al. 2010; Lewis et al. 2012; Swainston et al. 2016）。这些代谢重建已被用于预测代谢通路中突变的后果，解释某些代谢物在某些生理或疾病相关条件下的出现，并帮助预测此前未检测到或意料之外的化合物的存在。这些令人瞩目的模拟代表了将高级生物信息学与高级代谢组学相结合所能达到的最高成就。它们也是代谢组学如何作为基础工具、使生物信息学家能够开展系统生物学高级研究的绝佳范例。

Figure 14.22 变量重要性投影图（variable importance in projection plot），展示在正文 MetaboAnalyst 示例中描述的牛饲养实验数据中，哪些代谢物对数据分离最为重要。该图使用 MetaboAnalyst 生成。

Figure 14.23 通路影响图（pathway impact plot），展示在正文 MetaboAnalyst 示例中描述的牛饲养实验中，发现显著性代谢物的不同通路的重要性。该图使用 MetaboAnalyst 的通路分析模块生成。

127

Summary + Further Reading + References

PDF page 494-500；印刷页码待核对

▶

Ch14 Metabolomics / Summary + Further Reading + References

小结

代谢组学领域融合了基础生物学与分析化学的独特组合，并辅以大量的生物信息学、化学信息学和统计学方法。代谢组学方法已促成多项重要的生物医学发现（Wang et al. 2011a, b），并为更多发现打开了大门（Wishart 2016），这一事实使得这些方法在生命科学研究者中日益普及。事实上，过去十年间，代谢组学在规模、范围和技术水平上都有了显著发展。因此，对已开发的众多生物信息学/化学信息学工具、资源和技术进行详细描述，轻而易举就能写满好几本书。本章仅旨在作为一个易于入门的窗口，让那些有志从事代谢组学研究并希望使用生物信息学或化学信息学工具的人能够更好地了解现有的资源、可行的方向以及仍待解决的问题。

因特网资源

资源名称	网址
ACD/ChemSketch	www.acdlabs.com/resources/freeware/chemsketch
Avogadro	avogadro.cc
BATMAN	batman.r-forge.r-project.org
Bayesil	bayesil.ca
BioMagResBank	www.bmrb.wisc.edu/metabolomics/
CFM-ID	cfmid.wishartlab.com
Chemical Entities of Biological Interest (ChEBI)	www.ebi.ac.uk/chebi
ChemSpider	www.chemspider.com
E. coli Metabolome Database (ECMDB)	ecmdb.ca
Galaxy-M	github.com/Viant-Metabolomics/Galaxy-M
GolmDB	gmd.mpimp-golm.mpg.de
Human Metabolome Database (HMDB)	www.hmdb.ca
HTML5 Molecular Editor	www.molsoft.com/moledit.html
JChemPaint	jchempaint.github.io
JDXview	merian.pch.univie.ac.at/~nhaider/cheminf/jdxview.html
JSME	peter-ertl.com/jsme
JSmol	sourceforge.net/projects/jsmol
JSpectraViewer	github.com/sciguy/jspectra_viewer
JSpecView	sourceforge.net/projects/jspecview
Kyoto Encyclopedia of Genes and Genomes (KEGG)	www.genome.jp/kegg
KNApSAcK	kanaya.naist.jp/KNApSAcK/KNApSAcK.php
KnowItAll Academic	www.bio-rad.com
LIPID MAPS	www.lipidmaps.org
MarvinSketch	www.chemaxon.com/products/marvin/marvinsketch
MeltDB 2	meltdb.cebitec.uni-bielefeld.de/cgi-bin/login.cgi
Metabolomics Workbench	www.metabolomicsworkbench.org
MetaboAnalyst	www.metaboanalyst.ca
MetaboLights	www.ebi.ac.uk/metabolights
MetaCyc	metacyc.org
Meta-P	metap.helmholtz-muenchen.de/metap2
METLIN	metlin.scripps.edu/landing_page.php?pgcontent=mainPage
MassBank of North America (MoNA)	mona.fiehnlab.ucdavis.edu
MS-DIAL	prime.psc.riken.jp/Metabolomics_Software/MS-DIAL
MZmine 2	mzmine.github.io
NMRShiftDB	nmrshiftdb.nmr.uni-koeln.de
OPSIN	opsin.ch.cam.ac.uk
PubChem	pubchem.ncbi.nlm.nih.gov
R Programming Language	www.r-project.org
Reactome	www.reactome.org
Small Molecule Pathway Database (SMPDB)	smpdb.ca
Toxic Exposome Database (T3DB)	www.t3db.ca
WikiPathways	www.wikipathways.org/index.php/WikiPathways
XCMS	xcmsonline.scripps.edu
XDrawChem	www.woodsidelabs.com/chemistry/xdrawchem.php
Yeast Metabolome Database (YMDB)	www.ymdb.ca

延伸阅读

Dunn, W.B., Bailey, N.J., and Johnson, H.E. (2005). Measuring the metabolome: current analytical technologies. Analyst 130: 606–625. 一篇关于代谢组学中不同分析技术的优秀综述。虽然论文发表时间较早，但其解释深入浅出、易于理解。此类文献永不过时。

Kind, T. and Fiehn, O. (2010). Advances in structure elucidation of small molecules using mass spectrometry. Bioanal. Rev. 2: 23–60. 一篇关于质谱如何以及应当如何用于代谢物表征的非常全面的综述。涵盖的许多主题都阐述得极为详尽。作者是备受推崇的质谱学家，开创了现代代谢组学中使用的许多技术和思想。

Wishart, D.S. (2016). Emerging applications of metabolomics in drug discovery and precision medicine. Nat. Rev. Drug Discov. 15: 473–484. 介绍代谢组学在医学应用中如何被（以及正在被）使用。重点介绍了过去10年间代谢组学领域产生的一些更重要、更有趣的生物医学发现，并展望了代谢组学的未来发展方向。

Xia, J. and Wishart, D.S. (2016). Using MetaboAnalyst 3.0 for comprehensive metabolomics data analysis. Curr. Protoc. Bioinf. 55: 14.10.1–14.10.93. 一份非常详细的分步说明（配有大量截图），描述了 MetaboAnalyst 中所有工具、技巧和窍门。任何希望从事代谢组学研究和使用 MetaboAnalyst 的人的必读文献。

参考文献

Allen, F., Pon, A., Wilson, M. et al. (2014). CFM-ID: a web server for annotation, spectrum prediction and metabolite identification from tandem mass spectra. Nucleic Acids Res. 42 (Web Server issue): W94–W99.

Allen, F., Greiner, R., and Wishart, D.S. (2015). Competitive fragmentation modeling of ESI-MS/MS spectra for putative metabolite identification. Metabolomics 11: 98–110.

Allen, F., Pon, A., Greiner, R., and Wishart, D. (2016). Computational prediction of electron ionization mass spectra to assist in GC/MS compound identification. Anal. Chem. 88: 7689–7697.

Barupal, D.K., Haldiya, P.K., Wohlgemuth, G. et al. (2012). MetaMapp: mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinf. 13: 99.

Bassini, A. and Cameron, L.C. (2014). Sportomics: building a new concept in metabolic studies and exercise science. Biochem. Biophys. Res. Commun. 445: 708–716.

Bienfait, B. and Ertl, P. (2013). JSME: a free molecule editor in JavaScript. J. Cheminform. 5: 24.

Böcker, S., Letzel, M.C., Lipták, Z., and Pervukhin, A. (2009). SIRIUS: decomposing isotope patterns for metabolite identification. Bioinformatics 25: 218–224.

Brown, S.A. (2016). Circadian metabolism: from mechanisms to metabolomics and medicine. Trends Endocrinol. Metab. 27: 415–426.

Croft, D., O'Kelly, G., Wu, G. et al. (2011). Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res. 39 (Database issue): D691–D697.

da Silva, R.R., Dorrestein, P.C., and Quinn, R.A. (2015). Illuminating the dark matter in metabolomics. Proc. Natl. Acad. Sci. U.S.A. 112: 12549–12550.

Dalby, A., Nourse, J.G., Hounshell, W.D. et al. (1992). Description of several chemical structure file formats used by computer programs developed at Molecular Design Limited. J. Chem. Inf. Comput. Sci. 32: 244–255.

Davidson, R.L., Weber, R.J., Liu, H. et al. (2016). Galaxy-M: a Galaxy workflow for processing and analyzing direct infusion and liquid chromatography mass spectrometry-based metabolomics data. GigaScience 5: 10.

Demir, E., Cary, M.P., Paley, S. et al. (2010). The BioPAX community standard for pathway data sharing. Nat. Biotechnol. 28: 935–942.

Deutsch, E.W. (2008). mzML: a single, unifying data format for mass spectrometer output. Proteomics 14: 2776–2777.

Dunn, W.B., Bailey, N.J., and Johnson, H.E. (2005). Measuring the metabolome: current analytical technologies. Analyst 130: 606–625.

Durant, J.L., Leland, B.A., Henry, D.R., and Nourse, J.G. (2002). Reoptimization of MDL keys for use in drug discovery. J. Chem. Inf. Comput. Sci. 42: 1273–1280.

Ertl, P. (2010). Molecular structure input on the web. J. Cheminform. 2: 1.

Fahy, E., Sud, M., Cotter, D., and Subramaniam, S. (2007). LIPID MAPS online tools for lipid research. Nucleic Acids Res. 35 (Web Server issue): W606–W612.

Fiehn, O. (2002). Metabolomics – the link between genotypes and phenotypes. Plant Mol. Biol. 48: 155–171.

Grapov, D., Wanichthanarak, K., and Fiehn, O. (2015). MetaMapR: pathway independent metabolomic network analysis incorporating unknowns. Bioinformatics 31: 2757–2760.

Guo, A.C., Jewison, T., Wilson, M. et al. (2013). ECMDB: the E. coli Metabolome Database. Nucleic Acids Res. 41 (Database issue): D625–D630.

Hanson, R.M., Prilusky, J., Renjian, Z. et al. (2013). JSmol and the next-generation web-based representation of 3D molecular structure as applied to Proteopedia. Isr. J. Chem. 53: 207–216.

Hanwell, M.D., Curtis, D.E., Lonie, D.C. et al. (2012). Avogadro: an advanced semantic chemical editor, visualization, and analysis platform. J. Cheminform. 4: 17.

Hao, J., Liebeke, M., Astle, W. et al. (2014). Bayesian deconvolution and quantification of metabolites in complex 1D NMR spectra using BATMAN. Nat. Protoc. 9: 1416–1427.

Hastings, J., de Matos, P., Dekker, A. et al. (2013). The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013. Nucleic Acids Res. 41 (Database issue): D456–D463.

Haug, K., Salek, R.M., Conesa, P. et al. (2013). MetaboLights – an open-access general-purpose repository for metabolomics studies and associated meta-data. Nucleic Acids Res. 41 (Database issue): D781–D786.

Heller, S.R., McNaught, A., Pletnev, I. et al. (2015). InChI, the IUPAC international chemical identifier. J. Cheminform. 7: 23.

Holmes, E., Wilson, I.D., and Nicholson, J.K. (2008). Metabolic phenotyping in health and disease. Cell 134: 714–717.

Hucka, M., Finney, A., Sauro, H.M. et al. (2003). The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models. Bioinformatics 19: 524–531.

Jewison, T., Knox, C., Neveu, V. et al. (2012). YMDB: the yeast metabolome database. Nucleic Acids Res. 40 (Database issue): D815–D820.

Jewison, T., Su, Y., Disfany, F.M. et al. (2014). SMPDB 2.0: big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue): D478–D484.

Kanehisa, M., Goto, S., Sato, Y. et al. (2014). Data, information, knowledge and principle: back to metabolism in KEGG. Nucleic Acids Res. 42 (Database issue): D199–D205.

Karnovsky, A., Weymouth, T., Hull, T. et al. (2012). Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics 28: 373–380.

Karp, P.D., Riley, M., Saier, M. et al. (2000). The EcoCyc and MetaCyc databases. Nucleic Acids Res. 28: 56–59.

Kastenmüller, G., Römisch-Margl, W., Wägele, B. et al. (2011). metaP-server: a web-based metabolomics data analysis tool. J. Biomed. Biotechnol. 2011 https://doi.org/10.1155/2011/839862.

Katajamaa, M., Miettinen, J., and Oresic, M. (2006). MZmine: toolbox for processing and visualization of mass spectrometry based molecular profile data. Bioinformatics 22: 634–636.

Kelder, T., van Iersel, M.P., Hanspers, K. et al. (2012). WikiPathways: building research communities on biological pathways. Nucleic Acids Res. 40 (Database issue): D1301–D1307.

Kessler, N., Neuweger, H., Bonte, A. et al. (2013). MeltDB 2.0-advances of the metabolomics software system. Bioinformatics 29: 2452–2459.

Kim, S., Kim, J., Yun, E.J., and Kim, K.H. (2016). Food metabolomics: from farm to human. Curr. Opin. Biotechnol. 37: 16–23.

Kind, T. and Fiehn, O. (2007). Seven Golden Rules for heuristic filtering of molecular formulas obtained by accurate mass spectrometry. BMC Bioinf. 8: 105.

Kind, T. and Fiehn, O. (2010). Advances in structure elucidation of small molecules using mass spectrometry. Bioanal. Rev. 2: 23–60.

Kind, T., Tsugawa, H., Cajka, T. et al. (2017). Identification of small molecules using accurate mass MS/MS search. Mass Spectrom. Rev. https://doi.org/10.1002/mas.21535.

Kopka, J., Schauer, N., Krueger, S. et al. (2005). GMD@CSB.DB: the Golm metabolome database. Bioinformatics 21: 1635–1638.

Krause, S., Willighagen, E., and Steinbeck, C. (2000). JChemPaint – using the collaborative forces of the internet to develop a free editor for 2D chemical structures. Molecules 5: 93–98.

Kuhn, S., Helmus, T., Lancashire, R.J. et al. (2007). Chemical markup, XML, and the World Wide Web. 7. CMLSpect, an XML vocabulary for spectral data. J. Chem. Inf. Model. 47: 2015–2034.

Lancashire, R.J. (2007). The JSpecView Project: an Open Source Java viewer and converter for JCAMP-DX, and XML spectral data files. Chem. Cent. J. 1: 31.

Levy, P.A. (2010). An overview of newborn screening. J. Dev. Behav. Pediatr. 31: 622–631.

Lewis, N.E., Nagarajan, H., and Palsson, B.O. (2012). Constraining the metabolic genotype-phenotype relationship using a phylogeny of in silico methods. Nat. Rev. Microbiol. 10: 291–305.

Lu, H., Liang, Y., Dunn, W.B. et al. (2008). Comparative evaluation of software for deconvolution of metabolomics data based on GC-TOF-MS. Trends Anal. Chem. 27: 215–227.

Markley, J.L., Ulrich, E.L., Berman, H.M. et al. (2008). BioMagResBank (BMRB) as a partner in the Worldwide Protein Data Bank (wwPDB): new policies affecting biomolecular NMR depositions. J. Biomol. NMR. 40: 153–155.

McDonald, R.S. and Wilks, P.A. (1988). JCAMP-DX: a standard form for exchange of infrared spectra in computer-readable form. Appl. Spectrosc. 42: 151–162.

Melamud, E., Vastag, L., and Rabinowitz, J.D. (2010). Metabolomic analysis and visualization engine for LC-MS data. Anal. Chem. 82: 9818–9826.

Nakamura, K., Shimura, N., Otabe, Y. et al. (2013). KNApSAcK-3D: a three-dimensional structure database of plant metabolites. Plant Cell Physiol. 54: e4.

Naz, S., Moreira dos Santos, D.C., García, A., and Barbas, C. (2014). Analytical protocols based on LC-MS, GC-MS and CE-MS for nontargeted metabolomics of biological tissues. Bioanalysis 6: 1657–1677.

Niedermeyer, T.H. (2016). Annotating and interpreting linear and cyclic peptide tandem mass spectra. Methods Mol. Biol. 1401: 199–207.

O'Boyle, N.M., Banck, M., James, C.A. et al. (2011). Open Babel: an open chemical toolbox. J. Cheminform. 3: 33.

Psychogios, N., Hau, D.D., Peng, J. et al. (2011). The human serum metabolome. PLoS One 6 (2): e16957.

Ravanbakhsh, S., Liu, P., Bjorndahl, T.C. et al. (2015). Accurate, fully-automated NMR spectral profiling for metabolomics. PLoS One 10: e0124219.

Ruppin, E., Papin, J.A., de Figueiredo, L.F., and Schuster, S. (2010). Metabolic reconstruction, constraint-based analysis and game theory to probe genome-scale metabolic networks. Curr. Opin. Biotechnol. 21: 502–510.

Schober, D., Jacob, D., Wilson, M. et al. (2018). nmrML: an open standard for the description, storage and exchange on NMR data. Anal. Chem. 90: 649–656.

Smith, C.A., Want, E.J., O'Maille, G. et al. (2006). XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Anal. Chem. 78: 779–787.

Stein, S.E. (1999). An integrated method for spectrum extraction and compound identification from gas chromatography/mass spectrometry data. J. Am. Soc. Mass Spectrom. 10: 770–781.

Steinbeck, C. and Kuhn, S. (2004). NMRShiftDB – compound identification and structure elucidation support through a free community-built web database. Phytochemistry 65: 2711–2717.

Steinbeck, C., Hoppe, C., Kuhn, S. et al. (2006). Recent developments of the chemistry development kit (CDK) an open-source java library for chemo- and bioinformatics. Curr. Pharm. Des. 12: 2111–2120.

Sud, M., Fahy, E., Cotter, D. et al. (2016). Metabolomics Workbench: an international repository for metabolomics data and metadata, metabolite standards, protocols, tutorials and training, and analysis tools. Nucleic Acids Res. 44 (D1): D463–D470.

Sumner, L.W., Amberg, A., Barrett, D. et al. (2007). Proposed minimum reporting standards for chemical analysis. Metabolomics 3: 211–221.

Swainston, N., Smallbone, K., Hefzi, H. et al. (2016). Recon 2.2: from reconstruction to model of human metabolism. Metabolomics 12: 109.

Tautenhahn, R., Cho, K., Uritboonthai, W. et al. (2012). An accelerated workflow for untargeted metabolomics using the METLIN database. Nat. Biotechnol. 30: 826–828.

Tsugawa, H., Cajka, T., Kind, T. et al. (2015). MS-DIAL: data-independent MS/MS deconvolution for comprehensive metabolome analysis. Nat. Methods 12: 523–526.

van Iersel, M.P., Villéger, A.C., Czauderna, T. et al. (2012). Software support for SBGN maps: SBGN-ML and LibSBGN. Bioinformatics 28: 2016–2021.

Viant, M.R. (2008). Recent developments in environmental metabolomics. Mol. Biosyst. 4: 980–986.

Wang, T.J., Larson, M.G., Vasan, R.S. et al. (2011a). Metabolite profiles and the risk of developing diabetes. Nat. Med. 17: 448–453.

Wang, Z., Klipfell, E., Bennett, B.J. et al. (2011b). Gut flora metabolism of phosphatidylcholine promotes cardiovascular disease. Nature 472: 57–63.

Weininger, D. (1988). SMILES 1. Introduction and encoding rules. J. Chem. Inf. Comput. Sci. 28: 31–38.

Westbrook, J.D. and Fitzgerald, P.M. (2003). The PDB format, mmCIF, and other data formats. Methods Biochem. Anal. 44: 161–179.

Wheeler, D.L., Barrett, T., Benson, D.A. et al. (2006). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 34 (Database issue): D173–D180.

Wild, C.P. (2005). Complementing the genome with an "exposome": the outstanding challenge of environmental exposure measurement in molecular epidemiology. Cancer Epidemiol. Biomarkers Prev. 14: 1847–1850.

Williams, A.J. (2008). Public chemical compound databases. Curr. Opin. Drug Discov. Devel. 11: 393–404.

Wishart, D.S. (2005). Metabolomics: the principles and potential applications to transplantation. Am. J. Transplant. 5: 2814–2820.

Wishart, D.S. (2008). Quantitative metabolomics using NMR. Trends Anal. Chem. 27: 228–237.

Wishart, D.S. (2011). Advances in metabolite identification. Bioanalysis 3: 1769–1782.

Wishart, D.S. (2016). Emerging applications of metabolomics in drug discovery and precision medicine. Nat. Rev. Drug Discov. 15: 473–484.

Wishart, D.S., Tzur, D., Knox, C. et al. (2007). HMDB: the human metabolome database. Nucleic Acids Res. 35 (Database issue): D521–D526.

Wishart, D.S., Arndt, D., Pon, A. et al. (2015). T3DB: the toxic exposome database. Nucleic Acids Res. 43 (Database issue): D928–D934.

Worley, B. and Powers, R. (2014). MVAPACK: a complete data handling package for NMR metabolomics. ACS Chem. Biol. 9: 1138–1144.

Xia, J. and Wishart, D.S

Chapter 15

Population Genetics

128

Introduction

PDF page 501；印刷页码待核对

▶

Ch15 Population Genetics / Introduction

引言

群体遗传学（Population genetics）可定义为研究群体内及群体间遗传变异的学科。群体遗传学的方法已被广泛应用于理解植物、昆虫、鱼类、野生动物、家畜及人类的进化。本章所描述的方法可应用于上述任何生物，但本文讨论的数据和示例将主要聚焦于人类群体。

在过去几年中，全基因组测序（whole genome sequencing）为研究者提供了前所未有的视角，能够全面观察人类基因组中的所有变异，并极大地增强了我们研究和理解人类遗传变异的能力（Auton et al. 2015; Mallick et al. 2016）。现在，我们可以重建人类人口史（demographic history）的详细过程，并理解人类在不断变化的环境中所进行的多种适应方式。

129

Evolutionary Processes and Genetic Variation

PDF page 501-502；印刷页码待核对

▶

Ch15 Population Genetics / Evolutionary Processes and Genetic Variation

Evolutionary Processes and Genetic Variation

为了测量和分析 genetic variation，理解产生这些变异的 evolutionary processes 非常重要。这里将讨论四个基本过程：mutation、natural selection、gene flow 和 genetic drift。

Mutation 是所有 genetic variation 的最终来源，而且在物种内部，它会随着时间几乎以钟表般的规律发生。因此，准确估计某一物种的 mutation rate，可用于推断该物种历史上重大事件发生的时间。在人类中，mutation rate 过去常通过比较人类 DNA sequences 与我们最近的非人类近缘种 chimpanzees 的差异来估计。这个 mutation rate 实际上更准确地说是 substitution rate，它衡量的是新变体在一个 lineage 中得以存活并累积的速率。随后，在假定 human–chimp divergence date 约为 600 万年的前提下，人们估计并广泛使用了约 2.5 × 10−8 per nucleotide per generation 的 mutation（substitution）rate（Nachman and Crowell 2000）。近年来，人类 mutation rate 已可通过比较家庭中父母与子代的 whole genome sequences 直接估计（Roach et al. 2010; Conrad et al. 2011; Moorjani et al. 2016）。令人稍感意外的是，这些估计值平均约为 1.2 × 10−8 per nucleotide per generation，大约只有通过 human–chimp 比较得到的 substitution rate 估计的一半。这一差异可能反映了对 human–chimp divergence time 以及 ancestral human–chimp population 规模的不确定性（Campbell and Eichler 2013）。此外，mutation rate 的直接估计还会受到 parental age 以及采样组织（通常是 blood）中 somatic mutations 影响等因素的影响（Shendure and Akey 2015; Moorjani et al. 2016）。因此，关于用于 evolutionary applications 的最合适速率，仍然存在一定不确定性（Segurel et al. 2014）。

Natural selection 是这样一种过程：有害 genetic variants 的 population frequencies 会降低，而有利 variants 的频率会增加。重要的是，某些 variants 在特定环境中可能是有利的（例如 sickle cell disease 在 malaria 流行环境中），但在其他环境中则可能有害。对于大多数导致人类疾病的 genes 而言，mutation 会引入有害 variants，而 natural selection 则倾向于将其清除——这一过程称为 mutation–selection balance。随着 microarrays 或 whole genome sequencing 所获得的 genome-scale data（例如 single nucleotide variants, SNVs）可用，natural selection 过程现在可以在人群中得到系统分析（Fu and Akey 2013）。如下文所述，关于人群中近期 natural selection 的例子正越来越多。

Gene flow 是指不同 populations 之间交换 genetic variation 的过程。人类是一种高度流动的物种，因此 genetic variation 往往会在地理空间上呈渐进式变化（Rosenberg et al. 2005）。总体而言，gene flow 对 populations 之间的 genetic variation 具有同质化（homogenizing）作用。与 natural selection 一样，现今的大规模 genomic data 也使得对 populations 中 gene flow 模式进行灵敏而细致的分析成为可能（Hellenthal et al. 2014）。

Genetic drift 指由于 population size 有限而随着时间发生的 genetic variation 变化。在小 populations 中，由于只有少量 variants 被传递到下一代，genetic variants 的频率可以迅速改变。（不妨设想一个掷硬币实验：如果只掷 10 枚硬币，“heads”和“tails”的频率就可能与预期的 50% 有显著偏离；如果掷成千上万枚，这些频率就会非常接近预期的 50%。）Genetic drift 可以使某些疾病在 population size 曾经很小（或目前很小）的 populations 中具有很高频率。例如，某些罕见疾病，如 Ellis–van Creveld disease，在 Old Order Amish 中的发病率显著升高（Strauss and Puffenberger 2009）；而 Tay–Sachs disease、Gaucher disease 和 Niemann–Pick disease 在 Ashkenazi Jewish population 中的发生率也较高（Ostrer and Skorecki 2013）。一般而言，gene flow 倾向于使 populations 同质化，而 genetic drift 则倾向于使它们分化。

130

Allele Frequencies and Population Variation

PDF page 502-504；印刷页码待核对

▶

Ch15 Population Genetics / Allele Frequencies and Population Variation

第15章群体遗传学 / 等位基因频率与群体变异

等位基因频率与群体变异

前面讨论的四种进化因素会导致群体中等位基因频率（allele frequency，也称基因频率，gene frequency）的变化。等位基因频率定义为携带特定等位基因的染色体拷贝比例。例如，在一个100人的群体中，总共有200条染色体拷贝；若其中有50条携带A等位基因，则A的频率为50/200 = 0.25。等位基因频率可用于估算所有类型的遗传变异，包括单核苷酸变异（SNVs, single nucleotide variants）和拷贝数变异（CNVs, copy number variants）。

等位基因频率通常以直方图形式展示，横轴为频率分箱（0–0.5），纵轴为各分箱中等位基因比例，这种图形称为等位基因频率谱（allele frequency spectrum）或位点频率谱（site frequency spectrum）。频率谱可以用于推断进化因素的作用，例如遗传漂变（genetic drift）和自然选择（natural selection）。例如，在快速扩张的群体中，新出现的等位基因不易因遗传漂变而丢失，从而产生罕见等位基因的过剩（Novembre and Ramachandran 2011）。在现代人类群体中，常观察到高频率的罕见等位基因，这为过去5万年中许多人类群体经历了大规模扩张提供了有力证据（Tennessen et al. 2012）。此外，群体快速扩张可能限制自然选择清除有害等位基因的能力，据估计人类基因组中约85%的有害变异在过去5000–10000年间出现（Fu et al. 2013）。

群体等位基因频率还可用于估算群体间的遗传距离。最简单的遗传距离形式是各位点等位基因频率差的绝对值的平均。当研究n个群体时，可以构建一个n × n的遗传距离矩阵，并可通过各种降维与可视化方法分析（见下文）。同样，也可以在个体间估算遗传距离。

群体遗传分化最常用的指标之一是固化指数（fixation index，FST）。其计算公式为：

F_{ST} = \frac{H_T - H_S}{H_T}

其中，HS为每个群体内的杂合度（heterozygosity，见 Box 15.1）平均值，HT为将所有个体视为单一群体后的总体杂合度。若 FST = 0，则群体内部的平均变异与整个样本的变异相等；若 FST = 1，则群体内部没有变异（HS = 0），所有变异均来源于群体间差异。因此，FST衡量的是群体间的遗传变异程度（Holsinger and Weir 2009）。在人类群体中，FST已被广泛研究（Holsinger and Weir 2009）；在主要大陆间，FST约为0.10–0.15（Witherspoon et al. 2007）。这意味着大部分人类遗传变异存在于同一大陆（如亚洲或非洲）内部，跨大陆差异仅贡献较少额外变异。在同一大陆内，FST通常更小，约为0.01–0.05（Auton et al. 2015; Novembre and Peter 2016）。相比之下，对于在不同环境中经历强自然选择的位点，例如影响皮肤色素的基因，跨大陆的FST可超过0.90（Lamason et al. 2005）。

Box 15.1 基本定义与概念

杂合度是衡量遗传变异的指标。对于一个单核苷酸变异（SNV）具有等位基因A和T，个体可能为纯合子（AA或TT）或杂合子（AT）。在群体中，SNV的杂合度定义为具有杂合子基因型（AT）的个体比例。平均杂合度为所有测量SNV杂合度的平均值。

哈代–温伯格原理（Hardy–Weinberg principle）描述了群体中等位基因频率与基因型频率之间的理论关系。该原理假设个体在该SNV上随机交配，从而可应用概率的乘法与加法规则。以一个SNV为例，若等位基因A频率为0.60，T频率为0.40，则群体中60%的精子携带A，40%携带T；卵子频率相同。在随机交配下，精子携带A与卵子携带A结合的概率为0.60 × 0.60 = 0.36，即AA基因型的理论频率；TT基因型概率为0.40 × 0.40 = 0.16。杂合子AT可由A精子与T卵子或T精子与A卵子的结合产生，每种情况的概率为0.60 × 0.40 = 0.24。杂合子总体频率为0.24 + 0.24 = 0.48（三种基因型频率和为1.00）。该由哈代–温伯格原理预测的杂合度称为预期杂合度（expected heterozygosity），可与观测杂合度（observed heterozygosity，即实际计数杂合子的比例）比较。如果观测值与预期值差异不显著，则该SNV处于哈代–温伯格平衡（HWE）。偏离HWE可能由近亲交配或群体结构（population stratification）导致，这些现象通常降低观测杂合度相对预期值。

类似方法可从群体等位基因频率预测单倍型频率（haplotype frequency，单倍体基因型指个体单条染色体上的等位基因组合）。例如，考虑两个连锁位点，等位基因为A,a和B,b。若A,a频率分别为0.60和0.40，B,b频率分别为0.70和0.30，则预测AB单倍型频率为0.60 × 0.70 = 0.42；Ab, aB, ab单倍型频率预测分别为0.18, 0.28, 0.12。如果观察到的单倍型频率与等位基因频率乘积预测值相符，则两位点处于连锁平衡（linkage equilibrium），说明两位点的等位基因统计独立。然而，对于紧密连锁的位点，由于重组极少，某些单倍型的观察频率可能高于或低于理论值（例如AB频率可能为0.55而非0.42），此时两位点处于连锁不平衡（linkage disequilibrium），通常表明两位点在同一染色体上距离很近。

FST估计会受到所选群体及其地理分布的影响。通常，当群体地理分布更连续时，FST水平会略低（Xing et al. 2010）。此外，高漂变水平的单个群体也会对FST产生偏差，因此已有方法用于消除这种偏差（Patterson et al. 2012）。

131

Display Methods

PDF page 504-505；印刷页码待核对

▶

Ch15 Population Genetics / Display Methods

Display Methods

当采样到大量群体（或个体）时，n × n 的遗传距离矩阵就会变得难以解释。此时通常借助统计方法，将遗传距离矩阵的复杂性降维为少数几个重要维度。系统发育树有时也被用来呈现人群之间的关系（见第9章），但这种做法有时会受到质疑，因为树状结构可能暗示在分化之后，各群体彼此之间已经相互隔离（Sherry and Batzer 1997）。较新的方法则在树形展示中纳入了迁移的影响（Pickrell and Pritchard 2012）。

用于展示群体或个体间遗传变异的最常用方法，也许是 principal component analysis（PCA，主成分分析）。PCA 在生物信息学的许多领域都被广泛使用，并将在第14章和第18章中更详细地介绍。简而言之，PCA 是一种多变量统计技术：通过在距离矩阵中投射一条轴（principal component [PC]，主成分），力求在单一轴或直线上捕获尽可能多的变异（这种变异体现在各群体在该轴上的得分中）。这一过程本质上是回归分析的多变量形式。在对第一主成分加以解释之后，再投射一条与第一条轴独立的第二条轴，以穿过矩阵中剩余的变异。随后可以将这些 PC 相互作图（如 Figure 15.1 所示），以二维方式展示所捕获的变异。通常，前两个 PC 能很好地反映群体的地理位置，并且已经设计出正式方法来评估遗传距离与地理距离之间的拟合程度（Wang et al. 2012）。还可以考察更多的 PC，以评估群体或个体遗传变异的其他方面。PCA 得到的结果与 multidimensional scaling（多维尺度分析）相似，后者已在流行的 PLINK software package（PLINK 软件包）中实现（Purcell et al. 2007）。

在最早的应用中，PCA 仅限于群体层面的比较，因为通常只能对少数几个 loci（位点）进行基因分型。由于位点数如此之少，抽样方差较高，但这一问题可以通过将个体合并到预先定义好的群体中来尽量降低。然而，事先指定群体归属会引入偏倚，因此，更理想的做法是在个体层面分析变异。如今，这一目标可通过大规模 single nucleotide polymorphism（SNP，单核苷酸多态性）microarrays（微阵列）或 whole genome sequencing（全基因组测序）来实现，

132

Demographic History Inference

PDF page 505-509；印刷页码待核对

▶

Ch15 Population Genetics / Demographic History Inference

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter

15: Population Genetics / Demographic History Inference) into Chinese textbook style

. Let me carefully translate this following the requirements:

Professional and accurate translation
Keep English terms for software names, database names, URLs, citations
Translate Figure/Table/Box titles and captions, keeping numbering
Keep references in English; translate Further Reading explanatory text
Output Markdown body only

Let me work through this section by section.

This is pages 485-509 of the PDF, covering:

PCA figure and explanation
Introduction to demographic history inference
Box 15.2: Inferring Demographic History (MSMC method details)
The coalescent process and concept
PSMC and MSMC methods
Other methods like dadi
Key insights about human evolutionary history

Let me translate this carefully.

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter 15: Population Genetics / Demographic History Inference) into Chinese textbook style. Let me carefully translate this following the requirements:

Professional and accurate translation
Keep English terms for software names, database names, URLs, citations
Translate Figure/Table/Box titles and captions, keeping numbering
Keep references in English; translate Further Reading explanatory text
Output Markdown body only

Let me work through this section by section.

This is pages 485-509 of the PDF, covering:

PCA figure and explanation
Introduction to demographic history inference
Box 15.2: Inferring Demographic History (MSMC method details)
The coalescent process and concept
PSMC and MSMC methods
Other methods like dadi
Key insights about human evolutionary history

Let me translate this carefully.

群体遗传学 / 群体历史推断

群体历史推断

图 15.1 九个世界人群及三个测试样本的主成分分析（PCA）。具有相似祖先背景的个体呈现紧密的人群聚类。三个测试样本（大三角形）位于图上不同位置，反映各样本的不同祖先来源。样本 A 与非洲参考样本具有遗传亲缘关系，样本 F 与欧洲样本相似，样本 M 则聚类在南美洲样本中。参考人群包括：非洲人群——肯尼亚人（LWK）、尼日利亚人（YRI）；欧洲人群——具有欧洲血统的 CEPH（CEU）、英国人（GBR）；南亚人群——巴基斯坦人（PJL）、斯里兰卡人（STU）；东亚人群——汉族人（CHB）、日本人（JPT）；以及南美洲人群——秘鲁人（PEL）。

图 15.1 说明

在群体历史推断中，主成分分析（PCA）是一种常用的降维可视化方法，可同时评估数千至数百万个 SNV（如图 15.1 所示）。总体而言，个体会按照其人群归属进行聚类，但不同定义人群之间往往存在重叠，尤其是地理位置相邻或存在混血的人群（Rosenberg et al. 2005）。PCA 结果可能受到连锁不平衡（Box 15.1）和芯片数据中遗传选择偏差（Albrechtsen et al. 2010a）等因素的影响，因此在 PCA 研究的设计和解读中必须采取适当的预防措施。

由于 PCA 能够检测个体和人群之间的遗传相似性，该方法也广泛应用于全基因组关联研究（GWAS），作为检测和校正病例对照中人群分层问题的工具。利用全基因组 SNV 数据，流行的 EIGENSTRAT 工具（Price et al. 2006）可对病例和对照个体进行 PCA 分析，使用户能够排除或校正可能导致虚假基因—疾病关联的遗传异常值。

群体历史推断

前面讨论的展示方法为遗传变异提供了有用的图像，但它们对于迁移事件或人群规模变化的信息量有限（甚至可能产生误导）（Novembre and Stephens 2008）。此外，基于芯片的 SNV——常用于群体遗传变异的分析——存在系统性偏差，因为这些位点通常是为全基因组关联研究（通常针对欧洲人群）选择出来的、在目标人群中频率相对较高（> ∼0.10）的位点（Lachance and Tishkoff 2013a）。在芯片数据集中，稀有变异（对于群体历史研究具有高度信息量）严重缺失，在非欧洲人群中发现的大量变异位点同样如此（Rosenberg et al. 2010）。在过去几年中，研究者开展了多项大规模群体调查，以获得全基因组序列变异的无偏描绘：1000 人基因组计划（1000 Genomes Project）（Auton et al. 2015; Sudmant et al. 2015a）、Simons 基因组多样性计划（Simons Genome Diversity Project）（Sudmant et al. 2015b; Mallick et al. 2016）、UK10K 计划（UK10K Consortium et al. 2015），以及外显子组集合计划（ExAc）和基因组变异组数据库（gnomAD）（Lek et al. 2016）。UK10K 计划和 ExAc/gnomAD 数据库主要聚焦于具有疾病表型的个体。有了 DNA 序列数据在手，研究者可以采用能够充分利用全部遗传变异范围的方法，从而获得人类群体历史的更丰富图景（Box 15.2）。

---

Box 15.2 群体历史推断

多重序列马尔可夫合并（Multiple Sequentially Markovian Coalescent, MSMC）方法可用于利用全基因组序列数据推断有效群体大小。

从映射的全基因组二元比对图（BAM）文件开始，首先使用 Samtools、BCFtools 和 bamCaller.py 脚本进行变异检测。输出为样本的 Variant Call Format（VCF）文件和掩码文件（mask file，指示可用区域）。需要提供参考序列和样本的平均测序深度。如果需要进行基因型定相（phasing，推荐做法），则应将数据按染色体分开。

生成 22 号染色体 SNP 调用和样本掩码文件的命令示例如下：

>samtools mpileup -q 20 -Q 20 -C 50 -u -r chr22 -f myReferenceGenome
myBamFile.bam | bcftools call -c -V indels | bamCaller.py depthOfCoverage
myBamFile_chr22_mask.bed.gz | bgzip >chr22.vcf.gz

在本例中，mpileup（Samtools 的一部分）运行参数设置为：比对质量（-q）和最小碱基比对质量（-Q）均设为 20，调整后的比对质量（-C）设为 50。未压缩输出（-u）通过管道传给 BCFtools 进行变异检测。使用一致性检测器（-c），输出变异位点（-v），但排除插入/缺失（-V indels）。输出通过管道传给 bamCaller.py 脚本，该脚本生成 VCF 文件及配套的掩码文件，掩码文件指示被 MSMC 使用的覆盖充分变异位点。

为每个染色体生成基因型调用后，可使用 SHAPEIT2 程序进行定相。单个样本可使用与输入样本人群匹配的参考面板进行定相，也可将该样本与来自同一人群的 10 个或更多样本一起定相。如果测试人群与现有参考人群匹配不佳，推荐使用第二种方案。每个染色体必须单独处理。运行 SHAPEIT2 前，需从 VCF 文件中移除多等位基因 SNP 位点。应使用每条染色体的遗传图谱来校正染色体上重组频率的差异。以下为对 10 个藏族样本（此前已检测并合并为单个 VCF 文件）的 22 号染色体进行定相的示例：

>shapeit --input-vcf Ten_Tibetans_chr22_bamCaller.vcf
-M genetic_map_chr22.txt -O Ten_Tibetans_chr22.phased -T 1 --aligned
>shapeit -convert --input-haps Tibetan_chr22.phased --output-vcf
Tibetan_chr22.phased.vcf

定相后的数据用作 generate_multihetsep.py 脚本的输入，为每条染色体创建 MSMC 输入文件。可使用 BCFtools 从定相后的 VCF 文件中提取用于 MSMC 输入的特定样本。在提取样本前，可能需要更新（重新添加表头）SHAPEIT2 生成的 VCF 文件。

样本提取后，样本 VCF 文件和相应的样本掩码文件作为 generate_multihetsep.py 脚本的输入文件。generate_multihetsep.py 脚本还需要一个染色体映射掩码（mapping mask），用于指定该染色体上唯一可映射的区域。用户可自行创建映射掩码文件（详见 evomics.org/learning/population-and-speciation-genomics/2018-population-and-speciation-genomics/psmc-msmc-activity/）。以下为从两个不同人群的四个单倍型（两个个体）生成 MSMC 输入文件的示例。请注意，每个样本需要定相后的 VCF 数据和样本掩码，但一个映射掩码可用于所有样本。每条染色体需准备一个文件：

>generate_multihetsep.py \
--mask Tibetan1_chr22.bed.txt.gz \
--mask Chinese1_chr22.bed.txt.gz \
--mask Unique_mapping_mask_chr22.bed.txt.gz \
Tibetan1_chr22.vcf.gz Chinese1_chr22.vcf.gz \
>msmc_input_chr22.txt

generate_multihetsep.py 的输出包含分离位点列表、位点之间的碱基数以及四个单倍型的定相等位基因。

MSMC 程序现用于估算缩放后的有效群体大小和交叉合并率（cross-coalescence rate）。当输入文件包含来自两个人群的样本时，交叉合并率可用于估算两个人群在 0–1 标度上的相对分离程度，其中 0 表示完全分离，1 表示无分离。添加 --skipAmbiguous 和 -P 参数可计算相对交叉合并率（例如 -P 0,0,1,1，其中 0 和 1 标识与各人群关联的单倍型）。将每条染色体生成的文件作为 MSMC 程序的输入：

>msmc --fixRecombination --skipAmbiguous -P 0,0,1,1 -t 12 -o my_msmc_output
msmc_input_chr1.txt
msmc_input_chr2.txt
...
msmc_input_chr22.txt

该双样本四单倍型运行的最终 MSMC 输出文件（见图 15.3）包含第一个人群的合并率估算值（lambda_00）、第二个人群的合并率估算值（lambda_11）以及两个人群之间的交叉合并率（lambda_01）。相对跨人群合并率计算公式为：(2×lambda_01)/(lambda_00 + lambda_11)。

输出文件还显示每个估算值的时间区间。时间估算值和合并率按突变率缩放。将缩放后时间除以突变率（例如 μ = 1.25 × 10⁻⁸ 突变/位点/代）得到代数。将代数乘以世代时间（例如 30 年/代）得到最终的年数估算值。合并率的倒数反映有效群体大小（Ne），并按突变率缩放。实际有效群体大小可按公式 Ne = (1/lambda_00)/μ 从缩放合并率计算得出。

本例作为通用指南。MSMC 程序和辅助脚本具有额外的功能和选项，可用于微调性能和优化准确性。MSMC 群体历史建模预计在 MSMC 第 2 版中会有进一步改进。由于 MSMC 输出值为缩放值，突变率和世代时间的选择将影响有效群体大小的最终估算值。在评估结果时，建议同时考虑这些参数的可信区间。

---

图 15.2 说明

例如，研究者已设计出利用这些大规模序列集合来推断主要群体历史事件（如迁移、群体瓶颈和群体扩张）的方法。许多此类方法利用了合并（coalescence）概念（Rosenberg and Nordborg 2002）。为理解合并概念，设想已获得两个个体中某小段染色体的 DNA 序列。如果这些序列在五个核苷酸位置上存在差异，我们可以推断这两个个体的共同祖先传递该序列以来至少发生了五次突变。由于突变在物种内是一个规律的时间钟样过程（clock-like process），我们可以利用突变率来估算产生这两个个体的谱系中发生这五次突变所需的时间。通过这种方法，我们可以为共同祖先指定一个大致日期。该方法可推广至人类群体的分析——通过比较来自样本个体的 DNA 序列，向前回溯至现有变异由此衍生的那个个体。这个祖先个体被称为合并点（coalescent）。图 15.2 阐释了合并概念，显示所有祖先谱系中除一条外最终都会灭绝。因此，当前群体中的所有变异最终都可以追溯到一个共同祖先（合并点）。总体而言，群体规模越大，这一灭绝过程所需时间越长，合并事件发生的时间也越久远。因此，群体规模与合并日期之间存在直接关系。

---

群体历史的推断方法

研究者已开发出多种利用合并过程从基因组序列数据估算群体规模历史的方法。例如，成对序列马尔可夫合并（Pairwise Sequentially Markovian Coalescent, PSMC）模型使用隐马尔可夫模型比较单个二倍体个体中的两条 DNA 序列，沿着 DNA 序列移动，测量单倍型差异以估算合并时间（Li and Durbin 2011）。由于该方法仅限于单个个体，大多数合并日期都早于 20,000 年。此方法随后被扩展至多个个体（多重序列马尔可夫合并方法，即 MSMC）（Schiffels and Durbin 2014），从而能够推断更近期的群体历史。MSMC 需要定相后的序列数据（见 Glossary），并纳入重组的影响。此外，由于可对来自不同人群的个体进行分析和比较，因此可以估算交叉合并率（cross-coalescence），这是迁移率的代理指标。MSMC 估算人类群体历史的实例如图 15.3 所示。（详见 Box 15.2。）

群体历史推断的其他方法利用了前述的位点（等位基因）频率谱（site frequency spectrum）。其中最流行的方法之一是用于群体历史推断的扩散近似方法，即 dadi（diffusion approximations for demographic inference）（Gutenkunst et al. 2009），该方法使用偏微分方程推导等位基因频率谱，估算群体大小、分歧时间、混血事件和迁移率等参数。由于参数估计众多，dadi 计算量大，且仅限于三个人群，每个人群仅含少量个体。研究者已开发其他方法来扩展和改进这一方法（Schraiber and Akey 2015; Novembre and Peter 2016）。

这些方法，尤其是应用于全基因组序列数据时，为人类进化历史提供了许多关键见解（Novembre and Ramachandran 2011; Veeramah and Hammer 2014; Auton et al. 2015; Mallick et al. 2016; Nielsen et al. 2017）。总体而言，这些方法支持以下模型：解剖学意义上的现代人类最早出现于非洲，至少在 20 万年前，并在那里积累了丰富的遗传多样性储备。该人群的一个子集大约在 10 万年前开始从非洲向外扩散，在世界其他地区大部分取代了尼安德特人等古人类。随着人类在世界各地迁移，他们经历了连续的群体规模缩减（连续的奠基者效应，serial founder effect），导致遗传多样性与地理距离之间存在显著的负相关关系……

133

Admixture and Ancestry Estimation

PDF page 509-513；印刷页码待核对

▶

Ch15 Population Genetics / Admixture and Ancestry Estimation

The user wants me to translate a section from Bioinformatics 4e textbook about Population

Genetics / Admixture and Ancestry Estimation. Let me translate this carefully following

the requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, references as-is
Translate Figure/Table/Box titles with preserved numbering
Keep references in English; translate Further Reading descriptions
Output Markdown body text only
Don't explain my process

Let me translate this section by section.

The user wants me to translate a section from Bioinformatics 4e textbook about Population Genetics / Admixture and Ancestry Estimation. Let me translate this carefully following the requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, references as-is
Translate Figure/Table/Box titles with preserved numbering
Keep references in English; translate Further Reading descriptions
Output Markdown body text only
Don't explain my process

Let me translate this section by section.

混交与祖先来源估计

Han Chinese

Tibetan

10000 20000 30000 40000

Time (years ago)

Effective population size (log 10)

50000 60000 70000

图 15.3 多次序列马尔可夫合并（MSMC）的人口历史估计。 藏族（红色）和汉族（蓝色）过去时间有效种群大小随时间变化的函数，使用四名汉族和四名藏族基因组（遗传祖先一致性>99%）进行估计（Hu et al. 2017）。

以及与非洲起源的距离（Ramachandran et al. 2005）。除了提供全球人类人口历史的概览外，遗传研究还绘制了大陆和个体人群的详细画像，如非洲（Campbell et al. 2014; Beltrame et al. 2016）、亚洲（Abdulla et al. 2009; Liu et al. 2017）、澳大利亚（Malaspinas et al. 2016）、欧洲（Fu et al. 2016; Gunther and Jakobsson 2016）、印度次大陆（Reich et al. 2009）、大洋洲（Duggan and Stoneking 2014）和美洲（Skoglund and Reich 2016）。

尽管解剖学意义上的现代人类在走出非洲迁移时基本取代了其他人属物种这一点相当明确，但古尼安德特人DNA序列的研究表明，迄今为止研究的所有非洲以外人群的基因组中均含有约2%的尼安德特人DNA。这反映出一定程度的古代表型混交（Sankararaman et al. 2014; Nielsen et al. 2017）。非洲以外人群中混交水平的一致性表明，大部分融合发生在人类走出非洲扩散的早期阶段。此外，有证据表明，一些尼安德特人遗传变异——包括涉及免疫反应和皮肤色素沉着的变异——在现代人类适应新环境时提供了选择优势（适应性渐渗；Racimo et al. 2015; Dannemann and Kelso 2017）。然而，许多尼安德特人变异似乎经历了负向选择，并在现代人类基因组中被消除（Sankararaman et al. 2014）。一些现代人类还与丹尼索瓦人——尼安德特人的古代姐妹物种——发生过混交（Reich et al. 2010）。美拉尼西亚人、巴布亚人和澳大利亚人的每个DNA序列中约有3–6%源自丹尼索瓦人，东亚人的每个DNA序列中约有0.2%源自丹尼索瓦人（Racimo et al. 2015）。

混交与祖先来源估计

人类有着悠久的迁移、基因流动和人群融合历史（Hellenthal et al. 2014）。大规模基因组数据使估计这些事件的程度和时间及其对个体祖先组成的影响成为可能。一种早期方法称为STRUCTURE（Pritchard et al. 2000），使用贝叶斯马尔可夫链蒙特卡洛（MCMC）算法来检测符合哈迪-温伯格平衡（HWE）（专栏15.1）的人群亚组。（偏离HWE表明人群样本可能包含多个亚组。）可以估计样本中最佳分组数量，并对每组中的每个个体，估计其来自各组的祖先比例。混交事件的时间不被估计，但STRUCTURE程序提供了有用的祖先组成展示。当样本数量很大时，该方法可能计算量很大。后续改进，如Frappe（Tang et al. 2005）、ADMIXTURE（Alexander et al. 2009）和fastSTRUCTURE（Raj et al. 2014），提高了检测人群结构和估计个体祖先的计算速度和准确性（图15.4；详见下文）（Liu et al. 2013）。Chromopainter和fineSTRUCTURE算法（Lawson et al. 2012）整合了单倍型数据，以提高精细人群结构（FST < 0.01）和祖先估计的准确性，但计算时间有所增加。例如，fineSTRUCTURE程序已被用于检测即使在英国等相对同质人群（Leslie et al. 2015）内的人群结构，其中平均FST值小于0.001。

其他混交检测利用了基因流动产生这样的个体这一事实：其大型染色体片段来自一个以上的人群。由于重组，这些染色体片段或"单倍型区块"会随着时间推移而变短；因此，这些区块的平均长度为确定主要混交事件年代提供了方法。这一原理已被纳入ROLLOFF（Moorjani et al. 2011）和GLOBETROTTER（Hellenthal et al. 2014）程序，用于确定主要迁移事件的年代，如非洲班图人扩张、欧亚大陆蒙古人扩张以及近期北非向欧洲南部的基因流动（Hellenthal et al. 2014）。

以下是一个更详细的示例，说明如何将混交分析和PCA用于三位希望了解更多民族祖先来源的特定个体的祖先分析。这是许多商业DNA检测公司通常执行的典型分析。种族祖先分析的典型起点是包含多民族样本的变体调用格式（VCF）文件，行表示基因型，列表示个体。26个世界人群的全基因组测序（WGS）数据可从千人基因组计划（1000 Genomes Project）轻松获取。利用这一资源，可以为分析选择参考人群。然后可以将新研究样本合并到参考VCF文件中，以检查所有个体之间的遗传关系，并评估病例对照研究的潜在分层问题。

本例所需的工具包括VCFtools或BCFtools、PLINK和PLINK2、EIGENSOFT（版本EIG-6.1.4）、ADMIXTURE，以及您选择的绘图软件包（Excel、R等）。这些程序通常需要安装在一台现代多核LINUX或UNIX系统上。有许多高质量的PCA软件包可用。本例使用这些特定工具，因为它们成熟度高、针对遗传数据优化，并且具有文件操作、病例对照研究和假设检验的额外功能。

Figure 15.4 九个人群和三个测试样本的混交分析。 个体显示在X轴上。祖先比例显示在Y轴上。每个个体用单个条形表示。五种祖先成分各以一种颜色标注。每个条形代表一个个体，显示每个祖先簇的祖先比例。三个测试样本都有主要祖先来源，但都存在一定程度的混交（以不同颜色标示）。将三个测试样本的祖先估计与主成分分析图中各样本的位置进行比较（图15.1）。缩略语定义见（图15.1）图注。

本祖先分析示例使用从世界五个不同地区九个人群的全基因组测序创建的VCF文件。样本人群包括非洲人（尼日利亚人[YRI]和肯尼亚人[LWK]）、欧洲人（犹他州CEPH [CEU]和英国人[GBR]）、东亚人（中国人[CHB]和日本人[JPT]）、南亚人（巴基斯坦人[PJL]和斯里兰卡人[STU]）以及南美人（秘鲁人[PEL]）。每个人群有20个样本。该数据集从千人基因组WGS数据组装，并过滤为包含约677万个常见（maf ≥0.05）SNP。第二个VCF文件包含三个祖先来源未知的测试样本。这两个VCF文件可从www.wiley.com/go/baxevanis/Bioinformatics_4e下载。

首先使用BCFtools对两个VCF文件进行索引和合并，以创建单个压缩VCF文件。完成后，必须将VCF文件转换为PLINK二进制格式。PLINK提供了过滤样本和标记的便捷快速格式。对于大多数步骤，使用PLINK2以获得更好的性能。

>bcftools index world_samples.vcf.gz
>bcftools index test_samples.vcf.gz
>bcftools merge -Oz world_samples.vcf.gz test_samples.vcf.gz -o merged.vcf.gz
>plink2 –vcf merged.vcf.gz --input-missing-phenotype -9 --make-bed --out merged

接下来，必须对数据进行"清洗"，使所有样本和变异体的缺失数据最少，基因型调用可靠。这些设置可能有所不同，但总体而言，当所有样本和所有位点的缺失数据少于10%时，可获得最佳结果。对于大多数应用，应移除严重偏离HWE的变异体。PLINK2可用于在单个命令中执行这三个过滤步骤，如下所示。命令中只需合并的二进制PLINK文件（bfile）。

>plink2 --bfile merged --mind 0.05 --geno 0.05 --hwe 0.001 --make-bed --out merged_cleaned

许多人群模型假设遗传标记独立分离。因此，移除处于强连锁不平衡的紧密连锁标记非常重要。此步骤还减少了冗余遗传信息和数据集大小。使用PLINK2和以下命令，首先在50 kb滑动窗口中识别配对相关性（r²）超过0.1的标记。第二步提取非相关标记。

>plink2 --bfile merged_cleaned --indep-pairwise 50kb 1 0.1
>plink2 --bfile merged_cleaned --extract plink2.prune.in --make-bed -out merged_cleaned_pruned

对于本例使用的数据集，您会注意到SNP数量大幅减少：约677万个起始位点将被过滤为约14万个无关联位点。一般来说，建议全基因组分析和病例对照p值校正至少使用约10万个SNP；然而，如果人群差异相对明显，许多人群结构问题可能只需1–2万个无关联变异体即可解决。数据现在已准备好进行PCA和混交分析。

本例将使用EIGENSOFT包进行PCA。清洗和过滤后的数据可使用PLINK导出为标准连锁文件。使用以下命令，可以创建系谱（连锁）文件（.ped）和映射文件（.map）。之前添加的缺失表型值（-9）可以使用UNIX sed命令原地更改为未受影响表型值（1）。

>plink --bfile merged_cleaned_pruned --recode --out pca_data
>sed -i ' s/-9/1/'
pca_data.ped

系谱文件现在可以转换为EIGENSTRAT格式。从EIGENSOFT包的convertf文件夹复制参数文件到当前目录，并按示例编辑文件，将系谱（.ped）文件转换为EIGENSTRAT文件。使用以下命令将参数文件传递给CONVERTF，可以生成pca_data.ped和pca_data.map文件。

>convertf -p par.PED.EIGENSTRAT

现在使用smart_pca.perl脚本调用SMARTPCA并执行PCA分析。将评估所有成对个体组合在每个位点的共有等位基因数量。这将创建所有可能的样本成对组合的等位基因共享协方差矩阵，可用于创建输出文件。CONVERTF程序的三个输出文件可用作smartpca.perl脚本的输入。smartpca.perl的选项包括：转换后的基因型数据（-i）、转换后的SNP数据（-a）、转换后的样本信息（-b）、输出的PC数量（-k）、PC输出文件（-o）、PC1和PC2的图（-p）、所有个体和PC的特征值（-e）、日志文件（-l），以及设置为0的异常值开关（-m）以防止移除异常值。如果进行病例对照研究，该程序可用于识别在统计上与数据集中其他样本显著不同的样本。

>smartpca.perl -i pca_data.eigenstratgeno -a pca_data.snp -b pca_data.ind
-k 12 -o pca_data.pca -p pca_data.plot -e pca_data.eval -l pca_data.log -m 0

特征向量可以使用pca_data.pca.evec（或pca_data.pca）文件中的数据进行检验和绘图。文件中显示每个样本的数据以及PC 1–12各自解释的方差百分比。请注意，第一个PC捕获最高百分比的方差，每个后续PC捕获的方差较少。下降通常遵循负指数曲线，前几个PC对祖先和人群结构最有信息量。通过绘制PC1和PC2，可以可视化180个世界样本和三个测试样本之间的关系（图15.1）。绘制其他维度也可能为人群关系提供额外洞察。

三个测试样本位于图中的不同区域，表明每个样本具有不同的祖先来源。一个样本位于YRI和LWK群体附近，表明主要为非洲祖先；第二个样本主要为北欧祖先；第三个与南美人聚集，可能表明美洲原住民祖先。

以下步骤演示如何使用ADMIXTURE估计当前数据集中每个个体的祖先比例。返回经过清洗、过滤和过滤的二进制PLINK文件。该文件将作为ADMIXTURE的输入。由于数据中的个体来自五个不同且明显分离的地理区域，K = 5是该分析的人群簇数量的合理值。建议直接从数据估计K的最大似然值，检查K = 2…10的所有值，并在选择给定数据集的最佳簇数量时考虑所有附加人群信息。使用大量标记（>10万个）可提高祖先估计的准确性，尤其是在人群密切相关时。本数据集中有足够的标记来实现良好的祖先估计。ADMIXTURE程序可以使用最终的二进制系谱文件merged_cleaned_pruned作为输入来运行。

>admixture merged_cleaned_pruned.bed 5

ADMIXTURE生成两个输出文件。merged_cleaned_pruned.5.Q文件包含每个样本的祖先比例点估计。可以通过在命令中添加-B来获取点估计的置信区间。为清晰起见，可以使用以下命令从用于PCA的系谱文件中获取样本名称，将其添加到祖先点估计文件中。

>cut -f2 -d'
' pca_data.ped >names
>paste -d'
' names merged_cleaned_pruned.5.Q > ancestry.5.Q

此文件中的群体样本按群体标识符字母顺序排列（例如CEU代表欧洲，CHB代表东亚，GBR代表欧洲，依此类推）。每行代表一个样本。有五列祖先比例对应于五个簇中每个簇估计的祖先比例。行值总和为1.00。前20个样本在一个列中的祖先估计超过0.99；这些都是CEU样本。GBR样本（第41–60行）在这个相同的列（簇）中也有高估计祖先比例。因此，该列代表与欧洲祖先最密切相关的簇。检查其余列的内容可识别其他簇对应的祖先群体。

134

Detection of Natural Selection

PDF page 513-517；印刷页码待核对

▶

Ch15 Population Genetics / Detection of Natural Selection

The user wants me to translate a section of the Bioinformatics 4e textbook about Population

Genetics / Detection of Natural Selection. They want:

Professional and accurate translation
Preserve English terms, software names, database names, URLs, references
Translate Figure/Table/Box titles and descriptions, keeping numbering
Keep reference citations in English
Output in Markdown format
No explanation of the process

Let me translate this carefully, maintaining the academic style of a Chinese textbook

while preserving all technical terms and references.

The user wants me to translate a section of the Bioinformatics 4e textbook about Population Genetics / Detection of Natural Selection. They want:

Professional and accurate translation
Preserve English terms, software names, database names, URLs, references
Translate Figure/Table/Box titles and descriptions, keeping numbering
Keep reference citations in English
Output in Markdown format
No explanation of the process

Let me translate this carefully, maintaining the academic style of a Chinese textbook while preserving all technical terms and references.

第15章种群遗传学 / 自然选择的检测

自然选择的检测

大多数甚至所有基因组区域被认为功能意义很小或几乎没有，因此处于选择性中性（selectively neutral）状态。影响其变异的主要力量是突变（引入新变异）和遗传漂变（在小种群中因随机变异可能导致这些变异被消除或频率增加）。相比之下，基因组的编码区和调控区域由于在维持重要功能中的作用，可能受到自然选择的影响。自然选择以多种基本形式存在。正向选择（positive selection）被认为是适应性进化的主要力量，它增加了赋予生存或繁殖优势的变异频率。负向选择（negative selection），也称为纯化选择（purifying selection），对有害变异施加选择压力。许多有害变异在达到可观的等位基因频率之前就被自然选择清除了。这种负向选择形式被称为背景选择（background selection），产生了倾向于缺乏变异的基因组区域，并且可能在物种间高度保守（Vitti et al. 2013）。

正向选择可能导致选择性清除（selective sweep），即一个新的适应性变异因选择优势而迅速增加至高频率或固定。这一场景通常被称为硬清除（hard sweep），使用下文讨论的方法在基因组数据中相对容易检测。然而，硬清除在人类种群中似乎相对罕见（Pritchard et al. 2010）。与经典的硬清除场景不同，新变异最初可能处于选择中性，可以因遗传漂变而增加频率。如果该变异（或多个变异）后来变得具有选择优势，这被称为对已有变异（standing variation）的选择。由于其更长的历史和潜在的重组合，存量变异有时可以出现在不同的单倍型背景上。选择这种形式的存量变异被称为软清除（soft sweep）（Pritchard et al. 2010）。由于其相对复杂性，软清除在基因组数据中比硬清除更难检测（Teshima et al. 2006）。

正向选择产生高频等位基因，负向选择产生低频等位基因，而另一种选择形式——平衡选择（balancing selection）——倾向于维持中等频率的等位基因。当杂合子相对于两种纯合子具有选择优势时，就会发生这种情况。杂合子优势（也称为超显性，over-dominance）的一个经典例子是疟疾环境中的镰状细胞病。这种隐性遗传病由β-珠蛋白（hemoglobin beta）基因座的特定氨基酸变化引起，如果不治疗通常会致命（Rees et al. 2010）。因此，纯合子受到强烈的负向选择。然而，杂合子患重症疟原虫（Plasmodium falciparum）疟疾的可能性比正常纯合子低50%–90%，因为他们的红细胞不利于疟原虫寄生（Bunn 2013）。因此，导致镰状细胞的变异会增加频率，但只增加到一定程度，因为在过高的频率下种群中镰状细胞病的负担将超过抗疟疾优势。相应地，在疟疾环境中镰状细胞变异等位基因频率可高达0.15–0.20（Piel et al. 2010）。

偏好等位基因多样性的平衡选择也被认为在很大程度上导致了免疫反应相关基因的高水平遗传变异，如主要组织相容性复合体（MHC）和ABO血型（Hughes and Yeager 1998; Key et al. 2014）。某些免疫反应基因上的平衡选择持续了数百万年，导致了人类与其他类人猿共享的多态性（跨物种多态性，trans-species polymorphisms）（Azevedo et al. 2015）。

人们已经设计了许多方法来检测不同类型的自然选择（Fu and Akey 2013; Vitti et al. 2013; Fan et al. 2016）。人类种群中相对近期的选择可以通过相对直接的等位基因频率差异比较来检测。例如，相对于全基因组位点的平均水平，位点特异性的FST值升高可能是自然选择的指示，正如前面讨论的肤色基因案例。种群分支统计量（Population Branch Statistic, PBS）（Yi et al. 2010）是一个相关的检验方法，逐基因比较种群树的分支长度，以搜索某一种群具有异常长分支长度的基因，表明该基因与其他种群存在实质性分歧。

另一类选择统计量基于这样一个事实：快速正向选择不仅增加了选定变异的频率，也增加了附近连锁变异的频率。因此，该区域的连锁不平衡（linkage disequilibrium）水平增加。实际上，由多个连锁等位基因组成的单倍型因选择而增加了频率。因此，种群中的许多个体将具有相对较长的纯合子（完全或几乎完全纯合）区域，因为他们将拥有两个相同的选定单倍型拷贝。在中性条件下，这样的单倍型会因重组而很快分解，但正向选择使它们的频率快速增加，足以超过重组的影响。扩展单倍型纯合性（Extended Haplotype Homozygosity, EHH）检验（Sabeti et al. 2002）和综合单倍型评分（Integrated Haplotype Score, iHS）（Voight et al. 2006）等方法搜索纯合子区域大于无选择条件下预期值的区域。这些检验的变体，称为跨种群扩展单倍型纯合性（Cross-Population Extended Haplotype Homozygosity, XP-EHH）统计量（Sabeti et al. 2007），比较了种群对之间的单倍型长度。EHH和iHS检验尤其擅长检测不完全选择性清除（即选定等位基因尚未达到1.0的频率），而XP-EHH可以检测在一个种群中已固定但在另一个种群中未固定的单倍型。这些方法通常应用于全基因组数据集（微阵列SNV或全基因组序列），因此面临的挑战是确定假定的选择区域是功能上显著的，还是仅仅代表了单倍型长度统计分布的上尾。另一个挑战是选定区域可能包含多个基因，其中任何一个都可能含有实际受到选择的变异。通常，这些方法更适合检测硬清除而非软清除（Vitti et al. 2013）。

已经设计了几种方法来利用序列数据检测更微妙的选择事件，如软清除和对多基因性状（如身高）的选择。例如，单例密度评分（Singleton Density Score, SDS）（Field et al. 2016）利用了这样一个事实：选定变异附近的染色体区域具有较低频率的连锁单例等位基因（singleton allele，指在种群中仅出现一次的等位基因）。与iHS等方法相比，SDS在检测对存量变异或多基因的非常近期的选择方面具有实质性的统计功效。当应用于大型英国序列数据集（UK10K Project）时，SDS在过去2000–3000年中检测到了浅色头发、蓝色眼睛和身高增加的选择（Field et al. 2016）。共同祖先遗传（Identity-by-descent）方法，即识别从共同祖先遗传的选定DNA片段，也有助于增加检测存量变异选择的功效（Albrechtsen et al. 2010b）。

最后，一些选择检测方法合并了多个现有检验，以增加信号检测的功效和准确性。最流行的方法之一是多信号综合（Composite of Multiple Signals, CMS）检验（Grossman et al. 2010），将iHS、XP-EHH和FST检验与两个额外的检验相结合（一个基于新出现的"衍生"等位基因频率，另一个基于单倍型的绝对长度）。CMS的优势在于它可以比任何单一检验更精确地定位选定变异。当应用于1000人基因组项目（1000 Genomes Project）数据集时，CMS确定了多个可能受到选择的新区域，包括许多先天免疫反应基因（Grossman et al. 2013）。由于这些检验覆盖全基因组，通常将结果绘制为"曼哈顿图"（Manhattan plot），类似于全基因组关联研究（GWAS）中生成的图（图15.5）。

正如对疾病致病变异的研究一样，通过体外实验和动物模型研究来证明假定选定变异的功能意义至关重要（Lachance and Tishkoff 2013b）。

这些方法已用于检测自然选择对多个人类基因的影响，其中许多与疾病抗性相关（示例见表15.1）。由于不同环境承载不同的病原体，许多选定的基因编码免疫反应组分并不令人惊讶（Quintana-Murci 2016）。疟疾每年仍可造成高达100万人死亡（Reiff and Striepen 2009），提供了疾病抗性选择的一个经典例子，并在热带环境中作为选择因子存在了10,000–20,000年（Volkman et al. 2001）。如前所述，恶性疟原虫已导致多个也可引起疾病的基因发生平衡选择（表15.1）。间日疟原虫（Plasmodium vivax），另一种疟疾病因，对Duffy血型基因座施加了强烈选择，该基因座编码红细胞表面的一种趋化因子受体，间日疟原虫利用该受体进入细胞。该基因座的无效等位基因（null allele）以及由此产生的受体缺失，对间日疟原虫具有高度保护作用，在大多数撒哈拉以南非洲人群中的频率接近100%（Hamblin and Di Rienzo 2000）。它在其他人类种群中不存在。其他与疾病相关的选择示例列于表15.1。

饮食变化也可能产生强烈的选择效应。例如，全世界的婴儿都产生乳糖酶（lactase），这种酶使他们能够代谢母乳中的乳糖。在大多数种群中，乳糖酶表达在成年后下调，但欧洲和部分非洲的养牛种群在整个成年期维持乳糖酶的产生（遗传性乳糖酶持续性，hereditary lactase persistence）。乳糖酶基因（LCT）附近调控元件的选择在欧洲和非洲人群中独立发生，为人类的趋同进化（convergent evolution）提供了一个极好的例子（Tishkoff et al. 2007）。据估计，非洲变异大约在5000年前出现，而欧洲变异在9000年前出现（Tishkoff et al. 2007; Fan et al. 2016）。然而，基于230个古DNA样本的最新研究表明，欧洲变异出现得更近，大约在4000年前（Mathieson et al. 2015）。

饮食适应的另一个好例子是农业采用后唾液淀粉酶编码基因AMY1拷贝数的增加（Perry et al. 2007）。淀粉酶促进农业种群更常见的食物类型中淀粉成分的唾液水解，并可能有助于预防肠道疾病。狼和狗基因组的DNA测序表明，随着狗被驯化并依赖于人类产生的农业产品，淀粉酶拷贝数也有类似的增加（Axelsson et al. 2013）。

图15.5 全基因组22条常染色体上复合多信号（CMS）评分（Y轴）的曼哈顿图（Hu et al. 2017）。每个点代表一个单核苷酸变异。该图基于从藏族人收集的全基因组序列数据，显示了EGLN1和EPAS1基因（见正文）以及其他几个基因（包括维生素D受体基因VDR）上的高水平正向选择。

表15.1 人类种群中经历自然选择的基因示例

适应性	基因（基因产物）	参考文献
疟疾抗性	HBB（β-珠蛋白）	Allison 1954; Kwiatkowski 2005
	HBA1（α-珠蛋白）	Flint et al. 1986
	G6PD（葡萄糖-6-磷酸脱氢酶）	Tishkoff et al. 2001; Sabeti et al. 2002
	FY（Duffy血型）	Hamblin and Di Rienzo 2000; Hamblin et al. 2002
紫外线照射下皮肤黑色素表达	SLC24A5（溶质载体，阳离子交换器）	Lamason et al. 2005
	SLC45A2 MAPT（溶质载体）	Norton et al. 2007
	OCA2（黑素体膜蛋白）	Donnelly et al. 2012
	MC1R（黑素皮质素1受体）	Savage et al. 2008
遗传性乳糖酶持续性；成年期消化牛奶的能力	LCT调控区（乳糖酶表达）	Tishkoff et al. 2007
消化淀粉的能力	AMY1（淀粉酶基因拷贝数）	Perry et al. 2007
藏族人高海拔低氧适应	EPAS1（HIF2A；低氧诱导因子[HIF]通路组分）	Beall et al. 2010; Simonson et al. 2010; Yi et al. 2010
	EGLN1（PHD2；HIF通路调节因子）	Simonson et al. 2010; Lorenzo et al. 2014
非洲锥虫病抗性	APOL1（载脂蛋白L1）	Genovese et al. 2010
因纽特人富含ω-3脂肪酸饮食的适应	FADS2（脂肪酸去饱和酶）	Fumagalli et al. 2015

人类自然选择的许多其他例子已被发现或提出，本表仅列出每种性状选择基因的突出示例。更完整的列表见Sturm and Duffy (2012)、Scheinfeldt and Tishkoff (2013)、Vitti et al. (2013)、Fan et al. (2016)和Haasl and Payseur (2016)。

135

Other Applications

PDF page 517-518；印刷页码待核对

▶

Ch15 Population Genetics / Other Applications

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter

15 Population Genetics, section "Other Applications") into Chinese textbook style

. Let me follow the requirements:

Professional and accurate, no omissions, no added facts
Keep English terms, software names, database names, URLs, references in English

Translate Figure/Table/Box titles and descriptions, keep numbering
Keep reference citations in English; translate Further Reading explanatory text

Output Markdown body; no explanation of my process

Let me translate this carefully, maintaining the academic tone appropriate for a Chinese

textbook.

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter 15 Population Genetics, section "Other Applications") into Chinese textbook style. Let me follow the requirements:

Professional and accurate, no omissions, no added facts
Keep English terms, software names, database names, URLs, references in English
Translate Figure/Table/Box titles and descriptions, keep numbering
Keep reference citations in English; translate Further Reading explanatory text
Output Markdown body; no explanation of my process

Let me translate this carefully, maintaining the academic tone appropriate for a Chinese textbook.

其他应用

随着人类在世界各地的迁徙，他们已经针对各种不同的气候、纬度和海拔高度进行了选择性适应（Jeong and Di Rienzo 2014）。皮肤色素沉着与纬度的相关性被认为反映了对阳光暴露差异的适应（Sturm and Duffy 2012）。如表15.1所示，多种与色素沉着相关的遗传变异已成为自然选择的靶标。长期以来，人们一直认为在热带环境中增加黑色素生成可以抵御有害的紫外线辐射，而在较高纬度减少黑色素则可能在低光照环境中促进维生素D的合成（Jablonski and Chaplin 2010）。然而，维生素D假说仍存在争议，其他机制可能有助于解释人类皮肤色素沉着的变异（Sturm and Duffy 2012）。

正如阳光等气候因素随纬度变化一样，氧浓度也随海拔高度变化。由于氧气在生存中的关键作用，高海拔地区氧气availability降低导致某些高海拔人群受到强烈自然选择也就不足为奇了。在研究最为充分的高海拔人群中，藏族人是典型代表，他们已经在4000米至近5000米的海拔高度生活了数千年。此海拔的氧气availability比海平面低40%。非适应个体常表现出低氧反应，如高原肺水肿或脑水肿、肺动脉高压和高原病（Macinnis et al. 2010）。世代居住在这些海拔高度的当地藏族人表现出独特且可遗传的一系列特征，包括对红细胞增多症（比例性增加的红细胞数量）的保护、与非高原个体相比更高的出生体重，以及更高的动脉血氧饱和度（Beall 2007）。在高海拔地区，藏族人的血红蛋白水平与海平面非适应人群相似，使藏族人能够避免红细胞增多症的有害后果。利用iHS、XP-EHH、PBS和CMS等方法进行的全基因组自然选择扫描表明，包括EPAS1和EGLN1在内的多个基因在藏族人群中经历了强烈的正向选择（Beall et al. 2010; Simonson et al. 2010; Yi et al. 2010; Hu et al. 2017）。

EPAS1和EGLN1基因编码缺氧诱导因子（hypoxia-inducible factor, HIF）通路的组成部分，并在多项遗传研究中已成为自然选择的靶标（综述见Simonson et al. 2015）。这两个基因都含有在藏族人中频率很高（>80%）但在邻近人群（如汉族）中几乎不存在的变异。鉴于HIF通路在红细胞生成中的关键作用，这些基因是藏族高海拔表型的合理候选基因。在藏族人中经历正向选择的EPAS1单倍型很可能是通过丹尼索瓦人贡献给藏族祖先的（Huerta-Sanchez et al. 2014），这是适应性渐渗的又一个例证。最近的全基因组序列分析表明，这是唯一在藏族人中经历正向选择的丹尼索瓦人基因（Hu et al. 2017）。EGLN1在藏族和高海拔安第斯人群中都经历了正向选择（Bigham 2016），但与LCT类似，这两个种群中选择了不同的变异。对细胞培养系统中EGLN1表达的功能分析表明，藏族特异性变异在低氧条件下重现了藏族人红细胞生成减少的表型（Lorenzo et al. 2014），这是对统计识别选择靶标进行功能验证的一个良好例证。

其他应用

除了阐明人类进化史的理解外，遗传变异研究在法医学、人类遗传学和医学领域还有其他几个重要应用。例如，种群遗传学研究表明，由于人类种群具有复杂的迁徙和混血历史，关于人类"种族"的传统概念过于简单化且可能产生误导（Jorde and Wooding 2004; Royal et al. 2010）。在个体水平上进行遗传祖先估计（如图15.4 所示），有助于避免人们误认为人类可以准确划分为离散的、互不重叠的类别。

种群遗传学理论和方法在法医学领域也非常有用，因为必须评估种群中的遗传变异才能得出准确的随机匹配概率（即人群中另一个人可能具有与被调查嫌疑人相同基因型图谱的概率）（Kayser and De Knijff 2011）。可使用种群遗传学方法进行分析的种群分层（population stratification）在准确估计这些概率方面起着重要作用。此外，大规模种群遗传学研究揭示的变异模式有助于评估法医学分析中所用参照群体的适宜性。

最后，种群遗传学对识别和表征致病基因这一目标做出了实质性贡献。致病变异是遗传变异的子集，相同的进化过程可以影响中性变异和致病变异。种群遗传学概念如哈迪-温伯格平衡（Hardy-Weinberg equilibrium, HWE）和连锁不平衡（linkage disequilibrium, LD）在致病基因搜索中被常规使用（Manolio 2013; Visscher et al. 2017）。跨物种的进化保守性被用于评估非编码DNA和编码DNA的功能意义（Encode Project Consortium 2012），并有助于为候选致病变异分配致病性评分（Cooper and Shendure 2011）。种群遗传变异研究有助于阐明稀有等位基因和常见等位基因在疾病发生中的作用（Tennessen et al. 2012; Quintana-Murci 2016）。种群遗传学数据集如千人基因组计划（1000 Genomes Project）（Auton et al. 2015）为致病候选基因的稀有性和分布提供了 invaluable information。它们还有助于估计在一个种群中的遗传发现可以在多大程度上应用于其他种群（Rosenberg et al. 2010; Marigorta and Navarro 2013）。可以肯定地说，如果没有对种群遗传学和变异的良好理解，我们检测和理解致病变异的能力将严重受损。

136

Summary + Internet Resources + References

PDF page 518-524；印刷页码待核对

▶

Ch15 Population Genetics / Summary + Internet Resources + References

Summary

在人类群体遗传学（human population genetics）领域，过去几十年取得了显著发展。大多数理论与方法上的进步，主要由两个因素推动：计算能力的大幅提升，以及大量高分辨率遗传数据的积累，如今尤以全基因组序列（whole genome sequences）为代表。由于这些变化，目前已经能够推断群体历史的许多细节，包括群体瓶颈与扩张、迁移事件，以及对孟德尔性状（Mendelian traits）和多基因性状（polygenic traits）的自然选择。由于人类人口史极其复杂，要解析人类遗传演化中某些更为微妙的方面仍然具有挑战，例如软选择扫荡（soft selective sweeps）以及反复发生的杂交/混合（repeated admixture）事件。尽管如此，这些难题正在被持续推进与解决。随着数据、方法与发现的不断积累，群体遗传学无疑将在我们理解人类演化、健康与疾病方面发挥越来越重要的作用。

Internet Resources

Ancestry and admixture estimation and dating

1000 Genomes Project

www.internationalgenome.org

ADMIXTOOLS

reich.hms.harvard.edu/software

ADMIXTURE

software.genetics.ucla.edu/admixture

BCFtools

samtools.github.io/bcftools

Frappe

med.stanford.edu/tanglab/software/frappe.html

GLOBETROTTER

paintmychromosomes.com

HAPMIX

www.stats.ox.ac.uk/~myers/software.html

TreeMix

web.stanford.edu/group/pritchardlab/software.html

VCFtools

vcftools.github.io/index.html

Detection of natural selection

CMS and CMSGW

www.broadinstitute.org/cms/cms-composite-multiple-signals

MEGA7（Tajima’s D、HKA 等）

www.megasoftware.net

Singleton density score（SDS，单例密度分数）

web.stanford.edu/group/pritchardlab/software.html

Selscan（integrated haplotype score [iHS] 和 cross-population extended haplotype homozygosity [XP-EHH]）

hernandezlab.ucsf.edu/software

Population history inference

Dadi

bitbucket.org/gutenkunstlab/dadi

Multiple sequentially Markovian coalescent（MSMC，多重序贯马尔可夫共祖模型）

github.com/stschiff/msmc github.com/stschiff/msmc2/releases

MSMC-tools

github.com/stschiff/msmc-tools

Pairwise sequentially Markovian coalescent（PSMC，成对序贯马尔可夫共祖模型）

github.com/lh3/psmc

Samtools

www.htslib.org

SHAPEIT

mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html

Population structure analysis

EIGENSOFT

www.hsph.harvard.edu/alkes-price/software

EIGENSTRAT

www.hsph.harvard.edu/alkes-price/software

fineSTRUCTURE

paintmychromosomes.com

PLINK

zzz.bwh.harvard.edu/plink

PLINK2

zzz.bwh.harvard.edu/plink/plink2.shtml

STRUCTURE, fastSTRUCTURE

web.stanford.edu/group/pritchardlab/structure.html

References

Abdulla, M.A., Ahmed, I., Assawamakin, A. et al. (2009). Mapping human genetic diversity in Asia. Science 326: 1541–1545.

Albrechtsen, A., Nielsen, F.C., and Nielsen, R. (2010a). Ascertainment biases in SNP chips affect measures of population divergence. Mol. Biol. Evol 27 (11): 2534–2547.

Albrechtsen, A., Moltke, I., and Nielsen, R. (2010b). Natural selection and the distribution of identity-by-descent in the human genome. Genetics 186: 295–308.

Alexander, D.H., Novembre, J., and Lange, K. (2009). Fast model-based estimation of ancestry in unrelated individuals. Genome Res. 19: 1655–1664.

Allison, A.C. (1954). Protection afforded by sickle-cell trait against subtertian malareal infection. Br. Med. J. 1: 290–294.

Auton, A., Brooks, L.D., Durbin, R.M. et al. (2015). A global reference for human genetic variation. Nature 526: 68–74.

Axelsson, E., Ratnakumar, A., Arendt, M.-L. et al. (2013). The genomic signature of dog domestication reveals adaptation to a starch-rich diet. Nature 495: 360–364.

Azevedo, L., Serrano, C., Amorim, A., and Cooper, D.N. (2015). Trans-species polymorphism in humans and the great apes is generally maintained by balancing selection that modulates the host immune response. Hum. Genomics 9: 21.

Beall, C.M. (2007). Two routes to functional adaptation: Tibetan and Andean high-altitude natives. Proc. Natl. Acad. Sci. U.S.A. 104 (Suppl 1): 8655–8660.

Beall, C.M., Cavalleri, G.L., Deng, L. et al. (2010). Natural selection on EPAS1 (HIF2alpha) associated with low hemoglobin concentration in Tibetan highlanders. Proc. Natl. Acad. Sci. U.S.A. 107: 11459–11464.

Beltrame, M.H., Rubel, M.A., and Tishkoff, S.A. (2016). Inferences of African evolutionary history from genomic data. Curr. Opin. Genet. Dev. 41: 159–166.

Bigham, A.W. (2016). Genetics of human origin and evolution: high-altitude adaptations. Curr. Opin. Genet. Dev. 41: 8–13.

Bunn, H.F. (2013). The triumph of good over evil: protection by the sickle gene against malaria. Blood 121: 20–25.

Campbell, C.D. and Eichler, E.E. (2013). Properties and rates of germline mutations in humans. Trends Genet. 29 (10): 575–584.

Campbell, M.C., Hirbo, J.B., Townsend, J.P., and Tishkoff, S.A. (2014). The peopling of the African continent and the diaspora into the new world. Curr. Opin. Genet. Dev. 29: 120–132.

Conrad, D.F., Keebler, J.E., Depristo, M.A. et al. (2011). Variation in genome-wide mutation rates within and between human families. Nat. Genet. 43: 712–714.

Cooper, G.M. and Shendure, J. (2011). Needles in stacks of needles: finding disease-causal variants in a wealth of genomic data. Nat. Rev. Genet. 12: 628–640.

Dannemann, M. and Kelso, J. (2017). The contribution of Neanderthals to phenotypic variation in modern humans. Am. J. Hum. Genet. 101: 578–589.

Donnelly, M.P., Paschou, P., Grigorenko, E. et al. (2012). A global view of the OCA2-HERC2 region and pigmentation. Hum. Genet. 131: 683–696.

Duggan, A.T. and Stoneking, M. (2014). Recent developments in the genetic history of East Asia and Oceania. Curr. Opin. Genet. Dev. 29: 9–14.

ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57–74.

Fan, S., Hansen, M.E., Lo, Y., and Tishkoff, S.A. (2016). Going global by adapting local: a review of recent human adaptation. Science 354: 54–59.

Field, Y., Boyle, E.A., Telis, N. et al. (2016). Detection of human adaptation during the past 2000 years. Science 354: 760–764.

Flint, J., Hill, A.V., Bowden, D.K. et al. (1986). High frequencies of alpha-thalassaemia are the result of natural selection by malaria. Nature 321: 744–750.

Fu, W. and Akey, J.M. (2013). Selection and adaptation in the human genome. Annu. Rev. Genomics Hum. Genet. 14: 467–489.

Fu, W., O’Connor, T.D., Jun, G. et al. (2013). Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature 493: 216–220.

Fu, Q., Posth, C., Hajdinjak, M. et al. (2016). The genetic history of Ice Age Europe. Nature 534: 200–205.

Fumagalli, M., Moltke, I., Grarup, N. et al. (2015). Greenlandic inuit show genetic signatures of diet and climate adaptation. Science 349: 1343–1347.

Genovese, G., Friedman, D.J., Ross, M.D. et al. (2010). Association of trypanolytic ApoL1 variants with kidney disease in African Americans. Science 329: 841–845.

Grossman, S.R., Shylakhter, I., Karlsson, E.K. et al. (2010). A composite of multiple signals distinguishes causal variants in regions of positive selection. Science 327: 883–886.

Grossman, S.R., Andersen, K.G., Shlyakhter, I. et al. (2013). Identifying recent adaptations in large-scale genomic data. Cell 152: 703–713.

Gunther, T. and Jakobsson, M. (2016). Genes mirror migrations and cultures in prehistoric Europe – a population genomic perspective. Curr. Opin. Genet. Dev. 41: 115–123.

Gutenkunst, R.N., Hernandez, R.D., Williamson, S.H., and Bustamante, C.D. (2009). Inferring the joint demographic history of multiple populations from multidimensional SNP frequency data. PLoS Genet. 5: e1000695.

Haasl, R.J. and Payseur, B.A. (2016). Fifteen years of genomewide scans for selection: trends, lessons and unaddressed genetic sources of complication. Mol. Ecol. 25: 5–23.

Hamblin, M.T. and Di Rienzo, A. (2000). Detection of the signature of natural selection in humans: evidence from the Duffy blood group locus. Am. J. Hum. Genet. 66: 1669–1679.

Hamblin, M.T., Thompson, E.E., and Di Rienzo, A. (2002). Complex signatures of natural selection at the Duffy blood group locus. Am. J. Hum. Genet. 70: 369–383.

Hellenthal, G., Busby, G.B., Band, G. et al. (2014). A genetic atlas of human admixture history. Science 343: 747–751.

Holsinger, K.E. and Weir, B.S. (2009). Genetics in geographically structured populations: defining, estimating and interpreting F(ST). Nat. Rev. Genet. 10: 639–650.

Hu, H., Petousi, N., Glusman, G. et al. (2017). Evolutionary history of Tibetans inferred from whole-genome sequencing. PLoS Genet. 13: e1006675.

Huerta-Sanchez, E., Jin, X., Asan Bianba, Z. et al. (2014). Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature 512: 194–197.

Hughes, A.L. and Yeager, M. (1998). Natural selection at major histocompatibility complex loci of vertebrates. Annu. Rev. Genet. 32: 415–435.

Jablonski, N.G. and Chaplin, G. (2010). Colloquium paper: human skin pigmentation as an adaptation to UV radiation. Proc. Natl. Acad. Sci. U.S.A. 107 (Suppl 2): 8962–8968.

Jeong, C. and Di Rienzo, A. (2014). Adaptations to local environments in modern human populations. Curr. Opin. Genet. Dev. 29: 1–8.

Jorde, L.B. and Wooding, S.P. (2004). Genetic variation, classification, and "race". Nat. Genet. 36 (11 Suppl): S28–S33.

Kayser, M. and De Knijff, P. (2011). Improving human forensics through advances in genetics, genomics and molecular biology. Nat. Rev. Genet. 12: 179–192.

Key, F.M., Teixeira, J.C., De Filippo, C., and Andres, A.M. (2014). Advantageous diversity maintained by balancing selection in humans. Curr. Opin. Genet. Dev. 29: 45–51.

Kwiatkowski, D.P. (2005). How malaria has affected the human genome and what human genetics can teach us about malaria. Am. J. Hum. Genet. 77: 171–192.

Lachance, J. and Tishkoff, S.A. (2013a). SNP ascertainment bias in population genetic analyses: why it is important, and how to correct it. BioEssays 35: 780–786.

Lachance, J. and Tishkoff, S.A. (2013b). Population genomics of human adaptation. Annu. Rev. Ecol. Evol. Syst. 44: 123–143.

Lamason, R.L., Mohideen, M.A., Mest, J.R. et al. (2005). SLC24A5, a putative cation exchanger, affects pigmentation in zebrafish and humans. Science 310: 1782–1786.

Lawson, D.J., Hellenthal, G., Myers, S., and Falush, D. (2012). Inference of population structure using dense haplotype data. PLoS Genet. 8: e1002453.

Lek, M., Karczewski, K.J., Minikel, E.V. et al. (2016). Analysis of protein-coding genetic variation in 60,706 humans. Nature 536: 285–291.

Leslie, S., Winney, B., Hellenthal, G. et al. (2015). The fine-scale genetic structure of the British population. Nature 519: 309–314.Wellcome Trust Case Control Consortium

Li, H. and Durbin, R. (2011). Inference of human population history from individual whole-genome sequences. Nature 475: 493–496.

Liu, Y., Nyunoya, T., Leng, S. et al. (2013). Softwares and methods for estimating genetic ancestry in human populations. Hum. Genomics 7: 1.

Liu, X., Lu, D., Saw, W.Y. et al. (2017). Characterising private and shared signatures of positive selection in 37 Asian populations. Eur. J. Hum. Genet. 25: 499–508.

Lorenzo, F.R., Huff, C., Myllymaki, M. et al. (2014). A genetic mechanism for Tibetan high-altitude adaptation. Nat. Genet. 46: 951–956.

Macinnis, M.J., Koehle, M.S., and Rupert, J.L. (2010). Evidence for a genetic basis for altitude illness: 2010 update. High Alt. Med. Biol. 11: 349–368.

Malaspinas, A.S., Westaway, M.C., Muller, C. et al. (2016). A genomic history of Aboriginal Australia. Nature 538: 207–214.

Mallick, S., Li, H., Lipson, M. et al. (2016). The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature 538: 201–206.

Manolio, T.A. (2013). Bringing genome-wide association findings into clinical use. Nat. Rev. Genet. 14: 549–558.

Marigorta, U.M. and Navarro, A. (2013). High trans-ethnic replicability of GWAS results implies common causal variants. PLoS Genet. 9: e1003566.

Mathieson, I., Lazaridis, I., Rohland, N. et al. (2015). Genome-wide patterns of selection in 230 ancient Eurasians. Nature 528: 499–503.

Moorjani, P., Patterson, N., Hirschhorn, J.N. et al. (2011). The history of African gene flow into Southern Europeans, Levantines, and Jews. PLoS Genet. 7: e1001373.

Moorjani, P., Gao, Z., and Przeworski, M. (2016). Human germline mutation and the erratic evolutionary clock. PLoS Biol. 14: e2000744.

Nachman, M.W. and Crowell, S.L. (2000). Estimate of the mutation rate per nucleotide in humans. Genetics 156: 297–304.

Nielsen, R., Akey, J.M., Jakobsson, M. et al. (2017). Tracing the peopling of the world through genomics. Nature 541: 302–310.

Norton, H.L., Kittles, R.A., Parra, E. et al. (2007). Genetic evidence for the convergent evolution of light skin in Europeans and East Asians. Mol. Biol. Evol. 24: 710–722.

Novembre, J. and Peter, B.M. (2016). Recent advances in the study of fine-scale population structure in humans. Curr. Opin. Genet. Dev. 41: 98–105.

Novembre, J. and Ramachandran, S. (2011). Perspectives on human population structure at the cusp of the sequencing era. Annu. Rev. Genomics Hum. Genet. 12: 245–274.

Novembre, J. and Stephens, M. (2008). Interpreting principal component analyses of spatial population genetic variation. Nat. Genet. 40: 646–649.

Ostrer, H. and Skorecki, K. (2013). The population genetics of the Jewish people. Hum. Genet. 132: 119–127.

Patterson, N., Moorjani, P., Luo, Y. et al. (2012). Ancient admixture in human history. Genetics 192: 1065–1093.

Perry, G.H., Dominy, N.J., Claw, K.G. et al. (2007). Diet and the evolution of human amylase gene copy number variation. Nat. Genet. 39: 1256–1260.

Pickrell, J.K. and Pritchard, J.K. (2012). Inference of population splits and mixtures from genome-wide allele frequency data. PLoS Genet. 8: e1002967.

Piel, F.B., Patil, A.P., Howes, R.E. et al. (2010). Global distribution of the sickle cell gene and geographical confirmation of the malaria hypothesis. Nat. Commun. 1: 104.

Price, A.L., Patterson, N.J., Plenge, R.M. et al. (2006). Principal components analysis corrects for stratification in genome-wide association studies. Nat. Genet. 38: 904–909.

Pritchard, J.K., Stephens, M., and Donnelly, P. (2000). Inference of population structure using multilocus genotype data. Genetics 155: 945–959.

Pritchard, J.K., Pickrell, J.K., and Coop, G. (2010). The genetics of human adaptation: hard sweeps, soft sweeps, and polygenic adaptation. Curr. Biol. 20: R208–R215.

Purcell, S., Neale, B., Todd-Brown, K. et al. (2007). PLINK: a tool set for whole-genome association and population-based linkage analyses. Am. J. Hum. Genet. 81: 559–575.

Quintana-Murci, L. (2016). Understanding rare and common diseases in the context of human evolution. Genome Biol. 17: 225.

Racimo, F., Sankararaman, S., Nielsen, R., and Huerta-Sanchez, E. (2015). Evidence for archaic adaptive introgression in humans. Nat. Rev. Genet. 16: 359–371.

Raj, A., Stephens, M., and Pritchard, J.K. (2014). fastSTRUCTURE: variational inference of population structure in large SNP data sets. Genetics 197: 573–589.

Ramachandran, S., Deshpande, O., Roseman, C.C. et al. (2005). Support from the relationship of genetic and geographic distance in human populations for a serial founder effect originating in Africa. Proc. Natl. Acad. Sci. U.S.A. 102: 15942–15947.

Rees, D.C., Williams, T.N., and Gladwin, M.T. (2010). Sickle-cell disease. Lancet 376: 2018–2031.

Reich, D., Thangaraj, K., Patterson, N. et al. (2009). Reconstructing Indian population history. Nature 461: 489–494.

Reich, D., Green, R.E., Kircher, M. et al. (2010). Genetic history of an archaic hominin group from Denisova Cave in Siberia. Nature 468: 1053–1060.

Reiff, S.B. and Striepen, B. (2009). Malaria: the gatekeeper revealed. Nature 459: 918–919.

Roach, J.C., Glusman, G., Smit, A.F. et al. (2010). Analysis of genetic inheritance in a family quartet by whole-genome sequencing. Science 328: 636–639.

Rosenberg, N.A. and Nordborg, M. (2002). Genealogical trees, coalescent theory and the analysis of genetic polymorphisms. Nat. Rev. Genet. 3: 380–390.

Rosenberg, N.A., Mahajan, S., Ramachandran, S. et al. (2005). Clines, clusters, and the effect of study design on the inference of human population structure. PLoS Genet. 1: e70.

Rosenberg, N.A., Huang, L., Jewett, E.M. et al. (2010). Genome-wide association studies in diverse populations. Nat. Rev. Genet. 11: 356–366.

Royal, C.D., Novembre, J., Fullerton, S.M. et al. (2010). Inferring genetic ancestry: opportunities, challenges, and implications. Am. J. Hum. Genet. 86: 661–673.

Sabeti, P.C., Reich, D.E., Higgins, J.M. et al. (2002). Detecting recent positive selection in the human genome from haplotype structure. Nature 419: 832–837.

Sabeti, P.C., Varilly, P., Fry, B. et al. (2007). Genome-wide detection and characterization of positive selection in human populations. Nature 449: 913–918.

Sankararaman, S., Mallick, S., Dannemann, M. et al. (2014). The genomic landscape of Neanderthal ancestry in present-day humans. Nature 507 (7492): 354–357.

Savage, S.A., Gerstenblith, M.R., Goldstein, A.M. et al. (2008). Nucleotide diversity and population differentiation of the melanocortin 1 receptor gene, MC1R. BMC Genet. 9: 31.

Scheinfeldt, L.B. and Tishkoff, S.A. (2013). Recent human adaptation: genomic approaches, interpretation and insights. Nat. Rev. Genet. 14: 692–702.

Schiffels, S. and Durbin, R. (2014). Inferring human population size and separation history from multiple genome sequences. Nat. Genet. 46: 919–925.

Schraiber, J.G. and Akey, J.M. (2015). Methods and models for unravelling human evolutionary history. Nat. Rev. Genet. 16: 727–740.

Segurel, L., Wyman, M.J., and Przeworski, M. (2014). Determinants of mutation rate variation in the human germline. Annu. Rev. Genomics Hum. Genet. 15: 47–70.

Shendure, J. and Akey, J.M. (2015). The origins, determinants, and consequences of human mutations. Science 349: 1478–1483.

Sherry, S.T. and Batzer, M.A. (1997). Modeling human evolution – to tree or not to tree? Genome Res. 7: 947–949.

Simonson, T.S., Yang, Y., Huff, C.D. et al. (2010). Genetic evidence for high-altitude adaptation in Tibet. Science 329: 72–75.

Simonson, T.S., Huff, C.D., Witherspoon, D.J. et al. (2015). Adaptive genetic changes related to haemoglobin concentration in native high-altitude Tibetans. Exp. Physiol. 100: 1263–1268.

Skoglund, P. and Reich, D. (2016). A genomic view of the peopling of the Americas. Curr. Opin. Genet. Dev. 41: 27–35.

Strauss, K.A. and Puffenberger, E.G. (2009). Genetics, medicine, and the plain people. Annu. Rev. Genomics Hum. Genet. 10: 513–536.

Sturm, R.A. and Duffy, D.L. (2012). Human pigmentation genes under environmental selection. Genome Biol. 13: 248.

Sudmant, P.H., Rausch, T., Gardner, E.J. et al. (2015a). An integrated map of structural variation in 2,504 human genomes. Nature 526: 75–81.

Sudmant, P.H., Mallick, S., Nelson, B.J. et al. (2015b). Global diversity, population stratification, and selection of human copy number variation. Science https://doi.org/10.1126/science.aab3761.

Tang, H., Peng, J., Wang, P., and Risch, N.J. (2005). Estimation of individual admixture: analytical and study design considerations. Genet. Epidemiol. 28: 289–301.

Tennessen, J.A., Bigham, A.W., O’Connor, T.D. et al. (2012). Evolution and functional impact of rare coding variation from deep sequencing of human exomes. Science 337 (6090): 64–69.

Teshima, K.M., Coop, G., and Przeworski, M. (2006). How reliable are empirical genomic scans for selective sweeps? Genome Res. 16: 702–712.

Tishkoff, S.A., Varkonyi, R., Cahinhinan, N. et al. (2001). Haplotype diversity and linkage disequilibrium at human G6PD: recent origin of alleles that confer malarial resistance. Science 293: 455–462.

Tishkoff, S.A., Reed, F.A., Ranciaro, A. et al. (2007). Convergent adaptation of human lactase persistence in Africa and Europe. Nat. Genet. 39: 31–40.

UK10K Consortium, Walter, K., Min, J.L. et al. (2015). The UK10K Project identifies rare variants in health and disease. Nature 526: 82–90.

Veeramah, K.R. and Hammer, M.F. (2014). The impact of whole-genome sequencing on the reconstruction of human population history. Nat. Rev. Genet. 15: 149–162.

Visscher, P.M., Wray, N.R., Zhang, Q. et al. (2017). 10 years of GWAS discovery: biology, function, and translation. Am. J. Hum. Genet. 101: 5–22.

Vitti, J.J., Grossman, S.R., and Sabeti, P.C. (2013). Detecting natural selection in genomic data. Annu. Rev. Genet. 47: 97–120.

Voight, B.F., Kudaravalli, S., Wen, X., and Pritchard, J.K. (2006). A map of recent positive selection in the human genome. PLoS Biol. 4: e72.

Volkman, S.K., Barry, A.E., Lyons, E.J. et al. (2001). Recent origin of Plasmodium falciparum from a single progenitor. Science 293: 482–484.

Wang, C., Zöllner, S., and Rosenberg, N.A. (2012). A quantitative comparison of the similarity between genes and geography in worldwide human populations. PLoS Genet. 8: e1002886.

Witherspoon, D.J., Wooding, S., Rogers, A.R. et al. (2007). Genetic similarities within and between human populations. Genetics 176: 351–359.

Xing, J., Watkins, W.S., Shlien, A. et al. (2010). Toward a more uniform sampling of human genetic diversity: a survey of worldwide populations by high-density genotyping. Genomics 96: 199–210.

Yi, X., Liang, Y., Huerta-Sanchez, E. et al. (2010). Sequencing of 50 human exomes reveals adaptation to high altitude. Science 329: 75–78.

Chapter 16

Metagenomics and Microbial Community Analysis

137

Introduction

PDF page 525-526；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Introduction

The user wants me to translate a section of the Bioinformatics 4e textbook into Chinese

, maintaining the academic textbook style. Let me translate this carefully, following

all the guidelines provided.

Key requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, and references in English

Translate Figure/Table/Box titles and descriptions, keeping numbering
Keep reference entries in English; translate explanatory text for Further Reading

Output Markdown body only
Don't explain my process

This is from Ch16 Metagenomics and Microbial Community Analysis, Introduction section

. Let me translate it carefully.

The user wants me to translate a section of the Bioinformatics 4e textbook into Chinese, maintaining the academic textbook style. Let me translate this carefully, following all the guidelines provided.

Key requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, and references in English
Translate Figure/Table/Box titles and descriptions, keeping numbering
Keep reference entries in English; translate explanatory text for Further Reading
Output Markdown body only
Don't explain my process

This is from Ch16 Metagenomics and Microbial Community Analysis, Introduction section. Let me translate it carefully.

第十六章宏基因组学与微生物群落分析

引言

人类微生物组（human microbiome）由Joshua Lederberg定义为"……与我们身体空间共栖、共生及致病的微生物所构成的生态群落"，对人类健康具有核心重要性。环境微生物组同样重要，它们支撑着所有生命所依赖的基本生物过程，而其对气候变化做出的响应将深刻影响生物圈的健康。

利用宏基因组学（metagenomics）等技术，我们现在能够深入研究微生物组的组成与功能。宏基因组学通过环境DNA测序来呈现宏基因组样本的分类多样性及功能多样性的纵深横断面。宏基因组学及其他技术推动了微生物组探索性与实验性研究在范围上的迅速增长。宏基因组数据分析虽然采用了序列比对和同源性评估等经典生物信息学技术，但大多数样本中极高的生物多样性（通常含有超过100个已命名物种）以及序列数据的碎片化特性带来了独特的挑战，需要开发专门的生物信息学技术。

宏基因组序列分析与相关方法能够提供微生物组详尽但仍不完整的图谱。现代DNA测序平台能够产生数千万条短序列（长度为150–250 nt），这些序列代表了微生物群落中总DNA的一个样本。从这些序列 reads 出发，宏基因组数据分析面临的挑战在于推断特定样本中的群落结构与功能，并实现多个样本之间的比较。获得分类和功能信息后，研究人员可以就微生物群落提出详细的问题，例如："克罗恩病和2型糖尿病等慢性疾病中是否存在一致的微生物特征？""牛瘤胃中微生物的碳水化合物分解代谢潜力如何？""饮食如何影响人类微生物组，又如何反过来影响人类健康？""淡水微生物群落的'正常'季节性变化是什么？""这种季节性变化如何受到偶发干扰事件的影响？"

从原始序列 reads 到可靠的生态学推论，需要经过许多计算步骤。虽然微生物组分析已开发出许多优秀的算法和软件工具，但许多方法所作的假设可能与群落实际的结构和功能相矛盾。一个被广泛引用的例子是归一化分类丰度谱中的组成性问题（compositionality）。例如，将序列计数表示为微生物种群比例，可能诱导类群之间的虚假相关性，并导致对群落结构的错误推断。为了提供宏基因组数据分析的概览，本章将聚焦于三个核心挑战：(i) 理解碎片化且不完整的DNA序列数据，(ii) 使用适当的群落多样性及功能表征方式，(iii) 寻找适当的技术来汇总和比较微生物组样本。

尽管原核生物（即细菌和古菌）通常是微生物组研究的焦点，但其他生物实体——包括病毒、单细胞真核生物，甚至小型多细胞生物（如线虫）——也可被视为微生物组的一部分。然而，实验技术的选择会强烈影响所回收的信息类型。例如，通过聚合酶链式反应（PCR）扩增基因组特定区域的标记基因分析通常只针对原核生物，而且根据引物的选择，可能只返回细菌的信息。病毒评估需要一套不同的技术，包括选择性过滤，且依赖于单一通用标记基因的计算方法无法使用。目标生物的选择可能是明确地由假设驱动，也可能由于评估技术的选择而隐含地决定。

138

Why Study the Microbiome?

PDF page 526-527；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Why Study the Microbiome?

Why Study the Microbiome?

为什么要研究微生物组？

在 2017 年发表的一项研究中，研究人员考察了 microbiota transfer therapy（微生物群移植疗法）对 autism spectrum disorder（ASD，自闭症谱系障碍）相关症状的影响。该试验在 7–8 周内，将一组“健康”的肠道微生物引入一组 ASD 儿童体内。研究结果非常显著：胃肠道症状的严重程度不仅下降了 80% 以上，而且与自闭症相关的临床症状也表现出明显且持续的改善（Kang et al. 2017）。微生物疗法为何能够对健康和认知状态产生如此深刻的影响？关键在于连接肠道微生物群与宿主的代谢相互作用和信号相互作用。在自闭症的案例中，不同类型的细菌已被发现与 ASD 呈正相关或负相关，尽管目前尚未识别出精确的微生物“特征”（signature）。驱动 ASD 中宿主—微生物相互作用的机制很难评估，相关研究仍在进行，但由微生物组诱导的免疫失调很可能发挥关键作用（Vuong and Hsiao 2017）。

评估微生物疗法等干预措施对患者影响的一个关键环节，是评估干预所诱导的微生物群落变化。为此，需要对 microbiota（微生物群）进行“干预前后”的评估。怎样才能做到这一点？培养完整的细菌库在实践上并不可行，在许多情况下甚至是不可能的，因为物种数量庞大，而且许多物种难以在实验室中培养。最广泛使用的方法是利用 high-throughput DNA sequencing（高通量 DNA 测序）方法收集分子数据，然后使用 bioinformatic techniques（生物信息学技术）和 reference databases（参考数据库），将观察到的信息（例如 DNA sequences）与样本中存在的 taxonomic diversity（分类多样性）和 molecular functions（分子功能）信息联系起来。在上述自闭症研究中，作者使用 DNA sequences 作为微生物生物多样性的替代指标，并能够将 Bifidobacterium 和 Prevotella 等分类单元的丰度，与患者在若干标准化自闭症症状评估中的改善相关联。

假设驱动的实验研究和临床研究可以提供关于微生物组变化与其他变化之间关系的详细信息，例如微生物组变化与人类宿主健康变化之间的关系。即使是对一组人类受试者或环境样本的微生物组调查，也可以提供非常有价值的信息。大规模微生物组测绘项目，包括第一个 Human Microbiome Project（人类微生物组计划）（Turnbaugh et al. 2007; Huttenhower et al. 2012），将研究重点放在构建名义上健康人群中存在的基线微生物组。许多研究比较了不同国家个体的微生物组、同一国家不同地理区域人群的微生物组，甚至比较了同一城市内不同建筑和交通枢纽中的微生物组。Metagenomic analysis（宏基因组分析）也已被用于识别和分析人类微生物组中的特定功能基因，包括参与维生素和短链脂肪酸合成的基因，以及赋予 antimicrobial resistance（抗微生物药物耐药性）的基因。

环境微生物组研究扩展了我们对微生物的认识，这些微生物支撑着 nutrient cycling（营养循环），并维持着大多数生态相互作用。早期研究……

139

The Origins of Microbiome Analysis

PDF page 527-528；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / The Origins of Microbiome Analysis

微生物组分析的起源

对海洋微生物组的研究揭示了 SAR11 的存在。SAR11 现在被认为是海洋中最丰富的一类微生物。宏基因组分析显示，SAR11 类型存在显著变异，并可能受到环境筛选作用的影响；这提示在不同地理位置，SAR11 可能具有不同的生态相互作用，并对营养循环产生不同影响（Brown et al. 2012; Giovannoni 2017），同时也体现出生物多样性和功能的纬度梯度。2010 年 Deepwater Horizon 石油泄漏事件后，对墨西哥湾开展的宏基因组分析显示，Oceanospirillum 等能够降解石油的生物类群丰度增加（Lu et al. 2012）。尽管这种增加提示 Oceanospirillum 可能用于生物修复（bioremediation），但它在 Deepwater Horizon 石油泄漏后果中的实际影响仍不确定。其他大规模环境调查也已经完成，例如 Tara Oceans initiative（Sunagawa et al. 2015）和 Earth Microbiome Project（Thompson et al. 2017）。除发现新的分类类群和生态关联外，这类调查还为未来研究提供了基线和参考数据库。随着环境破坏和气候变化使地球生物多样性承受越来越大的压力，理解环境微生物组将在评估和预判变化影响以及制定缓解策略方面具有核心重要性。

微生物组分析的起源

1985 年的一项开创性分析直接从环境中解析了遗传序列数据（Stahl et al. 1985）。通过直接测序 5S ribosomal RNA（rRNA，核糖体 RNA），作者能够识别已培养嗜热生物的近缘类群，并通过将获得的序列映射到更大的系统发育树中，描述了 Yellowstone National Park 中 Octopus Spring 的微生物群落结构。该温泉 pH 略偏碱性，温度为 91 ℃；研究发现其中存在一个繁盛的微生物群落，其成员所生活的温度和 pH 高于此前已表征的远缘亲属。

1991 年，第一项基于 16S rRNA 基因（下文简称“16S”或“16S gene”）的研究发表，该研究用于描述 Sargasso Sea（围绕 Bermuda 的深蓝色海域）的群落结构。借助 16S gene 所提供的分辨率，作者发现了高度多样且丰度很高的 SAR11 生物簇（Giovannoni et al. 1990）。到 20 世纪 90 年代中期，16S 调查的速度不断加快，部分原因是 Sanger sequencing 成本下降，以及可用 16S 数据迅速增加。因此，Ribosomal Database Project（RDP; Cole et al. 2014）的序列集合大幅增长：在 1992 至 2001 年的 10 年间，从仅 471 条核糖体序列增加到超过 100 000 条。

尽管在 21 世纪，metagenomics（宏基因组学）几乎已经成为 DNA sequencing 的同义词，但该术语最早由 Handelsman et al.（1998）使用。当时他们利用功能克隆载体（functional cloning vectors）来表达直接从环境中分离得到的基因。“metagenomics”一词指的是以不依赖细菌分离和培养的方式，同时研究多个基因组。然而，这一术语后来扩展到涵盖其他环境表征方法，尤其是直接从环境中进行 DNA 测序；这种方法是一些里程碑式论文的核心，这些论文聚焦于表征 Sargasso Sea 和酸性矿山排水（acid-mine drainage）环境中的微生物组（Tyson et al. 2004; Venter et al. 2004）。

尽管 DNA 测序在表征微生物群落方面非常有用，但样品中存在某些基因并不保证这些基因正在主动参与相应系统中的生物化学过程。基于 marker genes（标记基因）和 metagenome samples（宏基因组样品）的 DNA 调查，不能区分不同条件下基因表达的差异，也不能揭示基因表达带来的代谢后果。这一局限性推动了一组扩展的“meta-omic”（宏组学）或“multi-omic”（多组学）技术的发展。之所以这样命名，是因为这些技术涵盖多种评估方法，包括分别针对群落 RNA、蛋白质和代谢物组成的 metatranscriptomics（宏转录组学）、metaproteomics（宏蛋白质组学）和 meta-metabolomics（宏代谢组学）。这些方法能够区分 DNA 含量没有显著差异的样品。然而，这些技术成本更高，样品制备和保存通常也更加复杂。这些新兴方法前景广阔；不过，鉴于基于 DNA 的方法应用最为广泛，本章的大部分内容将聚焦于 marker-gene analysis（标记基因分析）和 metagenomic analysis（宏基因组分析）。

宏基因组分析流程

宏基因组数据及相关类型数据的分析存在许多变体，但所有这类研究所使用的实验流程和分析流程具有很强的相似性（Figure 16.1）。

样品采集按照标准采集方案进行。该方案可能包括按大小过滤、岩芯或柱状取样（core sampling）、拭子采样（swabbing）等步骤。一个重要考虑因素是 DNA 保存条件的选择。例如，将样品在室温下放置较长时间，可能会对微生物群落组成以及生成序列的分类分布和功能分布产生负面影响（Choo et al. 2015）。用于其他类型方法的样品（例如 metatranscriptomics）必须更加谨慎地处理。例如，将用 mass spectrometry（质谱）表征的样品在提取前不得冷冻。

DNA 序列提取所使用的技术通常取决于样品来源生境，这是由样品的化学性质和物理一致性决定的。例如，土壤样品通常含有 humic acids（腐殖酸）——这类化合物会干扰用于制备和测序 DNA 的酶——因此，在 DNA 测序前必须进行 DNA purification（DNA 纯化）等处理。

随后通过构建序列“library”（文库）来进行 DNA 测序准备。序列文库是由待测基因组或多个基因组来源的、经过特殊制备的 DNA 片段集合。文库制备步骤可能包括 DNA 剪切、通过 PCR 进行扩增、添加 adapters（接头）以便测序，以及添加短而具有区分性的 DNA 序列（Hamady et al. 2008），用于区分同一次测序运行中测序的多个样品。制备方案通常与将要使用的 DNA 测序平台相对应。

Collect environmental sample

Store material

Sample preparation and QC

Metadata

Extract DNA

Sequence DNA

Quality control

Taxonomy and function

Statistical analysis

Figure 16.1 基于 DNA 的微生物组分析的一般流程。

140

Metagenomic Workflow

PDF page 528-529；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Metagenomic Workflow

<!-- PDF page 528 -->

# 宏基因组学与微生物群落分析

……以及 meta-metabolomics，分别以群落中的 RNA、蛋白质和代谢物组成为研究对象。这些方法能够区分那些在 DNA 含量上没有表现出显著差异的样本。然而，这些技术成本更高，样本制备和保存通常也更加复杂。这些新兴方法具有很大潜力，但鉴于基于 DNA 的方法已被广泛使用，本章的大部分内容将重点讨论 marker-gene 分析和 metagenomic analysis。

## Metagenomic Workflow

metagenomic 数据及相关类型数据的分析有许多变体，但这类研究所采用的实验流程和分析流程具有很强的相似性（Figure 16.1）。

- **样本采集**应按照标准采集方案进行。该方案可能包括按大小过滤、取芯采样、拭子采样等操作。一个重要考虑因素是用于保存 DNA 的条件选择。例如，将样本在室温下放置较长时间，可能会对微生物群落组成以及所生成序列的分类学分布和功能分布产生负面影响（Choo et al. 2015）。为其他类型方法（例如 metatranscriptomics）制备的样本必须更加谨慎地处理。例如，将使用 mass spectrometry 表征的样本在提取前不得冷冻。

- **DNA 序列提取**所采用的技术通常取决于样本来源生境，这是由样本的化学性质和物理一致性决定的。例如，土壤样本通常含有 humic acids（腐殖酸）——这类化合物会干扰用于制备和测序 DNA 的酶——因此，在进行 DNA sequencing 之前，必须先执行 DNA purification 等技术步骤。

- 随后，通过构建序列“library”来完成 **DNA sequencing 的准备工作**。sequence library 是一组经过特殊制备的 DNA 片段集合，这些片段来源于待测序的一个或多个基因组。library preparation 步骤可能包括 DNA shearing、通过 PCR 进行 amplification、添加用于促进测序的 adapters，以及添加短而具有区分性的 DNA 序列（Hamady et al. 2008），以区分在同一次测序运行中测序的多个样本。制备方案通常与将要使用的 DNA sequencing platform 相对应。

Collect environmental sample

↓

Store material

↓

Sample preparation and QC

↓

Extract DNA

↓

Sequence DNA

↓

Quality control

↓

Taxonomy and function

↓

Statistical analysis


**Figure 16.1** 基于 DNA 的 microbiome analysis 的一般工作流程。

<!-- PDF page 529 -->

141

General Considerations in Marker-Gene and Metagenomic Data Analysis

PDF page 529-531；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / General Considerations in Marker-Gene and Metagenomic Data Analysis

General Considerations in Marker-Gene and Metagenomic Data Analysis

标记基因与宏基因组数据分析的一般考虑

对上述一般工作流程进行细化，可能会显著影响后续需要执行的生物信息学分析。

DNA 测序平台的选择会强烈影响对微生物组信息的获取。DNA sequencing 技术正在快速变化；针对某一分析选择测序平台时，需要综合考虑多种因素，包括成本、预期错误率、预期错误类型、读长以及平台可获得性。随着每个核苷酸碱基的测序成本持续下降、新技术不断出现，某一项目的最佳平台选择也会随之改变。一般而言，多样性研究受益于更长的 read length。Marker-gene 研究通常基于某一基因的短片段，但对更长片段或整个基因进行测序，可以为分类学分类提供更高分辨率。在 shotgun metagenome 研究中，判断哪些 DNA 片段来自哪些基因组，在很大程度上会因获得长度 >1000 个核苷酸的 reads 而变得更容易。这类 reads 更有可能跨越难以组装的区域，例如重复序列、低复杂度区域或旁系同源基因（paralogous genes）。这有助于组装出更大的 contigs。

目前，少数几个测序平台几乎承担了全部环境 DNA 研究。Illumina 系列 DNA 测序仪能够以相对较低的成本产生数量非常庞大的 sequence reads，但 reads 较短，通常只有 150–300 nt。Illumina 测序仪的测序错误率约为 0.1%。鉴于其广泛使用，本章的大部分内容将重点讨论 short-read Illumina sequence data，但在适当位置也会提及其他技术。Pacific Biosciences（PacBio）RS II 能够产生长得多的 reads，其中位读长通常在 5000–10 000 nt 之间。虽然这对于 microbial community analysis 可能是一项优势，但其测序错误率（>10%）非常高。在许多应用中，常见做法是使用较长的 PacBio reads 构建 metagenomic contigs 的近似 scaffold，然后再进行 Illumina sequencing，以尽可能校正错误。Nanopore sequencing 是一种相对较新的技术，正开始应用于许多研究领域。与 PacBio 类似，Oxford Nanopore MinION 可以产生长 reads，但同样存在相对较高的错误率。Nanopore 方法按每个核苷酸序列计算的成本最高，但其目前的关键优势在于便携性，以及能够进行“real-time” sequencing。

在 metagenomic 和 marker-gene 研究中，数据质量是一个重要问题。如上所述，测序错误会给分析带来显著挑战。所有 DNA 测序平台都会产生错误，但不同平台产生的错误类型不同，例如序列替换（sequence substitutions）与插入（insertions）。因此，有必要依据质量指标对 sequence reads 进行过滤；这些质量指标通常表示在 FASTQ 格式文件中（Cock et al. 2009）。Phred scores 是一种广泛使用的序列质量度量，用于表示某一碱基被错误判定的概率。FASTQ files 在典型的序列和 header 信息之外，增加了逐碱基表示的 Phred scores。FastQC（www.bioinformatics.babraham.ac.uk/projects/fastqc）是一种广泛使用的工具，可根据样本 reads 的 Phred scores 对其进行汇总，并执行低质量序列区域的 trimming 以及低质量 reads 的移除（Figure 16.2）。

通常，平均质量分数低于给定阈值的 reads 会被移除；reads 中包含低质量 base calls 的片段也会被移除。虽然可以使用不同的质量阈值，但一种常见方法是在遇到一个相关质量低于给定阈值的核苷酸后截断 read，或者直接丢弃整个 read。Chimeric sequences 也可能在 PCR 过程中产生；由于这类序列来源于两个不同序列的部分片段，从分类学角度看会产生很强误导，因此应予以移除。

分析的计算成本同样重要。鉴于许多 metagenomic datasets 包含一百万条或更多 sequence reads，如果某些应用的运行时间或内存使用量随输入数据集规模呈二次方增长，甚至更糟，那么除非数据集非常小，或在详细分析之前已经经过非常严格的过滤，否则这类应用将不可行。一个简单例子是 all-versus-all homology search。在这一例子中，包含 n 条序列的数据集大约需要 n × n = n² 次比较；但如果数据集大小增加一倍，则需要 2n × 2n = 4n² 次比较。对于包含数亿条 reads 的 metagenomic datasets，以及包含数万个已测序基因组的 reference databases，这种扩展特性会带来不可承受的计算负担，因此需要高效的替代方案。Sequence alignment 是一个其扩展性能已被深入研究的领域；相关综述见 Baichoo and Ouzounis（2017）。

Figure 16.2 Illumina 测序运行中 DNA sequence read quality 的 FastQC 摘要。对于每一个 read position（横轴），图中显示 quality scores（纵轴）的分布。虽然最初几个 read positions 的平均分数较好（绿色带），但 quality score distributions 会迅速升高，许多位点在所有 reads 中都表现出较差质量（红色带）。Source: www.bioinformatics.babraham.ac.uk/projects/fastqc/bad_sequence_fastqc.html.

微生物组分析中使用的两类主要序列分类方法是 sequence searching/alignment 和 compositional similarity。Sequence searching 和 alignment 可用于识别 query sequences 与 reference database 中序列之间的同源性（homology）及相似程度（见 Chapter 3）。Compositional similarity 是一种将序列分解为 summary vectors 的方法，其中每一个向量元素描述序列的一个属性。迄今为止，最常见的这种表示方式涉及 k-mers（在 Taxonomic Assignment and Profiling 中会更详细介绍），即将一条序列分解为其所有长度为 k 的组成词。虽然 k-mers 会牺牲这些词在较大序列中位置上下文的信息，但其计算速度可以比 sequence alignment 方法快几个数量级。Sequence searching/alignment 和 compositional similarity 方法均改编自 metagenomic sequencing 出现之前已经开发的方法；但为了应对 metagenomic datasets 的独特性质，这些方法仍然需要进一步改进。

Metagenomic data analysis 中另一个重要考虑因素是 reference databases 的完整性和可靠性。如今，16S genes 数据库中已经包含超过 200 万条带有指定分类学信息的序列，但环境 16S surveys 不可避免地会产生一些与 reference database 中任何序列相似性都非常低的序列。对于这些 mystery sequences，应该如何处理？一种选择是使用无监督……

142

Marker Genes

PDF page 531-541；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Marker Genes

Marker Genes

另一种方法是基于序列一致性（sequence identity）或其他标准，将环境序列彼此关联起来，而不是通过与参考数据库比较来进行归属。另一种选择是在较高的分类层级上报告信息；例如，某条序列可能能够被可靠地分类到 Proteobacteria 门，但无法分类到更具体的层级。在这种情况下，该序列可以被纳入高层级的分类汇总，但在其他分类阶元中排除。参考分类数据库也体现了原核生物分类学的局限性，因为在 16S 系统发育树中，与不同分类群相关的序列常常混杂在一起（见第 9 章）。

类似的局限性也适用于为宏基因组读段分配功能注释。通过同源性进行功能分配（使用 BLASTX 或下文概述的其他序列搜索算法；另见第 3 章）是一种常见做法，但参考数据库中包含许多功能未知的基因。即使在所有微生物中研究最深入的 Escherichia coli K-12 MG1655 菌株中，许多预测基因仍被标注为 “hypothetical”（假定的）或 “putative”（推定的）。在许多宏基因组序列数据集中，预测基因常常匹配到功能未知的基因，因此在功能汇总中必须被舍弃，或归入 “other”（其他）类别。

另一个重要考虑因素是，从给定采样地点获得的微生物/序列多样性是否具有生态相关性。Baas-Becking 假说认为：“Everything is everywhere, but, the environment selects”（万物无处不在，但环境会进行选择）。这一假说对许多微生物是成立的，因为它们具有高度流动性，并且不受迁移屏障的严格限制（Baas-Becking 1934）。相邻生境之间具有很强的连通性，这一点可以从病原体在宿主之间传播，以及环境扰动后邻近生境的重新定殖中清楚地看到。虽然粪便样本常被用作人体肠道微生物组的替代样本，但靶向研究已经表明，肠道不同部位可以栖息不同类型的微生物，而一个粪便样本可能代表来自不同亚生境的生物混合物（Stearns et al. 2011）。迁移和生境连通性可能导致微生物群落中包含生态上并不相关的生物。对海洋生境的深度测序（Caporaso et al. 2012）揭示了许多丰度极低的序列。因此，在许多情况下，这些序列所代表的生物可能对周围环境影响很小。然而，不能假定稀有就意味着无关，因为稀有类群可能提供关键的代谢过程，并且某些稀有分类单元会偶尔出现丰度峰值，这种性质称为条件性稀有（conditional rarity）（Shade et al. 2014）。重复采样和重复实验有可能区分稀有分类单元与无关分类单元；但无论如何，研究者在判断观测到的分类单元和功能是否具有生态相关性时，都必须谨慎。

Marker Genes

标记基因（marker gene）是指具有某种表达功能的 DNA 序列，通常编码结构 RNA 或蛋白质；它存在于目标分类群的所有成员中，并且具有足够的变异性，能够区分该分类群中的不同成员。16S 基因是一种标记基因，由于若干原因，它在细菌和/或古菌多样性的一般性调查中占据主导地位。第一，作为核糖体的关键结构组分，16S rRNA 存在于所有原核生物中。第二，由于 16S 基因长期以来一直是早期分子系统发育研究的基础，它已经在许多微生物中得到广泛表征，并构成目前可获得的最全面的遗传生物多样性资源。第三，16S 基因包含高度保守区域，这些区域可作为有用的 PCR 引物结合位点，覆盖广泛的生物多样性。第四，保守区域夹在 9 个可变区两侧；这些可变区具有足够的特异性，能够将许多类群解析到属、种或菌株水平（Figure 16.3）。第五，由于 16S 基因不编码蛋白质，它不表现出通常的密码子简并模式，而这种模式会使引物设计复杂化。

因此，通过一个相对简单的流程，即分离并测序 16S 基因，就有可能表征样本中大多数细菌多样性。这一策略已经成功应用于数以千计的环境 DNA 调查。

Figure 16.3 Primary structure and variable regions of the 16S ribosomal RNA gene.

Figure 16.3 16S ribosomal RNA 基因的一级结构和可变区。具有高熵的高变区能够区分不同的细菌谱系，而低熵区域适合用于 polymerase chain reaction（PCR，聚合酶链式反应）引物设计。颜色表示在 RIM-DB 的古菌序列中某一给定同源位点被观察到的次数（Seedorf et al. 2014）。Source: doi.org/10.7717/peerj.494/fig-2.

然而，在设计 16S 实验时，需要牢记这种方法的若干局限性。第一，多拷贝基因可能导致某些细菌在扩增样本中过度代表，因此需要进行化学计量校正（stoichiometric corrections）（Kembel et al. 2012）。在少数情况下，多个拷贝的核苷酸序列差异可高达 10%，从而使正确的物种归属变得困难。第二，在基于短读段设计扩增子实验时，必须选择特定的引物对，使其靶向所有可变区中的一个子集。引物偏倚可能导致某些基因被过度代表，而其他基因被低估；每一种引物对选择都可能完全漏检某些基因。使用不同可变区进行的研究不能可靠地相互比较。第三，16S 基因并不总是能够解析物种或分离株内部非常接近的关系，因为任何观察到的变异都可能源于测序错误。

尽管存在这些局限性，16S 基因仍然是宏基因组研究中使用最广泛的靶标，并且能够产生稳健的结果，至少在单个研究内部具有一致性。如果某项研究无法接受 16S 方法的缺点，一种常见做法是使用替代标记，或如后文所述，直接从宏基因组数据中进行分类学推断。

143

Metagenomic Data Analysis

PDF page 541-548；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Metagenomic Data Analysis

The user wants me to translate a section of Bioinformatics 4e textbook about Metagen

omic Data Analysis into Chinese textbook style. Let me carefully translate this while

following all the requirements:

Professional and accurate, no information omitted, no added facts
Keep English terminology, software names, database names, URLs, literature citations

Translate Figure/Table/Box titles and descriptions, keep numbering
Keep references in English原文; translate Further Reading explanation text
Output Markdown body; no explanation of my process

Let me translate section by section carefully.

The user wants me to translate a section of Bioinformatics 4e textbook about Metagenomic Data Analysis into Chinese textbook style. Let me carefully translate this while following all the requirements:

Professional and accurate, no information omitted, no added facts
Keep English terminology, software names, database names, URLs, literature citations
Translate Figure/Table/Box titles and descriptions, keep numbering
Keep references in English原文; translate Further Reading explanation text
Output Markdown body; no explanation of my process

Let me translate section by section carefully.

宏基因组数据分析

与元数据的关联

多种统计和机器学习方法已被用于将分类学信息与环境元数据参数（如来源部位、土壤pH值和营养浓度）相关联。多种两样本和多样本检验方法，如t检验和方差分析（ANOVA）（及其置换变体，如PERMANOVA），已被用于识别样本之间和样本内部的显著差异。

标记基因分析回收的大量序列和OTU在统计分析中引发了多重检验问题：随着潜在预测变量的增多，部分预测变量很可能因偶然因素而产生显著关系。在这种情况下，必须进行多重检验校正，如Bonferroni校正或伪发现率（FDR）校正（见第18章）。除统计显著性外，还必须考虑效应量，因为统计结果可能具有非常小的p值，但不同类型样本之间却只有无意义的差异。STAMP（Parks等，2014）和LEfSe（Segata等，2011）是旨在解决宏基因组学中若干统计挑战的两个程序。LEfSe通过线性判别分析评估样本类型之间的差异，然后识别对类别间区分贡献最大的特征。LEfSe生成可视化结果，突出显示在不同类别样本中被过度代表或不足代表的分类群（图16.8）。

机器学习方法也被用于发现微生物组与环境数据之间的关联。16S序列和OTU数据的高维特性要求能够处理大量输入的方法，可能还需要使用前置特征选择方法来缩小感兴趣的候选群。Knights等（2011）应用了多种跨越统计学和机器学习的方法，包括随机森林和弹性网络分类器，使用OTU作为输入对若干参考宏基因组数据集进行分类。研究未发现明显的最优方法，这与"没有免费午餐"定理一致，该定理大致指出：没有任何单一分类器能在所有类型的分类问题中都全局最优。Ning和Beiko（2015）将特征选择和随机森林分类器应用于口腔微生物组样本的分类，发现灵活的系统发育分组定义往往比严格定义的OTU阈值更有效，这突显了OTU在微生物群落分析中的局限性。

基于标记基因的方法利用基因组多样性来构建微生物多样性的综合视图。然而，在设计标记基因调查和解释结果时，需要考虑本节所述的局限性。针对微生物群落分类学特征分析的不同方法进行比较，引发了人们对PCR分析方法准确性的重大担忧（Schirmer等，2015）。除这些技术考量外，另一个重要陷阱在于仅根据分类学名称就为分类群或OTU指定推定的生态作用。考虑到微生物快速生态多样化的能力，一个命名物种或属可能包含执行不同任务的多个不同谱系，有时其丰度之间可能表现出强烈的负相关。尽管存在这些局限性，16S基因等标记基因仍然是生成关于群落多样性和功能变化重要驱动因素假设的有用工具。

宏基因组数据分析

标记基因的优势在于其在所有采样分类群中的普遍分布；然而，其丰度或分类学归属很少能直接提供群落功能的证据。特定分类群的存在可能暗示特定生化功能的存在，但需要通过不同手段获得直接的功能证据。第一个宏基因组（而非基于标记基因的）分析（Handelsman等，1998）使用克隆和在载体库中表达，而非鸟枪法测序，来评估微生物群落中存在的功能范围。然而，克隆方法成本高昂，高通量测序（本节其余部分将讨论的内容）迅速成为表征微生物群落功能和分类多样性的标准方法。DNA测序所提供的细节水平允许更完整地枚举微生物群落中的候选功能，这些功能随后可用于构建群落功能模型。

从标记基因数据预测功能信息

最近开发的方法，如"通过重建未观察状态进行群落系统发育调查"（Phylogenetic Investigation of Communities by Reconstruction of Unobserved States，PICRUSt）（Langille等，2013），旨在从标记基因调查预测宏基因组功能库。这些预测方法利用了越来越多的已测序微生物基因组，这些基因组提供了标记物与候选功能之间的联系。PICRUSt基于将采样的16S序列插入一个参考树，该参考树包含所有微生物基因组中16S序列。环境序列的功能预测将基于在16S树中与之相近的基因组的基因含量。宏基因组中功能的整体预测基于与环境序列相关的所有功能的总和，并根据其在样本中的相对丰度进行加权。

PICRUSt的准确性依赖于两个相关因素：参考数据库中合适基因组的可用性，以及功能性状的保护程度。当宏基因组组成成分有大量密切相关序列基因组时，准确性最高。对多个生境的初始验证表明，在预测肠道宏基因组方面准确性最高；这在很大程度上是由于对人类肠道微生物组的许多参考基因组进行了深度测序。相反，在参考基因组少得多的生境中，如高盐环境，PICRUSt的准确性要低得多。PICRUSt准确性的第二个关键驱动因素是不同功能性状的保护程度。像核糖体蛋白这样的核心功能在更大的分类学距离上高度保守，因此更容易预测。对于保护程度较低的功能性状（如生境特异性转运蛋白），平均准确性较低，因为这些性状在小分类学范围内分布更加不均匀。预测的不确定性表示为均值预测周围的置信区间，置信区间越小表示预测越有信心。虽然PICRUSt只能生成宏基因组功能分解的预测，但这些预测可用于许多通常应用于真实宏基因组数据的工具。

宏基因组分析流程

与16S分析一样，宏基因组分析的每个相关步骤都有多种可用选项。由于宏基因组数据集包含从多个基因组随机测序的reads，宏基因组分析的某些方面类似于基因组组装和分析中使用的步骤。然而，序列reads的异质来源混淆了序列组装等步骤，并产生了分类归属的需求。Microbiome Helper（Comeau等，2017）是一个宏基因组分析软件包，将一套标准工具整合到一个整体工作流程中。其他宏基因组工作流程工具包括"模块化开源全基因组组装器的宏基因组版本"（metAMOS；Treangen等，2013）和MEtaGenome ANalyzer（MEGAN；Huson等，2016）。虽然本节其余部分以宏基因组数据分析的可信线性工作流程形式呈现，但基因注释、序列搜索和功能分配等不同方面可以在同一步骤中完成。例如，如果通过与参考数据库的序列比对来注释宏基因组基因，则可以在同一时间将为参考基因指定的功能注释分配给预测基因。

质量控制与配对端reads的合并

由于宏基因组学涉及随机DNA片段的测序，如果研究不感兴趣，来自噬菌体、病毒和真核宿主生物的序列可能会从数据集中移除。这些通常通过与参考数据库的比较来移除，使用高效的read比对工具如Bowtie2（Langmead和Salzberg，2012）。与参考数据库序列匹配的宏基因组reads会从宏基因组数据集中移除。

由于某些DNA测序平台对DNA片段的两端进行测序，相应的两个"配对端"序列可以拼接在一起，以保留它们在源基因组中彼此接近的信息。根据片段大小和读长，这些reads甚至可能重叠，在这种情况下，可以使用read拼接程序（如PEAR；Zhang等，2014）获得连续序列。如果reads不重叠，则两个配对端之间会有未知的序列，但它们彼此之间的间距仍然已知。

组装

虽然宏基因组分析可以直接在DNA序列reads上执行，但更长的重叠群（contig）提供了更多关于基因之间关联的信息，并为分类学和功能分布的推断提供了更好的统计信息。标准基因组组装器的一个关键假设是所有reads都来自同一克隆生物体。在宏基因组数据中，情况显然并非如此，组装因需要识别应被组装在一起的reads子集而变得复杂。如果给定样本中存在密切相关的菌株，可能无法识别特定reads的来源菌株，也难以进行跨菌株组装，因为高度保守区域与高变异或差异基因组含量区域会相互穿插。组装质量的关键指标（如N50，重叠群长度分布的度量）在组装质量评估中无关紧要，因为样本中的稀有生物不会被测序reads充分覆盖，因此往往会组装成短的重叠群或保持为未组装的碎片。长读长测序在这些情况下提供了巨大优势，因为数千核苷酸长度的reads提供了更好的组装信息，并且可以跨越许多难以组装的区域，包括含有重复序列和菌株特异性基因内容的区域。虽然配对端Illumina reads较短，但仍可以产生比不成对reads更大的重叠群。

宏基因组组装可以通过将序列reads和重叠群分箱为多个子集来简化，这些子集可以进一步组装。这种分箱可以通过比较重叠群特性——特别是核苷酸组成和相对丰度来实现。由于同一基因组的片段通常具有相似的核苷酸组成模式（即k-mer分布），具有相似分布的重叠群可被认为源自同一来源基因组。基于丰度的分箱方法基于这样的观点：在样本中具有相似丰度的生物应产生具有相同相对丰度的宏基因组重叠群。这些方法使得从环境中重建完整或接近完整的基因组成为可能。例如，Albertsen等（2013）使用差异丰度图谱和四核苷酸频率，将组装脚手架分配到来自废水反应器样本的31个不同的种群箱中，然后组装13个最丰富箱内的reads成为草图基因组。通过这种方法，作者能够从不具特征的门TM7中区分并重建四个高质量基因组。然而，分箱方法受到从短reads中可提取信息量的限制，现有基因组组装工具（如Ray Meta（Boisvert等，2012）和metaSPAdes（Nurk等，2017））的定制宏基因组变体应运而生。

基因注释与同源搜索

在参考序列数据库中搜索同源序列是宏基因组功能和分类注释的基本步骤。通常，只有编码蛋白质或结构RNA（如rRNA和tRNA）的区域才被作为同源注释的目标。宏基因组数据集基因注释的一个明显挑战是，宏基因组reads和重叠群很可能含有开放阅读框（ORF）的片段，可能缺少5'端区域、3'端区域或两者都缺失。在某些情况下，给定DNA序列reads可能没有足够的信息来进行任何注释，但即使存在足够长度的基因片段，也可能缺少正确的起始或终止密码子。虽然并非宏基因组数据集独有，但在宏基因组基因注释中，识别在现有序列数据库中没有已知同源物的新基因的挑战尤其突出。因此，互补方法（如基于密码子使用模式识别ORF）可能很重要。例如，Zhu等（2010）扩展了广泛使用的GeneMark基因注释软件包（见第5章）来开发MetaGeneMark，该软件包将参考微生物基因组的组成统计应用于宏基因组reads。

基于同源的基因注释可以通过多种方式实现。基于Burrows-Wheeler序列比对算法的read比对方法可用于将宏基因组reads和重叠群平铺（tiling）到参考基因组上。在许多情况下，特别是当宏基因组样本中存在新的分类群时，查询序列和参考序列之间的相似性可能太低，无法通过BWA（Li和Durbin，2009）和Bowtie 2（Langmead和Salzberg，2012）等Burrows-Wheeler方法识别。差异更大的序列可以使用BLAST算法套件（Altschul等，1997）识别——具体而言，BLASTN用于直接核苷酸-核苷酸比较，BLASTX用于将参考蛋白质数据库与宏基因组序列的六框概念翻译进行比较（见第3章）。BLASTN的一个优势是它可以识别基因间隔序列以及蛋白质编码基因，因此有可能识别基因组上紧密关联的基因集（通常称为连锁或同源基因），而不是没有位置背景的单个基因。然而，BLASTX搜索是在高度保守的蛋白质序列空间中进行的，这使得BLASTX更适合检测远缘同源物。这种敏感性需要付出显著的代价，因为BLASTX的六框翻译和动态规划元素对于大型数据集与大型参考数据库的比较在计算上非常耗时。最近加速序列比对的方法相对于BLASTX实现了高达四个数量级的加速。在一个这样的例子中，DIAMOND（Buchfink等，2015）被成功用于在单个工作站上在不到3小时内将一组北极永久冻土环境样本与NCBI nr数据库进行比较，而BLASTX需要800,000 CPU小时。DIAMOND通过一系列优化实现这种加速，包括不同的比对种子策略和减少的氨基酸字母表（11种氨基酸而非通常的20种）。

对于高灵敏度搜索，可以使用隐马尔可夫模型（HMM）等方法（见框5.3）。HMM残基频率以及蛋白质中位点特异性插入和删除概率特别适合用于注释短蛋白功能序列模体，因为它们具有更高的灵敏度。HMM通常从参考序列数据库训练，可能对应于蛋白质域或其他功能分组。"宏基因组功能本体论注释"（Functional Ontology Assignments for Metagenomes，FOAM）（Prestat等，2014）是一组超过70,000个HMM，从京都基因与基因组百科全书（KEGG）直系同源群训练，可作为宏基因组序列比较的参考数据库。

分类归属与谱系解析

上述基于同源性的程序产生带有相应功能标签的数据库匹配；如果查询序列和参考序列之间的匹配足够高，则可能为宏基因组序列指定相应的分类标签（如属和种）。对整个宏基因组数据集执行此方法，可用于构建样本的全球分类摘要，并将分类信息精确地分配给特定的reads和重叠群（及其相应的功能信息；见功能预测）。然而，宏基因组数据集对该方法提出了若干障碍。首先，与其他分析一样，缺少参考数据库表示的新分类群将无法在最低分类等级进行分类：相反，目、纲或门等较高级分类等级可能代表可以做出的最精确分类。其次，由于不同类型的基因显示出不同的保守程度，可能可以在种或菌株水平区分某些基因（如快速进化的代谢基因），但无法区分高度保守的基因（如编码核糖体蛋白或16S rRNA的基因）。第三，由于原核基因组大小可能相差一个数量级以上，较大的基因组在样本中会相对于较小的基因组被过度代表，歪曲预测的分类分布。这一限制与16S基因分析中的拷贝数问题类似。最后，像质粒和基因组岛这样的移动遗传元素可以通过横向基因转移过程轻松地在远缘相关生物之间移动，最近被转移到受体的基因可能仍会被归类到供体生物。因此，某些类别的基因必须谨慎对待。

k-mer分解已被许多软件包利用，以实现宏基因组序列的快速分类。根据用于比较分布的方法，基于k-mer的方法可能比序列比对方法快几个数量级。距离计算、高阶k-mer丰度的插值以及朴素贝叶斯（NB）（Rosen等，2011）等机器学习方法都被用于将宏基因组序列的组成与参考序列数据库进行比较。一般来说，这些方法往往比BLAST算法更快，但在分类归属方面精度较低。Kraken（Wood和Salzberg，2014）使用一种替代的k-mer建模和匹配方法，在保持相对于BLAST显著加速的同时实现高精度。Kraken的关键是将序列分解为长（默认31个核苷酸）k-mer：而不是尝试计算图谱之间的距离（对于4^31个k-mer来说这实际上是不可行的），每个已识别的k-mer被视为其自身的潜在分类标记。从参考数据库中的基因组推断预计算的进化树，然后将每个观察到的k-mer映射到所有发现该k-mer的生物的最近共同祖先。例如，如果给定的31个核苷酸序列仅在肠杆菌目观察到，则它将被视为该群的独特标记。宏基因组reads或重叠群被分解为k-mers，然后与参考树进行比较。k-mer集合的证据总和用于识别相应宏基因组序列最可能的来源谱系。在模拟宏基因组数据的试验中，Kraken显示出与MegaBLAST算法几乎相当的灵敏度，同时加速近1000倍。

鉴于宏基因组样本含有16S基因的片段，可以提取这些基因序列并执行分类学分类，以便与标准16S调查进行比较。这种方法的一个显著优势是消除了扩增偏差，因为在宏基因组数据生成中不使用PCR引物。然而，这种方式的分类谱系解析丢弃了几乎所有其他宏基因组数据，并且不同16S基因片段之间的比较可能很困难。此外，16S在扩增子研究中使用的一个关键驱动因素是其扩增的可行性，但宏基因组数据提供了数十个单拷贝且高度保守的核心基因的信息。包含数万个分类学参考基因组序列的基因组数据库允许对这些核心基因相关的分类学模式进行详细研究。

基于子集的方法为执行分类归属提供了另一条途径。这些方法基于一小部分核心基因的注释来生成宏基因组分类摘要，这些核心基因存在于大多数基因组中或基因组的目标子集中。两种广泛采用的方法PhyloSift和MetaPhlAn说明了这些方法之间的对比。PhyloSift（Darling等，2014）使用一组37个广泛分布的蛋白质家族，加上16S基因，这些序列显示出高度的系统发育一致性。这些序列首先通过与参考数据库的快速序列比对搜索在宏基因组数据集中识别。每个基因的参考集作为模型多序列比对和系统发育树进行维护。一旦识别出匹配的序列，就使用HMM将它们精确比对到模型比对，并使用Pplacer插入参考树。系统发育定位的摘要导致宏基因组分类组成的推断。相比之下，MetaPhlAn（Segata等，2012）采用相反的方法，构建了一个超过400,000个基因的参考数据库，这些基因对特定分支内的基因组是"核心"的，并被排除在该分支外的所有基因组之外。由于基因参考集相对于所有基因的规模较小，宏基因组数据集的同源处理可以非常快速地完成。

当然，如果研究者希望不仅了解"谁在那里"和"他们在做什么"，还希望了解"谁在做什么特定功能"，则必须使用组成评估和序列比对的某种组合，将每个宏基因组reads或重叠群与参考数据库匹配。Kraken通过其独特的组成方法实现这一点，BLAST提供了一种高度敏感但相对较慢的序列比对方法。BLAST的一个局限性是宏基因组序列与数据库的最佳匹配可能不代表正确的分类学分类，这可能是因为序列是新的，或者因为存在许多得分几乎相等的数据库匹配。类似于Kraken和PhyloSift采用的系统发育方法，一些方法使用所有预测蛋白质序列的系统发育映射来进行分类预测。MEGAN使用有效的最近共同祖先映射来估计宏基因组序列的分类等级。

功能预测

虽然"功能"可能是一个难以定义的术语，但在宏基因组学中，它通常指的是微生物组中生物执行酶促反应、与包括宿主在内的其他生物进行生态互作，以及构建重要分子结构（如鞭毛）的能力。功能可以用多种方式分类；例如，Gene Ontology（见第13章）层次结构的顶层将功能分为三类：生物过程（一系列功能，如生化途径）、分子功能（给定酶催化的反应类型）和细胞组分（蛋白质发挥作用的位置，如细胞质或周质空间）。功能也可以在不同组织层次上描述：例如，KEGG可以在包括功能、途径（功能的集合）和模块（途径的集合）的层次上定义功能。总结宏基因组功能的最简单方法是针对参考数据库执行序列比对搜索，并按宏基因组中特定功能的存在与否、相对丰度或多样性来总结搜索结果。然而，这种基本方法有几个局限性。

第一个局限性是蛋白质可能出现假阴性注释。在许多情况下，高度相似的同源蛋白质实际上可能具有不同功能：例如，具有相似氨基酸序列的转运蛋白和外排泵可能作用于不同底物并具有不同反应动力学，使得在没有大型且特征明确的参考序列数据库的情况下很难预测这些蛋白质的分子靶点。同时，宏基因组中的许多预测蛋白质可能匹配功能未经实验验证的假设蛋白质或根本不匹配任何参考蛋白质。因此，这些蛋白质不会对功能摘要提供直接信息。使用不同的参考序列数据库将导致不同的假阳性预测与未注释基因之间的平衡；Swiss-Prot数据库（UniProt Consortium，2018）仅包含手动注释和审查功能序列，产生的功能注释相对较少，但通常质量较高。相反，KEGG数据库（Kanehisa等，2017）具有更高的功能覆盖率，其中大部分未经实验验证或手动审查。因此，KEGG倾向于产生更多不正确的注释。可以使用专门的、经过整理的序列数据库来关注特定功能，包括用于碳水化合物活性酶的CAZy（Cantarel等，2008）和用于抗菌素耐药基因的综合抗生素耐药数据库（Jia等，2017）。

功能注释的另一个问题是因为通路中相对较少的步骤存在，或者因为单个功能出现在多个通路中，而对这些通路进行轻率的分配。朴素预测将产生过多的通路集，其中许多在样本中功能上无关。MinPath（Ye和Doak，2009）被开发用于解决这一局限性，它识别可以覆盖宏基因组中所有注释功能的最小通路集。将MinPath应用于参考宏基因组可将预测通路数量减少多达50%。HUMAnN（Abubucker等，2012）将MinPath作为管道的一部分，用于预测然后过滤预测的功能和通路，并报告通路的存在和相对丰度。

统计关联

与标记基因分析一样，宏基因组学的一个重要目标是发现生物多样性推断模式与环境参数之间的统计关联。分类学关联和共现模式可以与功能多样性和具有不同生态作用的近缘生物相对丰度的变化相结合。Jonsson等（2016）最近综述了用于比较宏基因组样本之间功能分布的统计检验和应用范围。该研究发现，用于评估两个或多个样本之间差异表达的转录分析工具DESeq2（Love等，2014）和edgeR（Robinson等，2010）与标准统计程序（如t检验）相比最为有效。功能数据的可用性也为代谢网络比较分析提供了机会。BiomeNet（Shafiei等，2014）使用无监督贝叶斯方法识别区分宏基因组样本类型的子网络。由于将代谢网络划分为通路可能有些武断，不预设通路特定边界的方法可能对功能变异更敏感。

宏基因组学是一项强大的技术，可以从微生物群落样本生成综合图谱。采样序列的多样性可以揭示关键的菌株水平多样性和变异，上述组装和注释方法已被用于从以前未表征的门中重建基因组。宏基因组分析的另一个有价值的应用是发现具有不同底物或活性水平的新基因变体。宏基因组数据继承了基因组分析的许多局限性，包括短reads组装和基于同源性的功能注释挑战。准确的長读长测序将显著减少组装问题。然而，鉴于长读长测序的成本相对较高，浪费在宿主DNA上的测序工作会产生大量额外成本。宏基因组学虽然非常有效地提供微生物组样本的功能横截面，但不提供关于对环境刺激或变化的转录反应的证据。与标记基因分析一样，可能很难识别推断存在于微生物群落样本中的哪些微生物是群落的"真正"成员——即代谢活跃并与其他生物互动的成员——与那些在给定生境中短暂存在的成员。做出这些区分需要针对考虑微生物组组成成分的功能和生态作用的方法。（Hanage 2014）概述了宏基因组数据分析中的一些数据解释挑战。

---

图16.8 LEfSe中可视化两组肠道微生物组样本之间的差异。此例中，来自有（绿色）或无（红色）蠕虫定植个体肠道的操作分类单元的系统发育分布（a）。红点表示在蠕虫阴性组中被过度代表的系统发育群和特定分类群，而绿色分组表示相反情况。（b）根据线性判别分析（LDA）评分的效应量大小。来源：Lee等（2014；doi.org/10.1371/journal.pntd.0002880.g003）。

144

Other Techniques to Characterize the Microbiome

PDF page 548-550；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Other Techniques to Characterize the Microbiome

Other Techniques to Characterize the Microbiome

表征微生物组的其他技术

所谓的 multi-omic datasets（多组学数据集）旨在解决 marker-gene analysis（标记基因分析）和 metagenomic analysis（宏基因组分析）的一些局限性。例如，这类数据集包括转录本表达和蛋白质表达的测量。由相似宏基因组谱所反映出的稳定多样性，可能掩盖微生物组在药物处理、快速温度变化、昼夜模式以及其他环境参数响应中的显著转录变化。其他方法，如 metabolomics（代谢组学），追踪的是微生物组的代谢输出，而不是分子序列数据（见第 14 章）。最后，一些用于解析宏基因组复杂性的方法，可以更精确地表征微生物组的子集以及单个组成成员。Franzosa et al. (2015) 对这些多组学技术中的许多方法进行了详细概述。

Metatranscriptomic datasets（宏转录组数据集）最早在 21 世纪初得到开创性应用，其利用 RNA-seq 等方法表征全球范围的微生物基因表达。Metatranscriptomics（宏转录组学）使用 differential expression analysis（差异表达分析）来识别表达基因以及样本之间的差异。DESeq2 (Love et al. 2014) 是一种常用程序，用于在多个样本之间识别具有差异丰度的转录本；其方法是先将序列 reads 映射到参考序列，然后计算差异的 fold change（倍数变化）和 statistical significance（统计显著性）。Metaproteomics（宏蛋白质组学）绕过核苷酸测序，使用蛋白质消化和质谱分析来识别可映射到参考基因组序列和宏基因组序列的片段。蛋白质组学技术（见第 11 章）可以是 discovery based（发现型）的，即试图获取所有蛋白质是否存在的信息；也可以是 targeted（靶向型）的，即选择性监测一小部分蛋白质。后者能够提供关于某些蛋白质的更精确信息，这些蛋白质可能对群落功能至关重要，或可作为候选 biomarkers（生物标志物）。

在许多环境中，微生物的一个关键作用是产生 metabolites（代谢物），这些代谢物可作为其他生物的能量来源。通过其酶促活性，微生物还可以转化细胞外化合物，从而改变这些化合物的功能和作用。Meta-metabolomics（宏代谢组学）识别系统中由不同代谢物生成的独特光谱模式，然后通过与参考数据库比较，将这些模式匹配到已知代谢物。代谢物谱的表征方式是识别 spectral peaks（光谱峰），并使用 XCMS (Smith et al. 2006) 等软件将这些峰与参考光谱数据库进行匹配，如第 14 章所述。

Stable isotope probing（稳定同位素探针技术）可用于追踪群落成员之间的代谢物流动。代谢过程中广泛使用的原子同位素，如 13C 和 15N，可用作 tracers（示踪剂）；当某一生物获得这些同位素时，会将其整合进自身生物分子中，随后再转移给其他生物。Berry et al. (2013) 使用稳定同位素探针技术追踪代谢物从小鼠宿主流向肠道微生物群的过程，并使用 fluorescent in situ hybridization (FISH，荧光原位杂交) 来测量特定标记基因的表达，从而确定 Akkermansia muciniphila 和 Bacteroides acidifaciens 是宿主蛋白的重要消费者。

鉴于许多环境具有高度多样性，一些微生物分类单元在宏基因组样本中代表性不足是不可避免的，这会导致只能获得部分组装结果，甚至无法组装，并造成表征不完整。对微生物组样本进行细分或亚采样，可以提高目标分类群的回收率。即使单个 isolates（分离株）不能在纯培养中生长，在许多情况下仍可培养多样性较低的 enrichment cultures（富集培养物）。如果某一富集培养物无法进一步纯化，那么其中相应的较小微生物集合可能存在 obligate interactions（专性相互作用），例如代谢途径中的 cross-feeding（交叉供养），以及 oxygen scavenging（清除氧气）等环境功能。微生物组也可以通过 cell sorting（细胞分选）进一步划分为更易处理的子集。微生物可以按大小进行分离，也可以基于其他性质，使用 FISH 靶向目标基因来进行划分。这种方法曾被用于发现并描述此前未被检测到的、来自地中海最深处的超小型 Actinobacteria（放线菌门细菌）(Ghai et al. 2013)。在极端情况下，分选可以获得单个细胞，随后可使用 multiple displacement amplification (MDA，多重置换扩增) 等单细胞技术对其进行测序。虽然 MDA 不能产生完整的基因组序列，并且容易受到污染，但所获得的序列仍具有信息价值，并可作为组装更多宏基因组数据的 scaffolds（支架）。

近年来，细胞培养技术的进展促进了 “culturomic”（培养组学）方法的发展。在这种方法中，微生物组样本被转移到一系列不同类型的培养基上，不同的生长条件会有利于不同微生物的生长。将微生物组中的多种谱系分离培养，可以开展实验筛选和测试，从而补充分子层面的分析。

结合不同类型数据的研究能够揭示微生物组中调控过程及其他过程的作用。虽然细菌中的基因表达通常被认为是在转录水平实现的，但近期研究提示，post-translational modification（翻译后修饰）可能具有尚未被充分认识的调控作用。Chen et al. (2016) 整合了 1000 多个宏转录组和宏蛋白质组数据集，提出在 Mycoplasma genitalium 中，基因组大小与 post-transcriptional regulation（转录后调控）重要性之间存在反向关系。McHardy et al. (2013) 结合宏基因组分析和宏代谢组分析，识别出肠道微生物组中特定属的存在与所观察到的特定代谢物之间的相关性。在其他观察结果中，他们发现 Roseburia 和 Faecalibacterium 与预测的 short-chain fatty acid（短链脂肪酸）合成酶之间存在强关联；鉴于短链脂肪酸在炎症和免疫中具有重要作用，并且可作为 colonocytes（结肠细胞）的营养来源，这一发现突出了这些属在人类肠道中的重要性。

145

Summary + Internet Resources + Further Reading + References

PDF page 550-556；印刷页码待核对

▶

Ch16 Metagenomics and Microbial Community Analysis / Summary + Internet Resources + Further Reading + References

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter

16: Metagenomics and Microbial Community Analysis) into Chinese in a textbook style

. This includes:

Summary
Internet Resources (table with major data resources, functional information resources

, marker-gene analysis tools, metagenomic analysis tools)

Further Reading
References

Key requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, citations in English
Translate Figure/Table/Box titles and descriptions, keep numbering
Keep References in English
Translate Further Reading descriptions
Output Markdown
Don't explain my process

Let me translate this carefully, maintaining the textbook style and professional terminology

in Chinese bioinformatics field.

The user wants me to translate a section of the Bioinformatics 4e textbook (Chapter 16: Metagenomics and Microbial Community Analysis) into Chinese in a textbook style. This includes:

Summary
Internet Resources (table with major data resources, functional information resources, marker-gene analysis tools, metagenomic analysis tools)
Further Reading
References

Key requirements:

Professional and accurate translation
Keep English terms, software names, database names, URLs, citations in English
Translate Figure/Table/Box titles and descriptions, keep numbering
Keep References in English
Translate Further Reading descriptions
Output Markdown
Don't explain my process

Let me translate this carefully, maintaining the textbook style and professional terminology in Chinese bioinformatics field.

本章小结

不同生境中微生物组的评估与表征工作面临巨大挑战，这从已开发出的多种微生物采样与分析方法中便可窥见一斑。微生物组分析不仅继承了微生物基因组分析中的所有挑战与局限，还叠加了高多样性、时间动态不稳定、以及分类单元与生态单元不确定等难题。采样与分析过程中引入的偏倚往往会歪曲研究结果。然而，过去十年间生物信息学技术的快速发展已产生了稳健可靠的研究结论，并开辟了微生物组结构与功能研究的新领域。

微生物组采样与分析技术的预期改进将深化我们对多种环境中微生物群落的认识。在技术层面，长读长DNA测序将革新宏基因组数据的组装与分析工作。虽然长读长序列也能增强标记基因分析的稳健性，但随着鸟枪法测序和单细胞测序方法的成本持续降低、可行性不断上升，16S rRNA基因分析法的热度能否延续尚待观察。基因组参考数据库（包括从宏基因组数据中组装获得的基因组）的增长，将有助于提高群落结构推断的分类分辨率。然而，未来五年内最重要的转变将是元组学技术及其数据集的采纳与整合日益增多，从而将遗传潜能与代谢活性、群落成员间的明确联系耦合起来。这些方法的交叉融合将是近期生物信息学技术关注的重点领域。

网上资源

主要数据资源

资源名称	说明	网址
Earth Microbiome Project	大型标记基因调查数据库	www.earthmicrobiome.org
Genomes OnLine Database (GOLD)	符合数据报告标准的基因组项目数据库	gold.jgi.doe.gov
Greengenes (Second Genome)	16S rRNA参考数据库	greengenes.secondgenome.com
Human Microbiome Project (HMP)	HMP数据分析控制中心	hmpdacc.org
MetaHIT	欧洲参考宏基因组项目	www.metahit.eu
MG-RAST metagenomics data server	宏基因组学数据与分析服务器	metagenomics.anl.gov
Ribosomal Database Project	16S rRNA参考数据库	rdp.cme.msu.edu
SILVA	16S rRNA参考数据库	www.arb-silva.de
Tara Oceans	Tara Oceans考察数据库	www.ebi.ac.uk/services/tara-oceans-data

功能信息资源

资源名称	说明	网址
CARD	综合抗生素耐药性数据库（The Comprehensive Antibiotic Resistance Database）	card.mcmaster.ca
CAZy	碳水化合物代谢数据库	www.cazy.org
Gene Ontology	蛋白质功能分类（附证据编码）	www.geneontology.org
Kyoto Encyclopedia of Genes and Genomes	大型功能、通路与模块信息数据库	www.genome.jp/kegg
UniProtKB/Swiss-Prot	实验验证蛋白质功能数据库	web.expasy.org/docs/swiss-prot_guideline.html

标记基因分析工具

工具名称	说明	网址
FastQC	序列读长质量控制软件	www.bioinformatics.babraham.ac.uk/projects/fastqc
mothur	标记基因分析集成化流程	www.mothur.org
PICRUSt	从标记基因预测宏基因组功能的软件	picrust.github.io/picrust
QIIME 2	标记基因分析集成化流程	qiime2.org

宏基因组分析工具

工具名称	说明	网址
BiomeNet	识别不同类型宏基因组特征性反应的方法	sourceforge.net/projects/biomenet
HUMAnN	宏基因组通路注释软件	huttenhower.sph.harvard.edu/humann
metAMOS	宏基因组工作流软件	www.cbcb.umd.edu/software/metamos
MEtaGenome ANalyzer (MEGAN) 6	宏基因组分析软件（含用于分类的最近共同祖先算法）	ab.inf.uni-tuebingen.de/software/megan6
Microbiome Helper	宏基因组工作流软件	github.com/mlangill/microbiome_helper

延伸阅读

Franzosa, E.A., Hsu, T., Sirota-Madi, A. et al. (2015). Sequencing and beyond: integrating molecular 'omics' for microbial community profiling. Nat. Rev. Microbiol. 13: 360–372. 本综述展望了新兴的DNA依赖型及互补性元组学方法，及其对未来微生物组研究的启示。

Hanage, W.P. (2014). Microbiome science needs a healthy dose of scepticism. Nature 512: 247. 本文简要阐述了宏基因组数据解读中的若干关键陷阱，以及如何从数据中识别具有生物学意义的变化趋势。

Sczyrba, A., Hofmann, P., Belmann, P. et al. (2017). Critical assessment of metagenome interpretation – a benchmark of metagenomics software. Nat. Methods 14: 1063. 最近一项对宏基因组数据组装和分类归属技术的比较评估研究。

Sharpton, T.J. (2014). An introduction to the analysis of shotgun metagenomic data. Front. Plant Sci. 5: 209. 综述了宏基因组分析的各种技术方法，列举并引用了广泛的分析策略。

参考文献

Abubucker, S., Segata, N., Goll, J. et al. (2012). Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8: e1002358.

Albertsen, M., Hugenholtz, P., Skarshewski, A. et al. (2013). Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes. Nat. Biotechnol. 31: 533–538.

Altschul, S.F., Madden, T.L., Schäffer, A.A. et al. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25: 3389–3402.

Baas-Becking, L.G.M. (1934). Geobiologie; of inleiding tot de milieukunde. [In Dutch.]. The Hague, Netherlands: WP Van Stockum & Zoon NV.

Baichoo, S. and Ouzounis, C.A. (2017). Computational complexity of algorithms for sequence comparison, short-read assembly and genome alignment. Biosystems 156: 72–85.

Balvočiūtė, M. and Huson, D.H. (2017). SILVA, RDP, Greengenes, NCBI and OTT—how do these taxonomies compare? BMC Genomics 18: 114.

Berry, D., Stecher, B., Schintlmeister, A. et al. (2013). Host-compound foraging by intestinal microbiota revealed by single-cell stable isotope probing. Proc. Natl. Acad. Sci. USA. 110: 4720–4725.

Boisvert, S., Raymond, F., Godzaridis, É. et al. (2012). Ray Meta: scalable de novo metagenome assembly and profiling. Genome Biol. 13: R122.

Brown, M.V., Lauro, F.M., DeMaere, M.Z. et al. (2012). Global biogeography of SAR11 marine bacteria. Mol. Syst. Biol. 8: 595.

Buchfink, B., Xie, C., and Huson, D.H. (2015). Fast and sensitive protein alignment using DIAMOND. Nat. Methods 12: 59–60.

Callahan, B.J., McMurdie, P.J., Rosen, M.J. et al. (2016). DADA2: high-resolution sample inference from Illumina amplicon data. Nat. Methods 13: 581.

Cantarel, B.L., Coutinho, P.M., Rancurel, C. et al. (2008). The Carbohydrate-Active EnZymes database (CAZy): an expert resource for glycogenomics. Nucleic Acids Res. 37 (Database issue): D233–D238.

Caporaso, J.G., Kuczynski, J., Stombaugh, J. et al. (2010). QIIME allows analysis of high-throughput community sequencing data. Nat. Methods 7: 335–336.

Caporaso, J.G., Paszkiewicz, K., Field, D. et al. (2012). The Western English Channel contains a persistent microbial seed bank. ISME J. 6: 1089–1093.

Chen, W.H., van Noort, V., Lluch-Senar, M. et al. (2016). Integration of multi-omics data of a genome-reduced bacterium: prevalence of post-transcriptional regulation and its correlation with protein abundances. Nucleic Acids Res. 44: 1192–1202.

Choo, J.M., Leong, L.E., and Rogers, G.B. (2015). Sample storage conditions significantly influence faecal microbiome profiles. Sci. Rep. 5: 16350.

Cock, P.J., Fields, C.J., Goto, N. et al. (2009). The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Res. 38: 767–1771.

Cole, J.R., Wang, Q., Fish, J.A. et al. (2014). Ribosomal Database Project: data and tools for high throughput rRNA analysis. Nucleic Acids Res. 42 (Database issue): D633–D642.

Comeau, A.M., Douglas, G.M., and Langille, M.G. (2017). Microbiome Helper: a custom and streamlined workflow for microbiome research. mSystems 2: e00127–e00116.

Darling, A.E., Jospin, G., Lowe, E. et al. (2014). PhyloSift: phylogenetic analysis of genomes and metagenomes. PeerJ 2: e243.

DeSantis, T.Z., Hugenholtz, P., Larsen, N. et al. (2006). Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB. Appl. Environ. Microbiol. 72: 5069–5072.

Edgar, R.C., Haas, B.J., Clemente, J.C. et al. (2011). UCHIME improves sensitivity and speed of chimera detection. Bioinformatics 27: 2194–2200.

Ghai, R., Mizuno, C.M., Picazo, A. et al. (2013). Metagenomics uncovers a new group of low GC and ultra-small marine Actinobacteria. Sci. Rep. 3: 2471.

Giovannoni, S.J. (2017). SAR11 bacteria: the most abundant plankton in the oceans. Annu. Rev. Marine Sci. 9: 231–255.

Giovannoni, S.J., Britschgi, T.B., Moyer, C.L., and Field, K.G. (1990). Genetic diversity in Sargasso Sea bacterioplankton. Nature 345: 60.

Hanage, W.P. (2014). Microbiome science needs a healthy dose of scepticism. Nature 512: 247.

Hamady, M., Walker, J.J., Harris, J.K. et al. (2008). Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nat. Methods 5: 235.

Handelsman, J., Rondon, M.R., Brady, S.F. et al. (1998). Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products. Chem. Biol. 5: R245–R249.

Hird, S.M., Carstens, B.C., Cardiff, S.W. et al. (2014). Sampling locality is more detectable than taxonomy or ecology in the gut microbiota of the brood-parasitic Brown-headed Cowbird (Molothrus ater). PeerJ 2: e321.

Hunt, D.E., Klepac-Ceraj, V., Acinas, S.G. et al. (2006). Evaluation of 23S rRNA PCR primers for use in phylogenetic studies of bacterial diversity. Appl. Environ. Microbiol. 72: 2221–2225.

Huson, D.H., Beier, S., Flade, I. et al. (2016). MEGAN community edition-interactive exploration and analysis of large-scale microbiome sequencing data. PLoS Comput. Biol. 12: e1004957.

Huttenhower, C., Gevers, D., Knight, R. et al. (2012). Structure, function and diversity of the healthy human microbiome. Nature 486: 207.

Jia, B., Raphenya, A.R., Alcock, B. et al. (2017). CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database. Nucleic Acids Res. 45 (D1): D566–D573.

Jonsson, V., Österlund, T., Nerman, O., and Kristiansson, E. (2016). Statistical evaluation of methods for identification of differentially abundant genes in comparative metagenomics. BMC Genomics 17: 78.

Kanehisa, M., Furumichi, M., Tanabe, M. et al. (2017). KEGG: new perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1): D353–D361.

Kang, D.W., Adams, J.B., Gregory, A.C. et al. (2017). Microbiota transfer therapy alters gut ecosystem and improves gastrointestinal and autism symptoms: an open-label study. Microbiome 5: 10.

Karlsson, E.A., Small, C.T., Freiden, P. et al. (2015). Non-human primates harbor diverse mammalian and avian astroviruses including those associated with human infections. PLoS Pathog. 11: e1005225.

Kembel, S.W., Wu, M., Eisen, J.A., and Green, J.L. (2012). Incorporating 16S gene copy number information improves estimates of microbial diversity and abundance. PLoS Comput. Biol. 8: e1002743.

Knights, D., Costello, E.K., and Knight, R. (2011). Supervised classification of human microbiota. FEMS Microbiol. Rev. 35: 343–359.

Koskinen, K., Pausan, M.R., Perras, A.K. et al. (2017). First insights into the diverse human archaeome: specific detection of archaea in the gastrointestinal tract, lung, and nose and on skin. MBio 8: e00824–e00817.

Labrière, N., Laumonier, Y., Locatelli, B. et al. (2015). Ecosystem services and biodiversity in a rapidly transforming landscape in Northern Borneo. PLoS One 10: e0140423.

Langille, M.G., Zaneveld, J., Caporaso, J.G. et al. (2013). Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat. Biotechnol. 31: 814–821.

Langmead, B. and Salzberg, S.L. (2012). Fast gapped-read alignment with Bowtie 2. Nat. Methods 9: 357–359.

Lee, S.C., San Tang, M., Lim, Y.A. et al. (2014). Helminth colonization is associated with increased diversity of the gut microbiota. PLoS Negl. Trop. Dis. 8: e2880.

Ley, R.E., Bäckhed, F., Turnbaugh, P. et al. (2005). Obesity alters gut microbial ecology. Proc. Natl. Acad. Sci. USA. 102: 11070–11075.

Li, H. and Durbin, R. (2009). Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics 25: 1754–1760.

Love, M.I., Huber, W., and Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 15: 550.

Lozupone, C. and Knight, R. (2005). UniFrac: a new phylogenetic method for comparing microbial communities. Appl. Environ. Microbiol. 71: 8228–8235.

Lu, Z., Deng, Y., Van Nostrand, J.D. et al. (2012). Microbial gene functions enriched in the Deepwater Horizon deep-sea oil plume. ISME J. 6: 451–460.

Mahé, F., Rognes, T., Quince, C. et al. (2014). Swarm: robust and fast clustering method for amplicon-based studies. PeerJ 2: e593.

Matsen, F.A., Kodner, R.B., and Armbrust, E.V. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics. 11: 538.

McHardy, I.H., Goudarzi, M., Tong, M. et al. (2013). Integrative analysis of the microbiome and metabolome of the human intestinal mucosal surface reveals exquisite inter-relationships. Microbiome 1: 17.

Murat Eren, A.M., Maignien, L., Sul, W.J. et al. (2013). Oligotyping: differentiating between closely related microbial taxa using 16S rRNA gene data. Meth. Ecol. Evol. 4: 1111–1119.

NCBI Resource Coordinators (2018). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 46 (D1): D8–D13.

Ning, J. and Beiko, R.G. (2015). Phylogenetic approaches to microbial community classification. Microbiome 3: 47.

Nurk, S., Meleshko, D., Korobeynikov, A., and Pevzner, P.A. (2017). metaSPAdes: a new versatile metagenomic assembler. Genome Res. 27: 824–834.

Parks, D.H. and Beiko, R.G. (2013). Measures of phylogenetic differentiation provide robust and complementary insights into microbial communities. ISME J. 7: 173–183.

Parks, D.H., Tyson, G.W., Hugenholtz, P., and Beiko, R.G. (2014). STAMP: statistical analysis of taxonomic and functional profiles. Bioinformatics 30: 3123–3124.

Paulson, J.N., Stine, O.C., Bravo, H.C., and Pop, M. (2013). Differential abundance analysis for microbial marker-gene surveys. Nat. Methods 10: 1200–1202.

Prestat, E., David, M.M., Hultman, J. et al. (2014). FOAM (functional ontology assignments for metagenomes): a hidden Markov model (HMM) database with environmental focus. Nucleic Acids Res. 42: e145–e145.

Quast, C., Pruesse, E., Yilmaz, P. et al. (2013). The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. Nucleic Acids Res. 41 (Database issue): D590–D596.

Robinson, M.D., McCarthy, D.J., and Smyth, G.K. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26: 139–140.

Rocap, G., Distel, D.L., Waterbury, J.B., and Chisholm, S.W. (2002). Resolution of Prochlorococcus and Synechococcus ecotypes by using 16S-23S ribosomal DNA internal transcribed spacer sequences. Appl. Environ. Microbiol. 68: 1180–1191.

Rosen, G.L., Reichenberger, E.R., and Rosenfeld, A.M. (2011). NBC: the Naive Bayes Classification tool webserver for taxonomic classification of metagenomic reads. Bioinformatics 27: 127–129.

Schirmer, M., Ijaz, U.Z., D'Amore, R. et al. (2015). Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform. Nucleic Acids Res. 43: e37.

Schloss, P.D., Westcott, S.L., Ryabin, T. et al. (2009). Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Appl. Environ. Microbiol. 75: 7537–7541.

Seedorf, H., Kittelmann, S., Henderson, G., and Janssen, P.H. (2014). RIM-DB: a taxonomic framework for community structure analysis of methanogenic archaea from the rumen and other intestinal environments. PeerJ. 2: e494.

Segata, N., Izard, J., Waldron, L. et al. (2011). Metagenomic biomarker discovery and explanation. Genome Biol. 12: R60.

Segata, N., Waldron, L., Ballarini, A. et al. (2012). Metagenomic microbial community profiling using unique clade-specific marker genes. Nat. Methods 9: 811–814.

Shade, A., Jones, S.E., Caporaso, J.G. et al. (2014). Conditionally rare taxa disproportionately contribute to temporal changes in microbial diversity. MBio 5: e01371–e01314.

Shafiei, M., Dunn, K.A., Chipman, H. et al. (2014). BiomeNet: a Bayesian model for inference of metabolic divergence among microbial communities. PLoS Comput. Biol. 10: e1003918.

Sonnenborn, U. and Schulze, J. (2009). The non-pathogenic Escherichia coli strain Nissle 1917–features of a versatile probiotic. Microb. Ecol. Health Dis. 21: 22–158.

Stackebrandt, E. and Goebel, B.M. (1994). Taxonomic note: a place for DNA-DNA reassociation and 16S rRNA sequence analysis in the present species definition in bacteriology. Int. J. Syst. Evol. Microbiol. 44: 846–849.

Stahl, D.A., Lane, D.J., Olsen, G.J., and Pace, N.R. (1985). Characterization of a Yellowstone hot spring microbial community by 5S rRNA sequences. Appl. Environ. Microbiol. 49: 1379–1384.

Stearns, J.C., Lynch, M.D., Senadheera, D.B. et al. (2011). Bacterial biogeography of the human digestive tract. Sci. Rep. 1: 170.

Sunagawa, S., Coelho, L.P., Chaffron, S. et al. (2015). Structure and function of the global ocean microbiome. Science 348: 1261359.

Thompson, L.R., Sanders, J.G., McDonald, D. et al. (2017). A communal catalogue reveals Earth's multiscale microbial diversity. Nature 551: 457–463.

Treangen, T.J., Koren, S., Sommer, D.D. et al. (2013). MetAMOS: a modular and open source metagenomic assembly and analysis pipeline. Genome Biol. 14: R2.

Turnbaugh, P.J., Ley, R.E., Hamady, M. et al. (2007). The human microbiome project. Nature 449: 804.

Tyson, G.W., Chapman, J., Hugenholtz, P. et al. (2004). Community structure and metabolism through reconstruction of microbial genomes from the environment. Nature 428: 37.

UniProt Consortium (2018). UniProt: the universal protein knowledgebase. Nucleic Acids Res. 46: 2699.

Venter, J.C., Remington, K., Heidelberg, J.F. et al. (2004). Environmental genome shotgun sequencing of the Sargasso Sea. Science 304: 66–74.

Vuong, H.E. and Hsiao, E.Y. (2017). Emerging roles for the gut microbiome in autism spectrum disorder. Biol. Psychiatry 81: 411–423.

Wang, Q., Garrity, G.M., Tiedje, J.M., and Cole, J.R. (2007). Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Appl. Environ. Microbiol. 73: 5261–5267.

Weiss, S., Xu, Z.Z., Peddada, S. et al. (2017). Normalization and microbial differential abundance strategies depend upon data characteristics. Microbiome 5: 27.

Wood, D.E. and Salzberg, S.L. (2014). Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biol. 15: R46.

Ye, Y. and Doak, T.G. (2009). A parsimony approach to biological pathway reconstruction/inference for genomes and metagenomes. PLoS Comput. Biol. 5: e1000465.

Zhang, J., Kobert, K., Flouri, T., and Stamatakis, A. (2014). PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics 30: 614–620.

Zhu, W., Lomsadze, A., and Borodovsky, M. (2010). Ab initio gene identification in metagenomic sequences. Nucleic Acids Res. 38: e132–e132.

Chapter 17

Translational Bioinformatics

146

Introduction

PDF page 557-558；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Introduction

Introduction

转化生物信息学（translational bioinformatics）是一门新兴学科，它利用信息学和计算方法，在基础科学与临床及临床科学之间架起桥梁。随着基因组学和其他高通量技术的发展，我们正在见证一场围绕信息学方法展开的变革，而这些方法会直接影响人类健康。如今，我们已经能够以高度可重复的精度，低成本、快速地对人体组织和生物流体进行分子谱分析，因此这一令人振奋的领域正在迅速成长，并以更快的速度演进。本章概述转化信息学的基础内容，以及当前活跃研究领域。该领域的发展由我们收集海量异质数据的能力所驱动；这些数据共同描述患者、患者所处环境，以及患者表型的各种实验模型，包括利用模式生物推断得到的患者表型模型。转化信息学研究者开发或利用计算工具，以加深我们对基因型与表型之间关系的理解，并进一步利用这些知识改善患者健康结局。

与转化生物信息学相关的技术和数据包括高通量分子数据（如基因组、转录组、蛋白质组和代谢组）、电子健康记录（electronic health record, EHR）数据、行为数据（例如由智能手机传感器获得的数据）、社交媒体数据，以及环境暴露数据（例如空气或水质测量数据）。目前，人们正在积极开发计算工具，用于整合其中两种或更多类型的数据，并利用这些数据描述和理解患者表型。基于表型模型，可以进一步预测干预措施的结果，例如治疗反应或疾病进展。例如，研究人员正在开发用于癌症检测的血液检测方法、基于移动智能手机活动评估临床抑郁风险的检测方法，以及通过尿液实现肾脏疾病早期检测的方法。然而，仍有大量工作有待完成，因为针对人类基因组开发、用于识别疾病风险变异的方法，其准确性仍不及临床医生自身的判断。同样，新的数据整合方法也正在被开发出来，这些方法纳入新的数据类型，并通过使用标准数据模型使数据整合更加容易。大规模患者研究参与者群体（队列，cohorts）正在被招募，用于理解人群层面的疾病风险和治疗结局，从而创造出更多数据分析机会；这些项目包括 Million Veterans Program、National Institute of Health’s (NIH) All of Us initiative，以及 UK Biobank。

在基因和蛋白质研究中，理解并开展基于患者表型的计算分析正变得越来越重要，这也是转化信息学领域的主要关注点之一。随着我们开始在基因和蛋白质水平上理解某一特定疾病的分子病因，我们也开始认识到，该疾病实际临床表现的差异可能具有分子基础。对患者个体表型进行量化以定制治疗方案，是一个重要活跃研究领域的基础，这一领域被称为“精准医学”（precision medicine）。精准医学还通过将患者越来越精确地分类到不同组别或亚型中，帮助我们更好地理解疾病的分子病因，从而降低临床观察结果中的异质性。

Bioinformatics, Fourth Edition. Edited by Andreas D. Baxevanis, Gary D. Bader, and David S. Wishart.

Companion Website: www.wiley.com/go/baxevanis/Bioinformatics_4e

因此，转化信息学具有很高的应用前景。它是少数能够直接应用于患者照护场景的生物信息学领域之一。用于识别致病变异的方法可以被临床遗传学家使用，以判断患者是否可能易患某种遗传性疾病，并据此提出建议。用于药物再利用或药物相互作用分析的工具可以被临床医生用于为患者识别个体化治疗方案。亚型和疾病分期的生化标志物可以用于癌症治疗决策。用于预测疾病风险的方法可以直接整合到患者病历和医疗服务提供者的临床信息学系统中。然而，这些应用并非没有风险。收集用于描述患者的大规模异质数据集，可能会影响患者隐私。同样，如果不准确或开发不充分的方法被过度自信地应用，也可能对患者造成伤害。因此，理解任何转化信息学研究或方法的风险、收益及其适当应用方式，是非常重要的。

147

Databases Describing the Genetics of Human Health

PDF page 558-560；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Databases Describing the Genetics of Human Health

描述人类健康遗传学的数据库

转化生物信息学领域的核心挑战之一，是理解基因型（genotype）与表型（phenotype）之间的关系。因此，该领域早期相当多的工作重点集中在人类基因组的收集与解读上。在临床环境中进行基因组测序正变得越来越普遍，并且与以往相比，正在应用于更多类型的患者群体。这促成了大型遗传变异数据库的出现；这些数据库中的遗传变异已经被标注为与人类疾病和表型相关。

这些数据库基于科学研究中的发现：研究者识别出某些遗传变异在具有特定疾病或表型的患者中出现的频率，高于随机情况下的预期；这类研究称为关联研究（association studies）。由于关联研究基于统计观察，因此它们不一定能够识别疾病的根本遗传原因，尤其是在研究参与者数量相对较少的情况下。早期与特定疾病相关的遗传变异数据库，是通过人工审查和整理描述已鉴定致病变异的论文建立的；但此后我们了解到，其中一些变异被错误地关联到了疾病上，实际上并不具有致病性。为克服这一问题，较新的遗传变异资源不仅纳入同行评议出版物中的证据，还提供其他关于致病性（pathogenicity）和因果关系（causation）的证据线索，包括遗传检测机构的报告。American College of Medical Genetics（ACMG）近期制定了遗传变异临床解读指南，其中包括对计算方法的使用（Richards et al. 2015）。

很大程度上由于历史原因，致病性遗传变异并不集中存放在单一的中央数据库中。为了用可能的致病变异对基因组进行完整注释，仍然必须使用多个资源。目前已有一些努力试图建立整合式接口，以便集中访问多个数据库，例如 MyVariant.info（Xin et al. 2016）；但这些资源通常无法提供商业性或“类商业性”遗传疾病数据库中那些独特且广泛的数据类型，因为这类数据库需要许可证才能使用。对于导致遗传性疾病的变异，商业数据库 Human Gene Mutation Database（HGMD）（Stenson et al. 2017）以及可免费使用的 ClinVar 数据库（Landrum et al. 2016）提供了关于致病变异的人工审查信息，并被广泛用于注释已测序的人类基因组。（Figure 17.1 给出了 ClinVar 中一个 CFTR 基因变异条目的截图；CFTR 是导致囊性纤维化的基因。）与治疗反应差异相关的变异由 Pharmacogenetics KnowledgeBase（PharmGKB）（Thorn et al. 2010）和 DrugBank（Wishart et al. 2018）进行人工审查整理；关于如何使用这些变异的临床指南则由 Clinical Pharmacogenetics Implementation Consortium（CPIC）提供（Relling and Klein 2011）。药物遗传学（pharmacogenetics）的例子包括 codeine 和 warfarin：codeine 由 CYP2D6 产物代谢，warfarin 由 VKORC1 和 CYP2C9 产物代谢；在这两种情况下，这些基因中的变异都与患者对相应药物的不同反应相关。肿瘤中发现的体细胞变异（somatic variants）被收集在 COSMIC 数据库中（Forbes et al. 2017）。其他值得关注的数据库还包括由公众人工审查维护的 wiki 资源 SNPedia（Cariaso and Lennon 2012），这是一个经过整理的人类单核苷酸多态性（single nucleotide polymorphisms）资源。

Figure 17.1

ClinVar 中囊性纤维化基因（CFTR）一个良性变异的条目。该变异包含来自多个检测中心的证据报告，表明该单核苷酸变异不具有致病性。

有趣的是，SNPedia 的开发者还开发了一个全基因组分析工具 Promethease，该工具使用 SNPedia 对已测序的全基因组或外显子组（exomes）进行注释。另一个广泛用于注释已测序人类基因组的工具是 ANNOVAR。ANNOVAR 以 Variant Call Format 文件（简称 VCF，一种用于已注释遗传变异的标准文本文件格式）作为输入（Wang et al. 2010），将变异映射到基因，识别变异类别（例如插入、缺失和单核苷酸变异），并提供其他有用注释，例如突变影响预测。

从序列预测和表征具有影响的遗传变异

传统上，遗传变异与人类疾病之间的关联，是利用病例–对照研究（case–control studies）中推断出的遗传标记的统计差异来确定的（Collins et al. 1999）。近年来，许多互补性算法已经发表；这些算法利用我们对生物学的理解，来预测和理解导致疾病的遗传变异。（综述见 Cooper and Shendure [2011]。）变异可以包括单核苷酸变异、短插入和缺失（称为“indels”，通常短于几千个碱基），以及更大的插入和缺失；后者会造成结构变异（structural variations），其规模可能非常大，并可能包含完整基因。

在人类群体中发现的遗传变异，可以根据它们是否与人类疾病和状况相关而分为不同类别（Box 17.1）。这些类别包括致病变异（pathogenic variants），即导致疾病的变异。意义未明变异（variants of unknown significance, VUS）可能导致疾病。多态性（polymorphisms）存在于人群中，但不会导致疾病或特定状况。生物信息学研究者早已认识到，致病性遗传变异往往发生在受到进化压力的位点上（Mooney and Klein 2002）。随着人们发现具有功能和进化重要性的位点更可能在人类遗传疾病中发生突变，同时已知致病变异数据库也不断增长，研究者开发出了同时利用这两类信息的计算方法，用于预测新的、具有影响的遗传变异。

通常，这些方法属于监督式方法（supervised approaches）：也就是说，它们使用一个包含已知具有影响的变异（有作用）和中性变异（无作用）的数据库，来判断一个此前从未见过的变异更可能属于具有影响的集合，还是属于中性集合。这些方法需要一个已注释变异数据库（训练集，training set）、用于分类且具有统计学用途的蛋白质组学和基因组学特征，以及一种使用训练集和特征对变异进行分类预测的分类方法。

Box 17.1 遗传性癌症的基因检测

癌症风险可能显著增加，发病年龄也可能显著提前，这取决于个体从父母那里遗传了特定基因中的哪些遗传变异。这些癌症包括特定类型的乳腺癌、卵巢癌、结直肠癌和前列腺癌。早期识别继承了这些“遗传性癌症”（hereditary cancers）风险的患者非常重要，因为可以进行预防性筛查或预防性操作（例如乳房切除术），以尽量降低癌症造成的影响。

为了检测 BRCA1、BRCA2、TP53 和 PTEN 等风险基因中的特定变异，可以进行遗传检测。Color Genomics、Invitae、Myriad Genetics 以及其他公司提供的检测，既可由医疗服务提供者订购，也可由患者本人订购。这些检测结果能够提供风险评估，并可以识别致病变异以及意义未明变异。

在蛋白质水平表征遗传变异

致病变异往往以非随机方式出现在蛋白质结构中，并且往往埋藏在蛋白质内部，从而破坏蛋白质结构（Wang and Moult 2003）。这些变异也倾向于损伤蛋白质中的功能位点，例如结合位点（Lugo-Martinez）。

148

Prediction and Characterization of Impactful Genetic Variants from Sequence

PDF page 560-562；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Prediction and Characterization of Impactful Genetic Variants from Sequence

从序列预测和表征具有影响力的遗传变异

基于这些观察结果，研究者已经发展出两类致病性预测方法。这些方法的差异在于构建模型时所使用的训练集不同。第一类方法使用的是已经通过实验验证的突变，通常是在体外实验或模式生物中进行检测。此类方法的例子包括 SIFT（Ng and Henikoff 2003）、SNAP（Bromberg et al. 2008）等。第二类方法使用的是人类疾病突变数据。此类方法的例子包括 MutPred（Li et al. 2009）、PolyPhen-2（Adzhubei et al. 2013）等。尽管这两类方法相似，但由于它们使用不同的训练集，可能会导致生成的预测结果存在差异。第一类方法预测的是对蛋白质功能的影响，而第二类方法预测的是在人类中的致病性。对于非同义单核苷酸变异，这些方法的准确率范围为 65% 至 85%，具体取决于所使用的软件方法，甚至也取决于变异所在的基因（Ioannidis et al. 2016）。为了使人类蛋白质组中氨基酸替换的分析更加容易，研究者开发了 dbNSFP 注释数据库；该数据库包含来自许多不同预测算法的注释，记录了所有可能错义改变的预测影响（Liu et al. 2016）。dbNSFP 包含人类蛋白质组中所有可能的氨基酸突变，因此，当研究人员发现新的突变时，可以直接在该数据库中查找，而不必使用许多工具分别计算影响预测——这是一项耗时且困难的任务！

在基因组或转录组水平表征遗传变异

并不令人意外的是，那些并不直接影响特定目标基因所编码蛋白质序列的遗传变异，也可能导致疾病。变异可以影响信使 RNA（messenger RNA, mRNA）的剪接和加工（Wang et al. 2008; Mort et al. 2014）、转录或翻译调控（Ritchie et al. 2014）、转录本非翻译区中的功能位点，以及具有表观遗传学重要性的位点。其机制与变异影响蛋白质序列和结构的方式相似：破坏非编码位点的变异同样可能导致疾病。尽管已经有许多工作致力于识别这些变异，但与那些更容易表征、会影响蛋白质序列的变异相比，这类变异的发现仍然相对滞后。随着全基因组测序的出现，识别具有重要意义的非编码变异已经极大地促进了新的致病变异的发现（Boycott et al. 2013）。

使用信息学方法优先排序致病基因

除了可用于优先排序潜在致病变异的方法之外，也存在类似的监督式方法，用于优先排序可能导致某些疾病或与某些疾病相关的基因。例如，如果假设已经有 15 个基因被高度确定地认为会导致家族性 Parkinson disease，那么识别第 16 个致病基因的可能性有多大？回答这个问题并不容易，因为人类基因组中大约有 20 000 个蛋白质编码基因，必须非常仔细地筛选，才能识别出真正的致病基因。该假设依赖于这样一个前提：已知训练集中的每个基因都共享某些分子特征，例如参与共同的代谢通路；这些特征可以被捕获为“features”（特征，即机器学习中使用的变量）。随后，可以使用监督式或半监督式方法，利用这些特征将其他基因推断为致病基因。这个过程可以通过生物信息学方法完成，其使用的方法和特征类似于预测某个基因或蛋白质的 Gene Ontology 术语或其他注释时所使用的方法和特征；本质上，它是将疾病关联视为一种注释。（方法列表另见第 7 章以及 Radivojac et al. [2013]。）这些特征可能包括基因产物功能、通路、组织表达、共享结构域、文献共现关系，以及许多其他类型的信息。使用这种“guilt by association”（关联推断）思路的方法包括 ENDEAVOUR（Tranchevent et al. 2016）、PhenoPred（Radivojac et al. 2008）和 GeneMANIA（Warde-Farley et al. 2010）；这些方法都曾被用于这一目的，并且可作为遗传学方法的补充，用于通过统计关联将新的基因与性状联系起来。

将模式生物数据转译到人类

目前，有许多人类患者具有难以诊断、甚至完全无法诊断的临床表型。理解这些“无法诊断的疾病”是临床基因组测序的一个活跃应用领域，其目标是发现新的致病变异及其潜在病因。类似地，许多遗传病已经在模式生物中通过 RNA interference 筛选或对人类疾病基因直系同源基因进行遗传敲除而得到表征；人们认为，这些模型可能为此前在人类中尚未诊断出的疾病提供线索。Monarch Initiative（Mungall et al. 2017）等项目正在使用生物信息学方法，促进将这些动物模型表型转译到人类疾病状态中，反之亦然。Monarch 是一个广泛的知识库，它整合来自文献的异质性数据，以帮助研究遗传病的潜在病因，理解那些尚不能明确诊断的患者表型，并通过开放科学方法更好地理解疾病机制。（关于开放数据如何帮助推动科学发展的社区挑战，另见“Informatics and Precision Medicine”中的讨论。）

使用电子健康记录中的数据计算患者表型

电子健康记录简介

如上所述，对患者表型进行描述，对于理解疾病的分子病因正变得越来越重要。为此，研究者越来越多地转向患者病历，从中获得有关其表型的信息（Pathak et al. 2013）。在过去 20 年中，包括患者病历在内的医疗记录数据正在被数字化为 EHRs（electronic health records，电子健康记录）；不同卫生系统在采用这些 EHRs 的速度以及实施成功程度方面存在差异（Jha et al. 2009）。这些复杂系统管理住院和门诊体验的各个方面：安排患者就诊、管理账单、提交医嘱、追踪实验室检测结果、通过患者门户促进结果返还，以及几乎所有围绕临床护理展开的其他事务。并不令人意外的是，商业供应商提供的 EHR 系统规模庞大且复杂。与本书中描述的大多数其他数据集不同，健康记录数据并不是为了研究目的而收集的；研究用途通常只是二级用途，在数据收集时并不一定被纳入考虑。因此，健康记录数据可能难以访问和使用（Vuokko et al. 2015）。通常，EHR 中的数据可以是结构化的（coded，编码数据），也可以是非结构化的，例如纯文本或图像。结构化数据使用特定术语体系、数据字典或数值，因此可以较容易地进行分析。目前，EHR 系统中多达 80% 的数据是非结构化数据；因此，对于生物信息学研究者而言，如何利用这些患者记录中迄今难以访问的表型信息，构成了一项研究挑战。

存储在 EHR 系统中的数据可以遵循由数据采集地点独有的数据模型，即使这些地点使用的是同一个通用供应商系统也是如此。为了从源系统中提取数据，或将其与其他系统的数据进行整合，必须对数据执行 extraction、transform、loading（提取、转换和加载）过程，使其能够被装载到可供分析的临床数据存储库中。提取步骤从源系统下载数据。转换步骤可能需要改变数据模型，或将特定字段映射到新的术语体系或数据类型。在转换步骤中进行数据抽象可能成本很高，并且可能涉及大量人工审查。在整个过程中，必须评估数据质量；如果可能，还必须校正数据，以维持最高标准。最后，加载过程将转换后的数据整合到数据存储库或数据仓库中，用于容纳整合后的数据集。这些存储库通常是关系数据库，并且可以使用广泛应用的 Structured Query Language（SQL，结构化查询语言）方便地进行查询。

149

Computing with Patient Phenotype Using Data in Electronic Health Records

PDF page 562-564；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Computing with Patient Phenotype Using Data in Electronic Health Records

利用电子健康记录中的数据进行患者表型计算

表 17.1 转化研究中常用的生物医学本体与术语示例。

Ontology	Description
Gene Ontology (GO)	广泛用于注释基因和蛋白质的三类术语，用于描述 molecular functions、biological processes 和 cellular components。
Human Phenotype Ontology (HPO)	描述人类表型与疾病的概念。
International Classification of Diseases (ICD)	在 electronic health record 系统中广泛使用的诊断代码。
Medical Subject Headings (MeSH)	主要由图书馆员和 curator 使用，用于注释和分类生物医学文献的术语。
National Drug File (NDF)	Veterans Affairs Medical Centers 中药物使用相关的标准化名称、剂量和强度、包装规格、National Drug Code 以及其他元数据。
Phenotypic Quality Ontology (PATO)	用于注释模式生物表型的术语体系。
RxNORM	与许多其他术语体系相连接的规范化药物名称。
Systematized Nomenclature of Medicine – Clinical Terms (SNOMEDCT)	广泛使用的临床本体。

使用生物医学本体的结构化临床数据

生物医学本体的发展，对于使我们能够有效挖掘和分析患者数据至关重要。本体是一种结构化词汇表，通过术语之间的语义关系来描述某一领域；在线也有一些资源可以访问标准化本体，例如 National Center for Biomedical Ontology (NCBO) 所提供的本体（Musen et al. 2012），或 Open Biomedical Ontologies Consortium (OBO)（Smith et al. 2007）。本体提供了可用于描述患者健康状态的标准术语或代码。

例如，International Classification of Diseases (ICD) 很可能是世界上使用最广泛的本体，并被用作健康记录系统中标准的诊断、问题和计费代码分类体系（Anonymous 1996）。虽然 ICD 只提供诊断代码，但 Human Phenotype Ontology (HPO) 提供了对人类表型概念的访问（Kohler et al. 2017）。例如，在 EHR 中，一个患者可能被诊断为 influenza（标识符 ICD:J09 下的 ICD 术语），但该患者还可能具有 vomiting 的表型（HPO 标识符 HP:0002013），而这一点也许并未录入健康记录。

表 17.1 给出了转化信息学中用于编码的一些术语示例。很多时候，供应商系统会使用未标准化的数据词典，因此要使其对研究有用，就需要后续映射到标准本体。

通用数据模型

随着门诊、医院和卫生系统从其患者那里积累越来越多的临床数据，这些数据与其他数据集之间的互操作性变得十分重要。可互操作的数据在操作层面上有助于跨不同临床站点交换数据。它们也有助于基于不同来源数据的研究，例如 comparative effectiveness research、发现疾病或病症的新风险、epidemiological data science 等。数据互操作性通过 common data models 来实现，这些模型允许数据集成与比较。Common data models 定义了用于描述临床数据的标准表和标准本体。这些数据模型会描述患者信息与人口统计学特征、患者 encounter（或 visit），包括生命体征和计费诊断代码、开具的处方、实验室或其他已下达的检查程序，以及临床叙述性笔记。

Common data models 可以包含完整标识数据，也可以包含去标识数据。在后者情况下，患者标识符已被移除，并施加了其他修改，以模糊数据并防止重新识别患者（关于保护患者隐私的讨论，见 Ethical, Legal, and Social Implications of Translational Medicine）。用于研究时，数据通常（但并非总是）会被去标识化。

最常用的数据模型包括 Observational Health Data Sciences and Informatics (OHDSI) 的 Observational Medical Outcomes Partnership (OMOP) 数据模型（Gini et al. 2016）、Patient-Centered Outcomes Research Institute 数据模型（Fleurence et al. 2014），以及基于 Fast Healthcare Interoperability Resources，或 FHIR 的 schema（Mandel et al. 2016）；FHIR 将在下文更详细讨论。截至本文撰写时，已有超过 6.5 亿份患者病历采用 OMOP 格式。OMOP 可用于识别符合特定条件的患者群体，例如年龄、性别、既往诊断、已开具药物以及其他临床标准。OHDSI 项目提供了若干可用于访问 OMOP 数据模型数据的软件包，包括 Atlas 数据浏览器和 Achilles 可视化数据质量查看器。

电子健康记录数据中很大一部分是纯文本

除结构化（或编码）数据外，病历还包含大量文本数据。这些文本数据可以是描述一次患者 encounter 的笔记、患者家族史、已知药物过敏、其既往病史、病理报告，以及许多其他具有临床相关性的信息。基于临床笔记开展研究分析会因多种原因而困难。首先，临床笔记可能包含可识别信息——也就是说，它们可能含有研究者在法律或伦理上不能访问的患者标识信息，如姓名和年龄信息。其次，临床笔记作为文本，即便使用复杂的 natural language processing (NLP) 算法，也很难分析。第三，临床笔记的研究意义并不确定，其效用也可能不明确。尽管如此，从转化研究角度看，笔记仍然非常重要，因为患者的大量表型描述都嵌在其中。例如，诸如 “diarrhea”、“vomiting” 或 “fever” 这样的术语，可能只会出现在笔记文本中。

MetaMap 及其他工具（Chiaramello et al. 2016）能够识别通常未在健康记录中编码的本体概念。其中一种本体就是 HPO，它包含描述表型的概念，既有 vomiting 或 diarrhea 这样的一般术语，也有非常具体的术语，如 “Abnormal serum insulin-like growth factor 1 level”。

150

Informatics and Precision Medicine

PDF page 564-569；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Informatics and Precision Medicine

信息学与精准医学

描述患者表型

讽刺的是，EHR（electronic health record，电子健康记录）数据并不一定是为了准确描述患者表型而收集的，这意味着它们在推动人类疾病研究方面是被低估、甚至被完全错过的一类机会（Jensen et al. 2012）。其原因很复杂。首先，健康记录常被用于计费、管理和跟踪医嘱，以及记录患者就诊过程中发生的事件。然而，表型数据的收集可能跨越多次就诊，而持续存在的问题未必会在某一次具体就诊中被提及；例如，一位患有 lupus（系统性红斑狼疮）的患者可能因季节性感冒在门诊接受治疗，但该次就诊记录中并不会提到 lupus。其次，即使记录中存在某种表型信息，也可能很难判断其状态。例如，某种癌症的诊断计费代码只能说明与癌症有关，但不能明确该患者是接受过癌症检测、曾患癌症且已缓解、仍有活动性癌症，还是正在被诊断为癌症。此外，tobacco use（吸烟）、alcohol use（饮酒）及其他行为等暴露因素，可能根本不会被编码进记录中。方框 17.2 给出了一个例子，说明如何将表型良好的患者与遗传学整合起来，从而发现新的关联。

方框 17.2 关联临床表型与变异：PheWAS 方法

biobanks（生物样本库）作为精准医学项目的一部分，在学术医疗中心中日益流行。这些资源通常包含一群已同意参与研究或已去标识化的患者（即已授权将其数据和样本用于一般性研究），以及血液和临床健康记录数据。如果其中许多患者已经完成 genotyping（基因分型）或 sequencing（测序），就可以在该人群中发现 traits（由健康记录定义的性状，即表型）与 variants（变异）之间的关联。Vanderbilt University 通过建立 BioVU（一个 DNA 生物样本库）实现了这一点。在 BioVU 中，对数千名患者进行基因分型被用作将 variants 与其病历中的 ICD 诊断代码建立关联的第一步。由此，七种表型得到了先前 genome-wide association studies（GWAS，全基因组关联研究）的重复验证（Denny et al. 2010）：atrial fibrillation（房颤）、Crohn disease（克罗恩病）、carotid artery stenosis（颈动脉狭窄）、coronary artery disease（冠状动脉疾病）、multiple sclerosis（多发性硬化）、systemic lupus erythematosus（系统性红斑狼疮）以及 rheumatoid arthritis（类风湿性关节炎）。此后，又开展了许多其他研究，用以发现有潜力改善健康结局的新关系。

药物再利用

信息学方法使我们能够基于共享机制，提出对既往已批准药物的新用途设想（Dudley et al. 2011）。例如，thalidomide（沙利度胺）曾被批准为镇静药，并用于治疗 leprosy（麻风病）（Laffitte and Revuz 2004）；之后它被重新定位并于 2012 年获批用于治疗 multiple myeloma（多发性骨髓瘤）。如果两种疾病共享某种共同机制（例如由特定 kinase（激酶）引起的异常 phosphorylation（磷酸化）），那么针对一种疾病的治疗也可能适用于另一种疾病。这一方法已被应用于疾病及其疾病模型的 genomic（基因组）、proteomic（蛋白质组）及其他 high-throughput（高通量）分子数据集，进而得到共享通路及其他机制的数据库，可用于寻找现有药物的潜在新用途。类似地，另一种方法是将 small molecules（小分子）或药物作为 perturbagens（扰动因子），通过干预细胞间过程，测量其在特定细胞系或生物体中给药后诱导的分子变化；这些变化可能包括 transcriptome（转录组）基因表达的改变。此类高通量筛选可以提供关于疾病与潜在治疗之间相似机制的线索。Broad Institute 托管的 Drug Repurposing Hub 就是这样一个资源，可用于获取大量药物筛选数据，这些数据量化了药物对分子的影响，并可与患者特异性或其他 transcriptomic（转录组）数据集进行比较（Corsello et al. 2017）。据本文写作时统计，Drug Repurposing Hub 中有 6125 种经实验验证、可供分析的化合物。

从 -omics 数据开发临床标志物

genomic、proteomic 和 metabolomic（代谢组）技术推动了 molecular marker（分子标志物）技术的发展，这些技术能够识别未诊断的疾病状态或患者的治疗路径。这些标志物可以包括 genetic variants（遗传变异）、表达的 transcripts（转录本）、proteins（蛋白质）或蛋白片段、metabolites（代谢物），甚至是来自 human microbiota（人体微生物群，见第 16 章）的特定微生物。例如，Clinical Proteomic Tumor Analysis Consortium（CPTAC，临床蛋白质组肿瘤分析联盟）（Edwards et al. 2015）是一个由 NIH 资助的联盟，正在开发技术和数据，以便快速且低成本地发现癌症中的 proteomic biomarkers（蛋白质组生物标志物），用于早期检测、诊断和治疗。疾病标志物可以从任何通过生化方法测得的特征中开发出来，并可与诊断或治疗结局相关联。方框 17.3 给出了一个例子，重点讨论 biological aging（生物学衰老）标志物的描述。

方框 17.3 衰老标志物

研究者们毕生致力于理解人类和模式生物衰老的基本机制。寻找人类衰老标志物至今仍被视为生物学和医学中的重大挑战。高通量研究已利用 transcriptomes（转录组）、proteomes（蛋白质组）、genetics（遗传学）、epigenetics（表观遗传学）和 metabolomics 来寻找衰老风险因素。

标志物 1：telomeres（端粒）。telomeric repeats（端粒重复序列）构成染色体末端，其长度会随着细胞分裂而缩短。telomerase protein（端粒酶蛋白）可延长这些重复序列，而重复序列的缩短或完全丢失与 apoptosis（细胞凋亡）或 senescence（细胞衰老）相关。端粒缩短与衰老有关，而端粒缩短的增强（例如由功能失调的 mutant telomerase（突变端粒酶）导致）与衰老表型相关（Aubert and Lansdorp 2008）。

标志物 2：DNA methylation（DNA 甲基化）。近年来，高通量测量 epigenetic DNA methylation 位点（5-methylcytosine，5-甲基胞嘧啶）已被发现可作为衰老标志物。在衰老 fibroblasts（成纤维细胞）中，DNA 甲基化水平会随年龄增长而下降，而永生化细胞则维持稳定的甲基化水平（Wilson and Jones 1983）。这一发现后来又得到了对 55 至 92 岁老年受试者衰老队列研究的支持（Bollati et al. 2009）。

异质数据源的整合

近年来，人们越来越关注将多个数据集整合在一起，以改善对患者表型的描述（Murdoch and Detsky 2013）。这些数据包括 behavioral datasets（行为数据集），例如主动或被动 mobile health（mHealth，移动健康）数据集、社交媒体数据、遗传数据、环境暴露数据、通过问卷工具生成的 patient-reported outcome measures（PROMs，患者报告结局指标），或其他患者报告数据（例如由患者提供的图像）。作为一个相关例子，可穿戴传感器可用于向 bipolar disorder（双相情感障碍）患者提供“早期预警”（Prociow et al. 2012）。此外，数据整合还带来了一些近期成功案例，例如利用手机使用情况预测行为（Prociow et al. 2012）、从社交媒体数据中识别 adverse drug events（ADEs，药物不良事件）（Nikfarjam et al. 2015），以及根据遗传变异和社区条件预测 cardiac arrest（心脏骤停）发生率（Mooney et al. 2016a）。可以预期，医学相关数据集的整合将继续提高我们检测健康风险的能力，并通过更好地描述患者表型及其环境，更准确地描述结局。

精准医学计划

已发表的临床研究通常计算在人类总体人群中观察到的平均效应。这些效应与在该人群中随机选取的个体或某一门诊单个患者中可能观察到的效应并不相同。这里面很可能存在 ethnic（族群）和其他遗传差异、socioeconomic status（社会经济地位）差异、lifestyle（生活方式）差异、risk profile（风险谱）差异等（例如 chronic kidney disease（慢性肾病）中的患者多样性；Norris and Nissenson 2008）。例如，遗传相似性会按出生地或 ancestry（祖源）聚类，却与 race（种族）聚类得很差（Jorde and Wooding 2004）。所有患者都是不同的，而我们才刚刚开始学习如何针对个体进行个体化治疗（“N of 1” 问题）。到此时应该已经很明显了：以数据驱动的方式，将基于人群的临床知识转化为针对个体患者的实践，是很困难的（Hamburg and Collins 2010）。

为了更好地评估这种转化潜力，目前正招募大规模志愿者队列参与研究，用于评估一般性的人群风险因素等目标。其中一个例子是 NIH 的 All of Us 项目，该项目目前正在美国推进，目标是招募 100 万名志愿者，愿意提供其临床、遗传、

mHealth（移动健康）数据、PROMs、biometric（生物测量）以及其他相关临床数据（Ashley 2015）。All of Us 倡议有望为疾病风险因素提供重要新见解，也会让我们更深入地了解利用临床研究开发的干预措施之结局。All of Us 正将自己定位为开放科学和数据共享的范例，使数据科学家能够接触到比以往任何研究都更丰富的数据，并在此过程中把一系列新挑战带到前台（Adams and Petersen 2016）。预计 genome sequences（基因组序列）将成为这一研究平台的核心组成部分。其他倡议还包括 Institute of Systems Biology 的 P4 Medicine（Flores et al. 2013），以及 Geisinger Health System 的 MyCode 和 Vanderbilt University 的 BioVU 等 biobanks 的建设（Carey et al. 2016；Cronin et al. 2014）。

社区挑战以协作方式解决创新问题

解决转化信息学中困难问题的一种方法，是动员“citizen scientists（公民科学家）”群体，提出独特而新颖的解决方案（Saez-Rodriguez et al. 2016）。在信息学领域，已经形成了一个数据挑战生态系统。这些挑战通常是公开的，所有参与者均可参加。这一社区最初源自 Critical Assessment of Structure Prediction（CASP）（Moult et al. 2011），这是对预测 macromolecular structures（大分子结构）最佳方法进行的双年度、无偏评估。此后，又出现了许多其他“critical assessments（关键评测）”，以及其他组织发起的挑战，例如 DREAM challenges（Jarchum and Jones 2015），甚至还有专门举办挑战赛的营利性公司（如 Kaggle）。挑战赛是激发新方法和创新、建立协作关系并以无偏方式评估方法学的绝佳途径。如今，挑战赛的范围包括开发新的生物信息学分析工具、临床决策支持方法，以及 NLP（natural language processing，自然语言处理）和 genomics（基因组学）方法等。其中一个值得注意的挑战系列是定期举行的 Critical Assessment of Genome Interpretation（CAGI），其目标是评估从人类遗传序列推断表型的工具。方框 17.4 给出了一个使用个人基因组数据的 CAGI whole genome prediction challenge（全基因组预测挑战）示例。

方框 17.4 CAGI Personal Genome Project 社区挑战

Personal Genome Project（PGP，个人基因组计划）（Ball et al. 2014）旨在促进对人类基因组的研究，并鼓励采用“open consent（开放同意）”的个人参与。开放同意允许将个人基因组、性状和其他信息用于一般性研究。PGP 会招募参与者，要求其签署开放同意，填写详细的健康调查问卷，采集 DNA 样本，然后对其基因组进行测序并发布。Critical Assessment of Genome Interpretation（CAGI）的组织者认为，这为评估消费级基因检测及其他方法能否直接从基因组序列预测性状提供了一个机会，于是 PGP 挑战赛应运而生。2010 年，这项挑战很简单：发布前 10 个 PGP 基因组时不附带健康调查数据，以此挑战方法开发者。开发者随后尝试根据这些序列预测二元性状和数值性状。待预测结果收集完成后，再公开健康调查，并评估预测准确性。随后，在 2010 年至 2016 年间，又举办了另外两次 PGP 挑战，要求开发者仅将已知的性状谱（同样源自健康调查）与某个基因组进行匹配。性状谱列表中包含许多诱饵，使匹配更加困难。来自全球的多个团队提交了预测结果。三次挑战使人们获得了许多经验教训（图 17.2）。第一，将一个个体的完整性状谱与某个基因组进行匹配是一个极具挑战性的问题，表现最好的方法也只能匹配大约 20% 的基因组—性状谱配对。第二，单个性状极难预测，有时甚至仅仅判断某个性状在群体中有多常见都很困难。不过，随着时间推移，这些挑战赛的准确性还是有所提高。

电子健康记录系统可以被定制

转化医学的目标之一，是将新的研究发现转化或实施到临床实践中。传统上，电子病历系统很难针对特定临床场所进行工程化和定制。EHR 系统内置了扩展和决策支持机制，例如基于规则的患者照护提供者提醒。提醒可以被定制为在系统内发生某些定义事件时触发，而触发提醒的规则也可以定制，用于支持对潜在药物相互作用的通知、实验室检测或操作的提醒、pharmacogenetics（药物遗传学）适应证等（Nishimura et al. 2015）。例如，pharmacogenetic alerts（药物遗传学提醒）可以借助遗传数据促进个体化给药，而且开处方医生认为这类提醒具有优势（Overby et al. 2015）。然而，EHR 系统中提醒过于频繁会导致“alert fatigue（提醒疲劳）”，即医疗服务提供者开始忽视提醒，尤其是在提醒内容显而易见或属于假阳性操作时。近年来，EHR 系统变得更加可定制，并且可以通过标准 application programming interfaces（APIs，应用程序编程接口）实现标准化，从而在不同系统供应商之间具有互操作性。使用最广泛的标准是 Fast Healthcare Interoperability Resources（FHIR，读作“fire”）（Mandel et al. 2016），这是一项用于扩展 EHR 的通信与数据标准。FHIR 还可借助 Substitutable Medical Apps and Reusable Technologies（SMARTs）进行增强，从而支持构建利用 FHIR APIs 的新型应用（例如移动应用）（Bloomfield et al. 2017）。尽管 “SMART On FHIR” 仍在开发中，但它建立在 HL7 communication

图 17.2

CAGI PGP 2015 匹配挑战中五个提交结果的 receiver operating characteristic（ROC，受试者工作特征）曲线。挑战开发者提交了基因组健康谱匹配概率，并据此与实际已知的 genotype–phenotype pairs（基因型–表型配对）进行比较。AUC 为曲线下面积。详见 Cai et al. (2017)。

151

Ethical, Legal, and Social Implications of Translational Medicine

PDF page 569-570；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Ethical, Legal, and Social Implications of Translational Medicine

Ethical, Legal, and Social Implications of Translational Medicine

……用于通过互联网传递临床数据的标准，并且正在获得广泛支持。SMART On FHIR 代表了转化信息学的一次巨大飞跃，因为它显著开放了健康记录系统扩展功能之间的互操作性。

预防政策的信息学

尽管转化信息学领域的大量工作集中在临床应用上，生物医学信息学同样有潜力为政策制定提供依据，尤其是在预防方面。例如，研究人员曾利用 EHRs 高效研究特定药物所指示的碰撞风险升高（Rudisill et al. 2016）。更广泛地说，部署新型信息采集设备（例如，将空气质量监测器安装在公共交通车辆上，以提供城市化区域中实时、空间细节丰富的空气污染估计；Devarakonda et al. 2013），以及重新利用最初并非为健康目的而采集的信息（Hipp et al. 2013; Lovasi et al. 2013; Mooney et al. 2016b）——即所谓“effluent data”（排出数据或副产数据）（Mooney and Pejaver 2017）——已经成为现代公共卫生信息学研究的重要支柱（Eysenbach 2009; Lazer et al. 2014; Santillana et al. 2014）。

转化医学的伦理、法律与社会影响

由于转化生物信息学研究的方法和结果可能直接影响患者照护，当前人们对这一领域工作所引发的伦理、法律与社会影响（ethical, legal, and social implications, ELSI）问题产生了更大兴趣。这些问题在人类基因组测序的背景下已有大量讨论（Collins 1999），但在转化医学的背景下同样重要。本章并不旨在为读者提供关于 ELSI 的完整背景知识，而是强调：在使用基因组学数据开发能够直接转化到患者照护中的方法时，必须格外谨慎。关于 ELSI 对基因组学影响的更完整讨论，读者可参考若干优秀综述（Oliver and McGuire 2011; Callier et al. 2016）。

在发布新方法时，即使该方法仅用于研究目的，也应考虑一系列问题。这包括任何新方法会对患者或医疗服务提供者产生什么影响，以及此类工具是否可能带来非预期后果。如果该方法在临床中被误用，是否可能因其使用而对患者造成伤害？例如，假阳性会带来哪些风险？最后，还存在潜在的监管问题；这些问题在不同国家之间可能有所不同，并会影响新临床方法的部署，或影响临床结果向患者反馈的方式。

保护患者隐私

在对来源于患者的数据开展研究时，一个主要困难是保护患者、研究参与者及其家庭成员的隐私。开展研究时，通常会移除患者标识符；这些标识符包括患者姓名、美国社会安全号码（U.S. Social Security number）、病历号、地址、电话号码以及类似个人数据。在美国，1996 年《健康保险可携性与责任法案》（Health Insurance Portability and Accountability Act, HIPAA）定义了 18 类可从数据集中剥离的标识符，用于去除直接患者身份识别信息；这类数据集被称为“limited”（有限数据集）。在有限数据集基础上，可以通过进一步匿名化创建去标识化数据集，包括随机平移服务日期，或进行其他转换以模糊数据，使人难以直接重新识别这些数据最初来源于哪位患者。（需要注意的是，机构政策、人体受试者研究合规规定以及具体法律在去标识化方法上可能存在差异。）每一位研究者都有责任确保患者保密性得到维护；这包括保障信息安全、不尝试重新识别患者，以及在访问数据时采用“honest broker”（诚实中介）方法。（诚实中介是独立人员，他们只向已经获得 Institutional Review Board，即机构审查委员会批准的研究提供数据。）

152

Summary + Internet Resources + References

PDF page 570-574；印刷页码待核对

▶

Ch17 Translational Bioinformatics / Summary + Internet Resources + References

Summary

转化生物信息学（translational bioinformatics）的未来十分光明，并且仍将持续发展。随着我们通过高通量实验不断加深对疾病成因的认识，我们开始发展用于早期检测和诊断的新方法、新的干预手段，以及将结果反馈给患者的新工具。我们已经非常擅长在临床中进行基因组测序和解读。这推动了许多工具的发展，用于预测和优先排序致病性或功能性变异以及疾病相关基因。通过将我们丰富的遗传学知识与基于 EHRs（electronic health records，电子健康记录）、行为数据、患者报告数据等构建的新型复杂患者表型模型相连接，我们已经开始更好地建立基因型与表型之间的联系。这项工作推动了围绕患者数据计算的大量活动。一些新兴项目包括药物再利用（drug repurposing）工作、社区挑战赛与开放科学，以及有用的临床标志物发现。

此外，借助 EHR 系统中的新技术，例如标准 APIs，我们能够将这些发现实现为数据分析方法和推荐方法，并通过健康记录或依附于健康记录开发的应用程序，把相关信息呈现给患者或医疗服务提供者，从而直接影响临床照护。

Internet Resources

资源	说明	URL
Kaggle	一个用于举办社区挑战赛的营利性网站	Kaggle.com
Promethease	一种根据遗传数据预测表型的方法	www.snpedia.com/index.php/Promethease

References

Adams, S.A. and Petersen, C. (2016). Precision medicine: opportunities, possibilities, and

challenges for patients and providers. J. Am. Med. Inf. Assoc. 23 (4): 787–790.

Adzhubei, I., Jordan, D.M., and Sunyaev, S.R. (2013). Predicting functional effect of human

missense mutations using PolyPhen-2. Curr. Protoc. Hum. Genet. 76: 7.20.1–7.20.41.

Anonymous (1996). Revisions of the International classification of diseases (ICD-9 and ICD-10):

impact on health statistics. Epidemiol. Bull. 17 (2): 1–5.

Ashley, E.A. (2015). The precision medicine initiative: a new national effort. JAMA 313 (21):

2119–2120.

Aubert, G. and Lansdorp, P.M. (2008). Telomeres and aging. Physiol. Rev. 88 (2): 557–579.

Ball, M.P., Bobe, J.R., Chou, M.F. et al. (2014). Harvard personal genome project: lessons from

participatory public research. Genome Med. 6 (2): 10.

Bloomfield, R.A. Jr., Polo-Wood, F., Mandel, J.C., and Mandl, K.D. (2017). Opening the Duke

electronic health record to apps: implementing SMART on FHIR. Int. J. Med. Inf. 99: 1–10.

Bollati, V., Schwartz, J., Wright, R. et al. (2009). Decline in genomic DNA methylation through

aging in a cohort of elderly subjects. Mech. Ageing Dev. 130 (4): 234–239.

Boycott, K.M., Vanstone, M.R., Bulman, D.E., and MacKenzie, A.E. (2013). Rare-disease genetics

in the era of next-generation sequencing: discovery to translation. Nat. Rev. Genet. 14 (10):

681–691.

Bromberg, Y., Yachdav, G., and Rost, B. (2008). SNAP predicts effect of mutations on protein

function. Bioinformatics 24 (20): 2397–2398.

Cai, B., Li, B., Kiga, N. et al. (2017). Matching phenotypes to whole genomes: lessons learned from

four iterations of the personal genome project community challenges. Hum. Mutat. 38 (9):

1266–1276.

Callier, S.L., Abudu, R., Mehlman, M.J. et al. (2016). Ethical, legal, and social implications of

personalized genomic medicine research: current literature and suggestions for the future.

Bioethics 30 (9): 698–705.

Carey, D.J., Fetterolf, S.N., Davis, F.D. et al. (2016). The Geisinger MyCode community health

initiative: an electronic health record-linked biobank for precision medicine research. Genet.

Med. 18 (9): 906–913.

Cariaso, M. and Lennon, G. (2012). SNPedia: a wiki supporting personal genome annotation,

interpretation and analysis. Nucleic Acids Res. 40 (Database issue): D1308–D1312.

Chiaramello, E., Pinciroli, F., Bonalumi, A. et al. (2016). Use of “off-the-shelf” information

extraction algorithms in clinical informatics: a feasibility study of MetaMap annotation of

Italian medical notes. J. Biomed. Inf. 63: 22–32.

Collins, F.S. (1999). Shattuck Lecture – medical and societal consequences of the Human Genome

Project. N. Engl. J. Med. 341 (1): 28–37.

Collins, A., Lonjou, C., and Morton, N.E. (1999). Genetic epidemiology of single-nucleotide

polymorphisms. Proc. Natl. Acad. Sci. U.S.A. 96 (26): 15173–15177.

Cooper, G.M. and Shendure, J. (2011). Needles in stacks of needles: finding disease-causal variants

in a wealth of genomic data. Nat. Rev. Genet. 12 (9): 628–640.

Corsello, S.M., Bittker, J.A., Liu, Z. et al. (2017). The drug repurposing hub: a next-generation drug

library and information resource. Nat. Med. 23 (4): 405–408.

Cronin, R.M., Field, J.R., Bradford, Y. et al. (2014). Phenome-wide association studies

demonstrating pleiotropy of genetic variants within FTO with and without adjustment for body

mass index. Front. Genet. 5: 250.

Denny, J.C., Ritchie, M.D., Basford, M.A. et al. (2010). PheWAS: demonstrating the feasibility of a

phenome-wide scan to discover gene-disease associations. Bioinformatics 26 (9): 1205–1210.

Devarakonda, S., Sevusu, P., Liu, H. et al. (2013). Real-time air quality monitoring through mobile

sensing in metropolitan areas. In: Proceedings of the 2nd ACM SIGKDD International Workshop

on Urban Computing, Chicago, IL (11 August 2013). New York, NY: ACM.

Dudley, J.T., Deshpande, T., and Butte, A.J. (2011). Exploiting drug-disease relationships for

computational drug repositioning. Briefings Bioinf. 12 (4): 303–311.

Edwards, N.J., Oberti, M., Thangudu, R.R. et al. (2015). The CPTAC data portal: a resource for

cancer proteomics research. J. Proteome Res. 14 (6): 2707–2713.

Eysenbach, G. (2009). Infodemiology and infoveillance: framework for an emerging set of public

health informatics methods to analyze search, communication and publication behavior on the

Internet. J. Med. Internet Res. 11 (1): e11.

Fleurence, R.L., Curtis, L.H., Califf, R.M. et al. (2014). Launching PCORnet, a national

patient-centered clinical research network. J. Am. Med. Inf. Assoc. 21 (4): 578–582.

Flores, M., Glusman, G., Brogaard, K. et al. (2013). P4 medicine: how systems medicine will

transform the healthcare sector and society. Per. Med. 10 (6): 565–576.

Forbes, S.A., Beare, D., Boutselakis, H. et al. (2017). COSMIC: somatic cancer genetics at

high-resolution. Nucleic Acids Res. 45 (Database issue): D777–D783.

Gini, R., Schuemie, M., Brown, J. et al. (2016). Data extraction and management in networks of

observational health care databases for scientific research: a comparison of EU-ADR, OMOP,

mini-sentinel and MATRICE strategies. EGEMS (Wash DC) 4 (1): 1189.

Hamburg, M.A. and Collins, F.S. (2010). The path to personalized medicine. N. Engl. J. Med. 363

(4): 301–304.

Hipp, J.A., Adlakha, D., Eyler, A.A. et al. (2013). Emerging technologies: webcams and

crowd-sourcing to identify active transportation. Am. J. Prev. Med. 44 (1): 96.

Ioannidis, N.M., Rothstein, J.H., Pejaver, V. et al. (2016). REVEL: an ensemble method for

predicting the pathogenicity of rare missense variants. Am. J. Hum. Genet. 99 (4): 877–885.

Jarchum, I. and Jones, S. (2015). DREAMing of benchmarks. Nat. Biotechnol. 33 (1): 49–50.

Jensen, P.B., Jensen, L.J., and Brunak, S. (2012). Mining electronic health records: towards better

research applications and clinical care. Nat. Rev. Genet. 13 (6): 395–405.

Jha, A.K., DesRoches, C.M., Campbell, E.G. et al. (2009). Use of electronic health records in U.S.

hospitals. N. Engl. J. Med. 360 (16): 1628–1638.

Jorde, L.B. and Wooding, S.P. (2004). Genetic variation, classification and “race”. Nat. Genet. 36 (11

Suppl): S28–S33.

Kohler, S., Vasilevsky, N.A., Engelstad, M. et al. (2017). The human phenotype ontology in 2017.

Nucleic Acids Res. 45 (D1): D865–D876.

Laffitte, E. and Revuz, J. (2004). Thalidomide: an old drug with new clinical applications. Expert

Opin. Drug Saf. 3 (1): 47–56.

Landrum, M.J., Lee, J.M., Benson, M. et al. (2016). ClinVar: public archive of interpretations of

clinically relevant variants. Nucleic Acids Res. 44 (D1): D862–D868.

Lazer, D., Kennedy, R., King, G., and Vespignani, A. (2014). The parable of Google Flu: traps in big

data analysis. Science 343 (6176): 1203–1205.

Li, B., Krishnan, V.G., Mort, M.E. et al. (2009). Automated inference of molecular mechanisms of

disease from amino acid substitutions. Bioinformatics 25 (21): 2744–2750.

Liu, X., Wu, C., Li, C., and Boerwinkle, E. (2016). dbNSFP v3.0: a one-stop database of functional

predictions and annotations for human nonsynonymous and splice-site SNVs. Hum. Mutat. 37

(3): 235–241.

Lovasi, G.S., O’Neil-Dunne, J.P., Lu, J.W. et al. (2013). Urban tree canopy and asthma, wheeze,

rhinitis, and allergic sensitization to tree pollen in a New York City birth cohort. Environ.

Health Perspect. 121 (4): 494.

Lugo-Martinez, J., Pejaver, V., Pagel, K.A. et al. (2016). The loss and gain of functional amino acid

residues is a common mechanism causing human inherited disease. PLoS Comput. Biol. 12 (8):

e1005091.

Mandel, J.C., Kreda, D.A., Mandl, K.D. et al. (2016). SMART on FHIR: a standards-based,

interoperable apps platform for electronic health records. J. Am. Med. Inf. Assoc. 23 (5): 899–908.

Mooney, S.D. and Klein, T.E. (2002). The functional importance of disease-associated mutation.

BMC Bioinf. 3: 24.

Mooney, S.J. and Pejaver, V. (2017). Big data in public health: terminology, machine learning, and

privacy. Annu. Rev. Public Health 39: 95–112.

Mooney, S.J., Grady, S.T., Sotoodehnia, N. et al. (2016a). In the wrong place with the wrong SNP:

the association between stressful neighborhoods and cardiac arrest within Beta-2-adrenergic

receptor variants. Epidemiology 27 (5): 656–662.

Mooney, S.J., DiMaggio, C.J., Lovasi, G.S. et al. (2016b). Use of Google Street View to assess

environmental contributions to pedestrian injury. Am. J. Public Health 106 (3): 462–469.

Mort, M., Sterne-Weiler, T., Li, B. et al. (2014). MutPred splice: machine learning-based prediction

of exonic variants that disrupt splicing. Genome Biol. 15 (1): R19.

Moult, J., Fidelis, K., Kryshtafovych, A., and Tramontano, A. (2011). Critical assessment of

methods of protein structure prediction (CASP)--round IX. Proteins 79 (Suppl 10): 1–5.

Mungall, C.J., McMurry, J.A., Köhler, S. et al. (2017). The Monarch initiative: an integrative data

and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Res. 45

(D1): D712–D722.

Murdoch, T.B. and Detsky, A.S. (2013). The inevitable application of big data to health care. JAMA

309 (13): 1351–1352.

Musen, M.A., Noy, N.F., Shah, N.H. et al. (2012). The National Center for Biomedical Ontology. J.

Am. Med. Inf. Assoc. 19 (2): 190–195.

Ng, P.C. and Henikoff, S. (2003). SIFT: predicting amino acid changes that affect protein function.

Nucleic Acids Res. 31 (13): 3812–3814.

Nikfarjam, A., Sarker, A., O’Connor, K. et al. (2015). Pharmacovigilance from social media:

mining adverse drug reaction mentions using sequence labeling with word embedding cluster

features. J. Am. Med. Inf. Assoc. 22 (3): 671–681.

Nishimura, A.A., Shirts, B.H., Dorschner, M.O. et al. (2015). Development of clinical decision

support alerts for pharmacogenomic incidental findings from exome sequencing. Genet. Med.

17 (11): 939–942.

Norris, K. and Nissenson, A.R. (2008). Race, gender, and socioeconomic disparities in CKD in the

United States. J. Am. Soc. Nephrol. 19 (7): 1261–1270.

Oliver, J.M. and McGuire, A.L. (2011). Exploring the ELSI universe: critical issues in the evolution

of human genomic research. Genome Med. 3 (6): 38.

Overby, C.L., Devine, E.B., Abernethy, N. et al. (2015). Making pharmacogenomic-based

prescribing alerts more effective: a scenario-based pilot study with physicians. J. Biomed. Inf. 55:

249–259.

Pathak, J., Kho, A.N., and Denny, J.C. (2013). Electronic health records-driven phenotyping:

challenges, recent advances, and perspectives. J. Am. Med. Inf. Assoc. 20 (e2): e206–e211.

Prociow, P., Wac, K., and Crowe, J. (2012). Mobile psychiatry: towards improving the care for

bipolar disorder. Int. J. Ment. Health Syst. 6 (1): 5.

Radivojac, P., Peng, K., Clark, W.T. et al. (2008). An integrated approach to inferring gene-disease

associations in humans. Proteins 72 (3): 1030–1037.

Radivojac, P., Clark, W.T., Oron, T.R. et al. (2013). A large-scale evaluation of computational

protein function prediction. Nat. Methods 10 (3): 221–227.

Relling, M.V. and Klein, T.E. (2011). CPIC: clinical pharmacogenetics implementation consortium

of the pharmacogenomics research network. Clin. Pharmacol. Ther. 89 (3): 464–467.

Richards, S., Aziz, N., Bale, S. et al. (2015). Standards and guidelines for the interpretation of

sequence variants: a joint consensus recommendation of the American College of Medical

Genetics and Genomics and the Association for Molecular Pathology. Genet. Med. 17 (5):

405–424.

Ritchie, G.R.S., Dunham, I., Zeggini, E., and Flicek, P. (2014). Functional annotation of noncoding

sequence variants. Nat. Methods 11 (3): 294–296.

Rudisill, T.M., Zhu, M., Davidov, D. et al. (2016). Medication use and the risk of motor vehicle

collision in West Virginia drivers 65 years of age and older: a case-crossover study. BMC Res.

Notes 9: 166.

Saez-Rodriguez, J., Costello, J.C., Friend, S.H. et al. (2016). Crowdsourcing biomedical research:

leveraging communities as innovation engines. Nat. Rev. Genet. 17 (8): 470–486.

Santillana, M., Zhang, D.W., Althouse, B.M., and Ayers, J.W. (2014). What can digital disease

detection learn from (an external revision to) Google Flu Trends? Am. J. Prev. Med. 47 (3):

341–347.

Smith, B., Ashburner, M., Rosse, C. et al. (2007). The OBO foundry: coordinated evolution of

ontologies to support biomedical data integration. Nat. Biotechnol. 25 (11): 1251–1255.

Stenson, P.D., Mort, M., Ball, E.V. et al. (2017). The Human Gene Mutation Database: towards a

comprehensive repository of inherited mutation data for medical research, genetic diagnosis

and next-generation sequencing studies. Hum. Genet. 136 (6): 665–677.

Thorn, C.F., Klein, T.E., and Altman, R.B. (2010). Pharmacogenomics and bioinformatics:

PharmGKB. Pharmacogenomics 11 (4): 501–505.

Tranchevent, L.C., Ardeshirdavani, A., ElShal, S. et al. (2016). Candidate gene prioritization with

Endeavour. Nucleic Acids Res. 44 (W1): W117–W121.

Vuokko, R., Mäkelä-Bengs, P., Hyppönen, H., and Doupi, P. (2015). Secondary use of structured

patient data: interim results of a systematic review. Stud. Health Technol. Inf. 210: 291–295.

Wang, Z. and Moult, J. (2003). Three-dimensional structural location and molecular functional

effects of missense SNPs in the T cell receptor Vbeta domain. Proteins 53 (3): 748–757.

Wang, X., Wang, G., Shen, C. et al. (2008). Using RNase sequence specificity to refine the

identification of RNA-protein binding regions. BMC Genomics 9 (Suppl 1): S17.

Wang, K., Li, M., and Hakonarson, H. (2010). ANNOVAR: functional annotation of genetic

variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16): e164.

Warde-Farley, D., Donaldson, S.L., Comes, O. et al. (2010). The GeneMANIA prediction server:

biological network integration for gene prioritization and predicting gene function. Nucleic

Acids Res. 38 (Web Server issue): W214–W220.

Wilson, V.L. and Jones, P.A. (1983). DNA methylation decreases in aging but not in immortal cells.

Science 220 (4601): 1055–1057.

Wishart, D.S., Feunang, Y.D., Guo, A.C. et al. (2018). DrugBank 5.0: a major update to the

DrugBank database for 2018. Nucleic Acids Res. 46 (D1): D1074–D1082.

Xin, J., Mark, A., Afrasiabi, C. et al. (2016). High-performance web services for querying gene and

variant annotation. Genome Biol. 17 (1): 91.

Chapter 18

Statistical Methods for Biologists

153

Introduction

PDF page 575；印刷页码待核对

▶

Ch18 Statistical Methods for Biologists / Introduction

Introduction

二十世纪以来，生物学和生物医学数据的生成与积累出现了显著增长，这使二十一世纪的研究环境发生了根本性变化：研究者置身于一个数据丰富、知识密集的环境之中。为了在这一环境中有效开展工作，生物学家必须能够在日常研究中利用大量数据和已经积累的知识。这些数据集通常包含成千上万、数百万，甚至数十亿个独立数据项，其规模已经远远超出人工分析所能处理的范围。因此，生物学家理解这些大型数据集所派生出的概括性表示（summative representations）至关重要。

例如，均值（mean，或 average）这样的统计量，就是对一组数据进行派生表示的常用方式；而统计学（statistics）则是从数据集中推导并应用有用统计量的科学。在 bioinformatics 的语境中，来自多种 “-omics” 技术的大型数据集，或知识库（knowledge bases）中汇集的信息，都必须通过描述性、概括性的表示加以总结，以便促进对数据集的评估，并支持其在其他分析中的使用。很多时候，这些进一步分析会从数据集中产生新的信息和知识。

然而，要形成准确的解释，并由此生成新的信息和知识，研究者必须对数据集本身、产生该数据集的实验，以及用于分析该数据集的方法具有基本理解。统计学为建立这种基础理解提供了关键视角和一整套概念，使研究者能够理解数据集，并判断如何有效地使用它。

154

Descriptive Representations of Data

PDF page 575-588；印刷页码待核对

▶

Ch18 Statistical Methods for Biologists / Descriptive Representations of Data

数据的描述性表示

数据、信息与知识

数据（data）、信息（information）和知识（knowledge）彼此相关，但它们是相互分离且各不相同的概念。这些术语常常被互换使用，从而导致人们对到底收集、提供或分析的是什么产生混淆。具体而言，数据是简单事实和观察结果的无组织集合。这个关于数据的定义进一步引出了一个问题：“什么是观察结果？”观察结果（observation）是对某种现象获得的测量值。对于统计学家而言，这种现象就是一个统计实验。在科学研究语境中，观察结果是对某个特定物理实体或事件的某种性质或特征的数量或程度的测定。因此，数据就是这类测量值的无组织集合。信息则是经过组织、分析和解释，并转化为有用形式的数据，通常用于决策。最后，知识是在某一特定领域或研究方向中，通过教育和经验获得的信息、理解与技能。如 Figure 18.1 所示，单个观察结果被收集形成数据，数据经过解释转化为有用信息，信息进一步被提炼为新的知识。

Bioinformatics, Fourth Edition. Edited by Andreas D. Baxevanis, Gary D. Bader, and David S. Wishart.

Companion Website: www.wiley.com/go/baxevanis/Bioinformatics_4e

Figure 18.1 观察结果、数据、信息与知识之间的关系。

Source: Reproduced with permission of Hunter Moseley, https://doi.org/10.6084/m9.figshare.4968125.v1. Licensed under CC By 4.0.

从数据的角度看，表示同一或相似现象的一组相关观察结果称为随机变量（random variable）。在统计学中，这一术语具有更抽象的定义：随机变量被表示为一个数学函数，它把统计实验（现象）的可能结果映射到一个由可能取值（观察结果）组成的可测空间。根据所测量的性质或特征不同，随机变量可以是数值型（numerical）或类别型（categorical），如 Figure 18.2 所示。数值型随机变量是一组可能的可测数量范围。如果该范围用实数或类似的无限数集来定义，那么这个数值型随机变量就是连续型（continuous）。在这一语境中，连续性是表示随机变量的数学函数 f(x) 的一个性质，即当 x 趋近于 c 时，f(x) 的极限趋近于 f(c)。例如，使用荧光共振能量转移（fluorescence resonance energy transfer, FRET）测量供体与受体发色团之间的距离，就是一个连续型随机变量，因为可能观察到的是一个连续的实数范围，即由代表 FRET 分析实验所产生的一组观察结果的统计实验映射而来的结果。连续型随机变量的另一个例子是小鼠在 Morris 水迷宫测试中寻找平台所用的时间。

如果取值范围用整数来定义，即正数和/或负数的计数值，那么这个数值型随机变量就是离散型（discrete）。在流式细胞仪中计数得到的细胞数量，就是一个在自然数，即非负整数，离散范围内的离散型随机变量。另一个例子是在给定观察站、给定时间段内看到或听到的某类鸟的“点计数”（point count）或数量。

类别型随机变量是一组可能的定性测量观察结果，用于描述某种特征或相对性质。如果这些取值具有相对顺序、逻辑顺序或等级，那么该类别变量被认为是有序型（ordinal）。在特定核苷酸序列中观察到的核苷酸相对顺序，就是一个有序型随机变量。另一个例子是，在某种操作过程中，让患者以 1（经历最严重疼痛）到 5（无疼痛）的量表报告其疼痛相对水平。如果这些取值没有逻辑顺序，那么该类别变量被认为是名义型（nominal）。动物的性别就是一个名义型随机变量，在大多数情况下限于雄性和雌性。另一个例子是带有或不带有特定 CRISPR-Cas9 基因敲除的人类细胞系。

Figure 18.2 变量类型及其层级关系。

Source: Reproduced with permission of Hunter Moseley, https://doi.org/10.6084/m9.figshare.4968143.v1. Licensed under CC By 4.0.

Figure 18.2 中的主要内容可概括如下：

变量类型	定义	示例问题或取值
数值型：连续型	位于实数或复数取值范围内	How many? How much?；[0.0, 10.0]；{1.50, 4.58, 9.45}
数值型：离散型	位于可计数的整数取值范围内	定量测量的观察结果；[0, 10]；{0, 3, 4, 7, 9, 10}
类别型：有序型	具有逻辑顺序或等级	What relative quality?；{1st, 2nd, 3rd}；{low, med, high}
类别型：名义型	没有逻辑顺序	What type? What category?；{male, female}；{blue, green, red}

数据集与数据模式

dataset 及其较早被接受的拼写形式 data set，简单来说就是一组相关数据和信息的集合。但 dataset 的规范定义，是指一组相关的数据和信息集合，它们按照可观察现象（变量）以及把不同现象之间的观察结果联系起来的实体来组织，即涉及多个统计实验。这种组织方式通常表示为二维矩阵或关系表，其中列或字段表示不同的数据变量，行表示不同的实体。

例如，可以为一组经过适当知情同意的人类受试者收集年龄、性别、种族、体重、身高、疾病状态、治疗方式以及其他结局变量，并将其组织为一个二维表。在这个表中，特定随机变量的取值，即第 2 列及之后的列，与某个特定人类个体，即第 1 列中去标识化的受试者 ID 相关联，用于临床试验（Figure 18.3a）。在这一语境中，来自单个临床、生物医学、生物学和/或分析实验的一组相互关联的观察结果，被组织成这类二维数据集。然而，数据集也可以指规范数据集的集合，其中单个生物学和/或分析实验代表第三个维度。因此，为了分析和解释数据集，需要对数据集的组织方式进行描述，这种描述称为数据模式（data schema）（Figure 18.3b,c）。此外，根据使用语境不同，data schema 也常被称为数据字典（data dictionary）、数据库模式（database schema）或元数据（metadata）。随着数据集在规模和复杂度上持续增长，数据组织和数据模式的质量常常成为数据集可用性的限制因素。

Figure 18.3 示例数据集的组织方式。

(a) 一个二维（2D）关系表的一部分，将去标识化的人类受试者（行）与特定样本变量（列）相关联。

(b) 一个 2D 数据模式，显示数据集的组织方式和变量类型。

Source: Reproduced with permission of Hunter Moseley, https://doi.org/10.6084/m9.figshare.4968146.v1. Licensed under CC By 4.0.

如前所述，数据集通常过大，无法通过人工检查来全面审视和理解。因此，需要用概括性的、描述性的数据表示来对其进行评估和解释。描述性数据表示主要有三大类型：数据模式、描述性统计量和图形。作为起点，数据模式可以很好地提供数据集的描述性总览。通过描述良好的数据模式，可以容易地确定变量的数量和具体类型。同时，变量相对于实体——即受试者——的组织方式也会变得清晰（Figure 18.3b），进而可以推断出跨生物学实验和分析实验关联变量和/或受试者的更高阶组织方式（Figure 18.3c）。

描述性统计量

描述性统计量（descriptive statistic）是一个单一的可测量特征，它以定量方式描述或概括一组相关数据（Daniel and Wayne 1995）。然而，在严格的统计学定义中，有两个相关概念：统计量（statistic）和参数（parameter）。统计量是某个样本变量或可测样本属性的单一度量，其中样本是总体中实体的一个子集。参数一词则保留用于指总体的某种特征或属性，而这种特征或属性通常无法被直接测量。多数数据集只包含代表某个总体子集的数据，这个子集称为样本。例如，1000 名女性网球运动员的平均身高，代表这 1000 名网球运动员样本的平均身高统计量；这个统计量可用于推断所有女性网球运动员这一总体的平均身高参数。

但是，一个数据集也可能包含某个有限总体的全部数据，例如“某个企业的全部人类员工”。在这种情况下，该有限总体的某个参数可以直接从数据集中测量出来，而不只是由样本统计量估计得到。不过，这类狭义定义的总体也可以被看作更大总体的样本，例如“地球上所有人类”，甚至“曾经生活过或可能生活的所有人类”。因此，将给定数据集变量的某个可测描述性特征归类为统计量还是参数，是一个视角问题。

Figure 18.4 列出了用于表示样本变量数据集合的最常用描述性统计量。浅蓝色行中的第一个描述性统计量是数据集合的大小（size）或基数（cardinality）。大小的重要性怎么强调都不为过，因为它是对一组相关数据——即变量——中所包含数据数量的最直接度量。反过来，数据数量通常限制了该变量的信息含量。

Figure 18.4 中浅绿色行显示的下一类最常用描述性统计量，称为集中趋势统计量（statistics of central tendency）。在统计学中，集中趋势是指一组取值或一个可能取值范围的典型值、中心值或期望值。最著名的集中趋势统计量是一组数值的算术平均数（arithmetic mean）或平均值（average）。例如，{3.2, 4.1, 4.1, 4.2, 4.4, 5.1, 5.1, 5.4, 5.4, 5.5, 5.8, 5.8, 6.2, 7.0, 7.5} 的平均值是 5.25，它代表这组数值中相当典型的一个值。在这一语境中，中心值或典型值表示某个分布中最频繁出现的值或值集；分布（distribution）是所有可能出现取值的频率集合。这个最高频取值或典型值，常被用于表示某种变量的一组较大取值中某个取值分布的位置。

算术平均数或平均值是最常用的集中趋势统计量，因为在对分布作出某些假设，尤其是对称性假设时，它能够为期望值提供最准确的估计，并且在结果的准确性和精确性方面所需的数据量最少。然而，对于许多真实世界的数据集合，其他精确性较低的统计量，尤其是中位数（median）和众数（mode），反而能为给定取值分布的期望值提供更准确的估计。特别是，中位数常用于避免数据集合中极端离群值的影响，因为它对少数极端离群值的存在不敏感，而且易于可靠计算。众数对常见期望取值分布中的多种异常偏离非常不敏感，但通常精确性较低；它需要更大的数据量才能可靠计算，因此更难以用可预测的方式计算。

Figure 18.4 样本变量常用描述性统计量。

浅蓝色行为数据数量统计量。浅绿色行为集中趋势统计量。浅橙色行为期望区间统计量。浅黄色行为依赖性统计量。

Source: Reproduced with permission of Cmglee, https://commons.wikimedia.org/wiki/File:Visualisation_mode_median_mean.svg. Licensed under CC By 3.0.

Figure 18.4 中浅橙色行的下一类描述性统计量，用期望区间和离散程度来概括观察到的取值。其中最简单的是范围（range）。从数学上讲，范围是由全部观察结果（数据）或全部可能观察结果组成的非重复取值集合；这里的集合在数学上定义为“不同”对象的集合，而在此情境中就是非重复取值。不过，range 有多种不同但相关的含义，包括经典统计学定义，即在一组数值型或有序型取值中最大值与最小值之间的差。然而，在名义型变量语境中，数学定义——非重复取值集合——最有用。对于数值型或有序型变量，范围最常被描述为同时包含最小值和最大值的区间，并表示为用方括号括起来、以逗号分隔的这两个值，例如对于观察结果集合 {2, 4, 5, 5, 5, 6, 6, 8, 11}，其范围为 [2, 11]（Galton 1886; Pearson 1895）。可以在任一端使用圆括号表示直到边界值但不包括该边界值；例如，记号 [0, 10) 表示该范围可以包含从 0 到小于 10 的所有值。这个范围定义最能体现期望取值区间的概念。

样本方差（sample variance）是下一个期望区间描述性统计量，它表示测量值围绕样本均值的分散程度。与均值一样，方差对于期望取值区间的描述准确性依赖于对底层取值分布的某些假设，尤其是对称性。方差的平方根是标准差（standard deviation，常缩写为 SD 或 StdDev），这是一个更容易与样本均值联系起来的度量。均值标准误（standard error of the mean，常缩写为 SE 或 SEM）是对样本均值相对于总体均值的精确性的概率性描述。在对底层取值分布作出某些假设，尤其是对称性假设时，样本均值的准确性或置信度可以用标准误单位来定义。最后一个期望区间描述性统计量是置信区间（confidence interval, CI），它确定一个在某一置信水平下包含期望值的范围。这是对期望区间的一种很好描述，因为它不对分布作假设，并且像样本众数一样，对常见期望分布的多种异常偏离相当不敏感。另一种基于样本均值和标准误计算 CI 的公式为：

CIx,z = [x − zSEx, x + zSEx]

其中 z ≈ 2 等价于 95% CI，z ≈ 3 等价于 99% CI。

Figure 18.4 中浅黄色行的最后一类描述性统计量，用于描述两个样本变量之间的依赖性（dependence）。样本协方差（sample covariance）描述两个样本变量如何共同变化，其计算方式类似于样本方差。换言之，样本协方差描述两个样本变量的测量值如何以线性依赖的方式围绕各自样本均值共同分散。从一种视觉角度看，协方差描述的是以样本均值为中心的共同离散区域，其取值范围为 (−∞, ∞)。

接下来，Pearson 相关系数（Pearson’s correlation coefficient），简称 Pearson 相关（Pearson’s correlation），描述两个样本变量之间的线性依赖关系（Pearson 1895）。它与协方差的关系涉及两个样本变量标准差的倒数，因此常被看作是由每个样本变量的标准差归一化后的协方差。这种归一化会将 Pearson 相关限制在 [−1, 1] 的范围内，这通常更容易解释为两个样本变量之间依赖强度的大小。Figure 18.5 展示了相关相对于协方差在可解释性上的优势：两组样本中 x 与 y 之间的协方差相同，但蓝色样本和红色样本的 Pearson 相关不同。红色样本中较高的方差代表 x 与 y 之间较低的依赖性，尽管这种依赖的性质，即黑色回归线的斜率，是相同的。这个例子说明，协方差和相关不能彼此进行定量比较，即使它们在符号上可以进行定性比较：正协方差会对应正相关，负协方差和零协方差也分别对应负相关和零相关。

Figure 18.5 协方差与相关。

红色样本比蓝色样本具有更高的样本方差，因此对应更低的相关，尽管样本变量之间的协方差相同。

Source: Moseley, Hunter (2017): Example of covariance-correlation differences. figshare. doi.org/10.6084/m9.figshare.4968149.v1.

Spearman 秩相关系数（Spearman’s rank correlation coefficient），简称 Spearman 相关（Spearman’s correlation），描述两个样本变量之间的单调、非线性依赖关系（Spearman 1904）。两个样本变量之间的单调关系意味着这两个样本变量取值的秩顺序得以保持。从视觉上看，单调关系意味着任意给定的水平线或垂直线只会与函数 y = f(x) 所描述的曲线相交一次，其中 x 和 y 是两个样本变量。Spearman 相关描述两个样本变量之间这种单调或秩顺序依赖的强度，其方式类似于 Pearson 相关描述两个样本变量之间线性依赖的方式。具体而言，Spearman 相关根据两个样本变量之间秩顺序或反向秩顺序的保持程度计算，取值范围为 [−1, 1]。

最后一个常见的依赖性描述性统计量是决定系数（coefficient of determination），它度量一个或多个样本变量对某个给定数学模型的拟合程度。不过，从另一个角度看，决定系数描述的是一组样本变量基于模型的依赖性。该统计量的计算方式为：1 减去残差平方和与观察值相对于样本均值的总差异平方和之比。决定系数的取值范围为 [0, 1]，常被描述为模型与数据之间未解释方差的比例。对于线性模型，决定系数可化简为 r²，即线性相关的平方；如果只涉及两个样本变量，则为 Pearson 相关的平方。更广义地说，Pearson 相关、Spearman 相关和决定系数都度量样本变量与某个描述特定数学关系的模型之间依赖性的强度。当预期两个样本变量之间存在线性关系时，通常使用 Pearson 相关来描述线性依赖的程度。当预期两个样本变量之间存在非线性单调关系时，使用 Spearman 相关来描述非线性单调依赖。当预期涉及一个或多个样本变量的特定数学模型，而这种关系不容易由前两种依赖性度量处理时，通常使用决定系数来描述变量相对于模型的依赖性。

合适的图形是数据集最具描述性的表示

图形（graphs）是简化的图示，用于展示数据集中一个或多个数据变量。在许多情况下，图形以视觉方式提供变量的概括性总览，突出数据的特定描述性统计量或分布性质（参见 Figure 18.4 中的视觉描述）。图形常常能够可视化变量之间的依赖性，使特定关系变得清楚。为以多种方式概括或突出变量集合甚至整个数据集，人们设计了许多不同类型的图形，例如典型电子表格软件中提供的多种图表。在大多数情况下，被共同组织、分析或可视化的样本变量和/或实验数量，即数据维度，限制了某一特定可视化任务可使用的图形类型。鉴于绝大多数图片是二维的，大多数以单一图形形式呈现的数据可视化很难直接表示超过两个维度的数据。不过，有时在需要具有说服力的数据可视化时，例如表示和比较体积，也会通过人为实现深度来可视化三维信息。

最简单的描述性图形之一是直方图（histogram）（Figure 18.6），它可视化给定样本变量的取值分布。从统计学角度看，直方图可视化样本变量中一组有序统计事件发生的频率。多数情况下，每个统计事件，即一组可能结果，被表示为一段可能取值的数值范围；每个柱形的高度则表示该样本变量中所代表事件的发生频率。因此，如果使用了合适的有序范围集合，直方图通常能够清晰地可视化取值分布。然而，很多时候我们希望使用一种图形，使单个随机变量能够在多个实验之间进行视觉比较。箱线图（box-and-whisker plot，或 boxplot）正是为这一目的在 20 世纪 50 年代早期开发出来的，后来由数学家 William Tukey 在 20 世纪 60 年代后期推广普及（Spear 1952; McGill et al. 1978）。

Figure 18.6 黑樱桃树高度频率的示例直方图。

Source: commons.wikimedia.org/wiki/File:Black_cherry_tree_histogram.svg CC BY 2.5, commons.wikimedia.org/w/index.php?curid=3483039.

Figure 18.7a 展示了标准箱线图的组成部分，其中包括四分位距（interquartile range, IQR）。箱体底部定义第一四分位数（Q1 或第 25 百分位数，代表最低的 25% 数据），中间表示中位数（Q2 或第 50 百分位数），箱体顶部定义第三四分位数（Q3 或第 75 百分位数，代表最高的 25% 数据）。须线从箱体顶部和底部延伸，最大可达 1.5 倍 IQR。落在这些范围之外的任何值通常用离群点表示。箱线图常用于显示和比较数据分布，而不对分布作假设；它从秩顺序和频率角度提供底层数据的非参数视图，从而便于数据集之间的视觉比较。然而，箱线图真正巧妙之处在于，在计算机尚未广泛用于此类任务之前，它使人们能够有效地手绘描述性图形。不过，箱体和须线表示的简洁性也是一种缺点。Figure 18.7b 显示的箱线图看起来几乎完全相同（Choonpradub and McNeil 2005）。然而，将数据叠加到 Figure 18.7c 的箱线图上后，就能清楚看出每个样本实际上有多么不同。今天已有几种比原始、易绘制箱线图更具描述性的箱线图变体。小提琴图（violin plot）（Hintze and Nelson 1998）、SinaPlot（Sidiropoulos et al. 2018）及其组合（Figure 18.7d–f）能够在视觉上很好地描述不同取值分布，并能更好地比较四个样本。

Figure 18.7 示例箱线图及相关变体图。

(a) 箱线图示意图。

(b) 四个测量样本的经典箱线图。

(d) 小提琴图。

(e) SinaPlot。

(f) 叠加 SinaPlot 的小提琴图。

(b)–(f) 中的图形使用 R 中的 ggplot2 生成。

Source: Moseley, Hunter (2017): diagram of a box plot. figshare. doi.org/10.6084/m9.figshare.4993937.v1. Moseley, Hunter; Flight, Robert M (2017): Standard Box Plot. figshare. doi.org/10.6084/m9.figshare.4968152.v1. Moseley, Hunter; Flight, Robert M (2017): Boxplot with data points. figshare. doi.org/10.6084/m9.figshare.4968155.v1. Moseley, Hunter; Flight, Robert M (2017): Example Violin Plot. figshare. doi.org/10.6084/m9.figshare.4968158.v1. Moseley, Hunter; Flight, Robert M (2017): Example SinaPlot. figshare. doi.org/10.6084/m9.figshare.4968161.v1. Moseley, Hunter; Flight, Robert M (2017): Example Violin plot plus SinaPlot. figshare. doi.org/10.6084/m9.figshare.4968164.v1.

下一类主要描述性图形是散点图（scatter plot）。散点图表示多维数据点，用于可视化两个或多个样本变量之间的共同离散程度和依赖关系，而这些关系通常使用相关和协方差等描述性统计量来量化。图中的每个数据点表示一组有序的相互关联取值，对应不同样本变量；例如，(62.5 in., 101.3 kg) 表示一名男性人类受试者测得的身高和体重。通常，图中还会加入回归线或回归曲线，用于展示样本变量相对于某一特定数学模型或函数的依赖关系。Figure 18.8 用四个著名图形展示了散点图的有用性，这四个图形称为 Anscombe 四重奏（Anscombe’s quartet）（Anscombe 1973）。20 世纪 70 年代早期，Francis Anscombe 构造了四个数据集，每个数据集都包含两个变量，并且所有标准描述性统计量，包括线性回归线，都具有相同取值。然而，这些数据集的简单散点图揭示了这四个数据集实际上有多么不同。最令人不安的是，有两组点的线性相关 rxy 很高，但它们显然并不具有回归线所表示的线性关系。这四个图形提醒我们不要过度解释描述性统计量，尤其是在比较小数据集，并且不了解变量之间依赖性质的情况下。

Figure 18.8 Anscombe 四重奏。

四组著名数据点的散点图及回归线。这四组数据在视觉上差异很大，但给出完全相同的描述性统计值。

散点图还被证明有助于可视化高维数据集的某些派生概括性性质或统计量。这类高维数据集包含数百甚至数千个相关样本变量。一般方法是，从大量相关样本变量中派生出一小组描述性潜变量（latent variables，即不能直接观察到的变量），然后用散点图可视化这组潜变量。用于这一方法的一种非常常见技术是主成分分析（principal component analysis, PCA）。PCA 从一组连续变量中派生出相关性的主成分，通常为线性相关。PCA 按照能够首先解释数据集中最大方差量的顺序派生各个相关性成分：第一主成分代表最大方差量，第二主成分代表第二大方差量，依此类推。该分析通常重复进行，直到获得用于可视化的期望成分数量，或直到所得主成分列表表示了数据集方差的预定义比例。因此，PCA 创建了一组最小的潜在连续变量，这些变量彼此之间不相关，同时代表原始高维数据集中存在的最大累积方差比例。

Figure 18.9 显示了一个 PCA 散点图，其中两个线性相关主成分来自 RNA-seq 数据集。该数据集包括五组用人端粒酶逆转录酶永生化的人视网膜色素上皮细胞（human telomerase reverse transcriptase-immortalized human retinal pigmented epithelial cells, RPE-1），每组有三个重复。其中一组为对照，另外四组表示对三个不同基因的小干扰核糖核酸（small interfering ribonucleic acid, siRNA）敲低，其中一个基因以两种不同方式敲低。这两个主成分包含合并数据集中超过 50% 的方差；该合并数据集包括数千个表示单个 RNA 丰度的随机样本变量，而 RNA 丰度通常用于推断基因表达水平。前两个主成分突出显示了五组 RPE-1 细胞之间的分离，并表明这五组之间的差异体现在合并数据集最大的方差来源中。

Figure 18.9 主成分分析得到的前两个主成分（PCs）的散点图。

Source: Moseley, Hunter; Flight, Robert M; Wang, Qingjung (2017): PCA plot of RNAseq dataset of CLN3 knockdown. figshare. doi.org/10.6084/m9.figshare.4994204.v1.

如前述图中的直方图、各种箱线图和散点图所示，图形可以提供非常具有描述性的数据表示。然而，必须谨慎处理，使图形具有最大描述性。以下几点为制作高描述性图形提供了有用指南：

始终在图形中包含描述性标题，例如“Isocitrate dehydrogenase 1 activity”。此外，不要只是在标题中重复坐标轴标签。
始终用描述性名称和测量单位标注坐标轴；例如，“Culture growth time (h)”、“μg/ml protein”或“Intensity (a.u.)”。
只要可能且合理，就以视觉方式表示数据中的不确定性。
使用误差棒和可视化底层分布，是以视觉方式表示不确定性的两种主要方式。
使用有助于解释的误差棒。通常，较大的误差棒有助于防止对数据进行过度解释。
始终说明误差棒的单位和大小，例如“Error bars represent two SE units”。
当存在多个数据集、组别或数据类型，并且需要识别它们时，应包含图例。
选择合适的图形，不要隐藏数据的关键描述性特征。这可能需要尝试多种图形和不同设置，才能找到恰到好处的图形。
每幅图选择一个信息重点，并专注于传达这一信息。例如，一幅图可以传达一组结果及其相关结论。

这些指南既有助于读者理解图形表示的内容，也有助于解释图形所表示的底层数据。Figure 18.10 说明了为什么这些指南很重要。例如，Figure 18.10a 缺少相当多的描述性元素，包括标题、坐标轴标题、图例和误差棒，这限制了图形的可解释性，并会使读者感到困惑。相比之下，Figure 18.10b 合理地包含了所有这些视觉特征，使观察者能够迅速判断该图表示什么，以及图中信息上重要的内容是什么；在这个例子中，重要信息是比较野生型小鼠与敲除小鼠在自发运动活动方面的差异。

Figure 18.10 如何使图形具有描述性的示例。

Source: Moseley, Hunter (2017): Bad and Good Graphing Examples. figshare. doi.org/10.6084/m9.figshare.4994207.v1

频率分布与概率分布

可视化数据的主要目的之一，是验证对描述性统计量的某些解释是否有效。当观察结果数量相对较少，即少于 100 个时，在多数图形类型中直接可视化数据相对简单，包括 Figure 18.7c,e,f 中使用箱线图及其变体可视化的数据，以及 Figure 18.10b 中的散点图。随着观察结果数量增加到 1000 以上，直接可视化数据变得更加困难。然而，仍然需要对观察结果的分布进行视觉描述，以验证一些关键假设；这些假设通常是对更具定量描述性的统计量作出特定解释所必需的。

请记住，频率分布（frequency distribution）是给定取值集合中特定取值发生的频率；直方图（Figure 18.6）可以非常有效地可视化频率分布，用于概括单个有序型或数值型样本变量的数据，尤其是在被概括的数据量很大时。相关的概率分布（probability distribution）是特定取值发生的概率密度集合。在连续随机变量语境中，概率密度表示某一特定取值（结果）相对于无限多个其他可能取值（结果）发生的可能性。此外，概率是事件发生的可能性；在这一语境中，事件被定义为一个连续取值范围。进一步说，可以把概率密度看作相对频率，其在整个分布上的总概率加和为 1。

Figure 18.11 展示了最著名且最常见的概率分布：标准正态分布（standard normal distribution），也称 Gaussian 分布（Gaussian distribution）。Gaussian 分布以 Carl Friedrich Gauss 命名，他在 1809 年首次对正态分布进行了具体描述（Gauss 1809）。在 Figure 18.11 中，x 轴用 z-score 来描述取值，其中：

z = (x − μx) / σx

这里，z-score 表示某个取值相对于均值 μx 的偏离，并由标准差 σx 归一化。因此，x 轴的单位是标准差。y 轴描述特定 z 值处的概率密度，通常用概率密度函数表示，即 y = pdf(z)；如果直接使用变量 x，则为 pdf(x)。现在，某些统计事件如 {z ≥ a} 的实际概率 P 可以定义为：

P(z ≥ a) = ∫a∞ pdf(z) dz

这就是从 z = a 开始的 pdf(z) 曲线下方的面积。同样，一组绝对 z 值小于或等于某一标准差单位数的概率可表示为：

P(−a ≤ z ≤ a) = ∫−a^a pdf(z) dz

对于正态分布，68.3% 的概率密度位于 ±1σ 以内，95.4% 位于 ±2σ 以内。然而，对于其他常见分布，这些概率期望是不同的。

Figure 18.11 标准正态分布。

Source: Moseley, Hunter (2017): Description of a normal distribution. figshare. doi.org/10.6084/m9.figshare.4994210.v1

如 Figure 18.12 所示，在生物学和生物物理数据中可以看到许多不同的、特征明确的分布，例如对数正态分布（log-normal distribution）、Poisson 分布（Poisson distribution）以及二项分布（binomial distribution）的变体，尤其是负二项分布（negative binomial distribution）。然而，许多相关观察结果集合代表若干相似但独立分布的总和；这些总和往往近似于正态分布，即使这些分布本身并不是正态的。虽然每个独立分布在技术上代表不同现象，但在实际操作中，通常不可能在事先将它们作为独立随机变量分别收集。独立随机变量之和近似于正态分布的这种倾向，称为中心极限定理（central limit theorem），它是统计学和概率论的基础原则。中心极限定理也是许多生物学和生物物理数据集的“救星”，因为相关观察结果集合往往是若干分布的总和，而这些总和可以近似为或作为正态分布来处理。

Figure 18.12 生物学和生物物理数据集中常见或常用的其他特征明确的离散分布和连续分布。

Source: By Skbkekas – Own work, CC BY 3.0, commons.wikimedia.org/w/index.php?curid=9447142. By Tayste – Own work, Public Domain, commons.wikimedia.org/w/index.php?curid=3646951. By Krishnavedala – Own work, CC0, commons.wikimedia.org/w/index.php?curid=39170496. By Geek3 – Own work, CC BY 3.0, commons.wikimedia.org/w/index.php?curid=9884213.

然而，真实分布从来不会像理想统计模型中的分布那样漂亮。Figure 18.13 显示了一些图形，用于描述金属蛋白中某些键长和配位角的分布（Yao et al. 2017）。Figure 18.13a 展示了金属蛋白中特定金属离子与氧配体原子之间键长真实分布的几个重叠直方图。Figure 18.13b 显示了配位锌金属离子的最小配体–金属–配体角的几个重叠直方图。这些键长和配位角分布来自 Worldwide Protein Data Bank（wwPDB；见 Chapter 12）中条目所存储的金属蛋白结构的三维原子级表示（Berman et al. 2007）。其中几个分布表现出相对于理想正态分布的异常偏离。最显著的异常是存在多个众数，如 Figure 18.13b 中绿色的双峰分布所示，该分布涉及一个锌离子由五个配体原子配位的情形。

模态性（modality），即存在的众数数量，是评估真实分布时一个非常重要的特征，因为多数集中趋势描述性统计量，如均值和中位数，以及离散程度描述性统计量，如方差，只有在分布为单峰分布（unimodal）时，才可以从概率角度进行定量解释。不过，多峰分布中分辨良好、即不重叠的众数，可以被分离、描述，并作为独立的单峰分布处理。此外，Figure 18.13a 中的蓝色分布由于右尾膨胀，即频率更高，而并不对称。这种围绕分布众数的对称性偏离称为偏度（skewness），右尾膨胀被定义为正偏（positive skew）。同样，Figure 18.13b 中的红色分布也不对称，其左尾膨胀，形成负偏（negative skew）。多峰性和高偏度都会使方差膨胀，并导致均值和中位数发生严重偏离，从而限制这些描述性统计量的定量可解释性。

如前几幅图所示，直方图以及小提琴图等相关的分布描述性图形，对于视觉检查分布以及验证支撑特定数据解释的分布关键假设非常有用。然而，生成这些分布描述性图形需要最低限度的数据量。对于直方图，一个一般经验法则是，至少需要 30 个数据点才能表示单峰分布，如 Figure 18.6 中可视化的 31 个数据点所示。但是，若要从视觉上刻画分布的其他方面，例如模态性和偏度，尤其是在众数分离不佳时，则需要更多数据（Figure 18.13）。此外，也存在多维分布描述性图形，包括等高线图（contour plots），它们可以帮助评估多维分布。不过，这些类型的图形需要更多数据，才能真正具有分布描述能力。

155

Statistical Inference and Statistical Hypothesis Testing

PDF page 589-599；印刷页码待核对

▶

Ch18 Statistical Methods for Biologists / Statistical Inference and Statistical Hypothesis Testing

Statistical Inference and Statistical Hypothesis Testing

Figure 18.13 金属蛋白中配位金属离子的键长和配位角直方图

(a) 金属蛋白中与氧配体结合的常见金属离子的键长直方图。

(b) 金属蛋白中配位锌离子的最小配体–金属–配体角直方图。

图中术语：

Metal ion–oxygen ligand：金属离子–氧配体
Smallest ligand–metal–ligand angle for a coordinated Zn ion：配位 Zn 离子的最小配体–金属–配体角
Positively skewed：正偏态
Negatively skewed：负偏态
Bimodal：双峰分布
Bond length (Å)：键长（Å）
Angle (degrees)：角度（度）
Count：计数
metal：金属
numLig：配体数

Source: Yao, S., Flight, R.M., Rouchka, E.C., and Moseley, H.N.B. (2017). Aberrant coordination geometries discovered in the most abundant metalloproteins. Proteins: Structure, Function, and Bioinformatics 85, 885–907. Reproduced with permission of Wiley.

Statistical Inference and Statistical Hypothesis Testing

Statistical Inference

统计推断（statistical inference）是指对总体（population）的性质形成判断或“命题”（propositions）的过程，通常基于随机抽样（random sampling）进行。其总体目的在于获得新的信息和知识，和/或支持有依据的决策。Figure 18.14 展示了这一过程：从正在被分析的总体开始，对该总体进行随机抽样，用于某个实验，并在实验中获得观测值。这些观测值生成数据；数据可用于推导描述性统计量（descriptive statistics），进而推断刻画底层总体的特定参数（parameters）。随后，这些描述性统计量被解释为新的信息和知识。

在这一过程中，至关重要的是：样本、实验、观测值和数据都必须经过充分检查、审查和评估，使得由此推导出的统计量能够用于推断准确刻画正确总体的参数，从而支持合理解释并提供新的信息和知识。

例如，考虑一个实验室构建了一种基因敲除小鼠，其表型为毛发非常浓密，研究人员亲切地称之为 furball。这种多毛表型相当独特，因此该实验室繁育了 100 只 furball 小鼠，形成随机样本，以刻画其多毛表型。研究人员测量了这一小鼠样本背侧和腹侧的毛发斑块。所得毛发测量数据集用图形进行描述；这些图形显示样本分布近似于正态分布，同时均值和标准差这类描述性统计量似乎能够完整地再现该样本分布。基于这一抽样结果，研究人员推断 furball 总体具有一种呈正态分布的多毛表型，并且可由样本均值和样本标准差很好地描述。该实验室在 6 个月后重复随机抽样，得到关于 furball 总体非常相似的推断，从而进一步验证了该结果。

对于公共科学数据库（public scientific repositories）中的数据集，在进行下游分析之前，通常只有数据及其相关元数据能够得到充分检查、审查和评估。对公开归档数据进行这种检查是绝对必要的，因为并非每一个提交到数据库的数据集都经历过相同程度的前期检查和质量控制；此外，许多数据库对数据提交只要求满足最低标准（Brazma et al. 2001）。这使得生物信息学领域的许多人认为，公共科学数据库虽然有用且常常必不可少，但在某种程度上是“脏的”（dirty）（Kim et al. 2003）。因此，许多生物信息学研究者认为，检查并移除不可用数据——也就是对数据集进行“清洗”（cleaning）——是他们工作中最大的一部分，且往往是最关键的步骤，通常约占其工作量的 80%（Zhang et al. 2003）。实际上，检查、审查和评估只是统计推断整体过程中的基础组成部分；这一过程可能需要修订，甚至重复其中任意一个步骤。

Figure 18.14 统计推断过程概览

FUV stands for the fraction of unexplained variance.

图中术语：

Population：总体
Sample：样本
Experiment：实验
Observations：观测值
Data：数据
Statistic：统计量
Parameter：参数
Information and knowledge：信息与知识
Inspect, review, and evaluate：检查、审查和评估
1. Sampled：抽样
2. Acquired：获得
3. Generates：生成
4. Derived：推导
5. Infers：推断
6. Characterizes：刻画
7. Interpreted：解释

Source: Moseley, Hunter (2017): Overview of a statistical inference process. figshare. doi.org/10.6084/m9.figshare.4994213.v1.

Statistical Hypothesis Testing

统计推断最主要的直接目的，是形成命题或判断；统计假设检验（statistical hypothesis testing）是用于对数据形成这些判断的最常见统计方法之一。在大多数生物信息学分析的语境中，可以给出一个实用定义：假设检验是将一个数据集（样本）与另一个数据集（样本）或一个模型进行比较，并基于数据形成判断的过程。然而，从更一般的统计学定义来看，假设检验是基于对某一现象的观测，建立并检验一个可检验假设（testable hypothesis）的过程；该现象通过一组随机变量建模。

从技术上讲，建立可检验假设可以被视为一个独立于统计假设检验的步骤；但很多时候，精确可检验假设的建立与实际检验该假设是相伴发生的，因为一个给定假设必须能够适配某种可用的检验方法。

统计假设检验的标准实施通常包括三个主要步骤。

第一步，是建立一个假设，其形式为：两个样本之间存在某种统计关系。这个假设称为备择假设（alternative hypothesis, Ha），通常直接基于从生物学和/或分析学角度提出的实验假设。然而，直接检验备择假设 Ha 往往非常困难。

第二步，是建立一个逻辑上相反的假设，即零假设（null hypothesis, H0）。零假设通常更容易被直接检验；在此情形下，它表示两个样本之间不存在统计关系。

第三步，是通过比较从每个样本推导出的某个统计量的取值，直接检验零假设 H0，也就是检验“统计关系不存在”这一命题。这种方法的基础在于：直接证伪一个假设或陈述，要比直接证明一个假设或陈述为真容易得多。因此，如果能够证伪一个与目标备择假设 Ha 逻辑相反的零假设 H0，就可以间接支持目标备择假设 Ha 为真。

不过，为了理解被直接检验的零假设 H0，必须在描述性统计的语境中清楚定义什么是“统计关系”（statistical relationship），以避免混淆。当来自两个样本、针对某一给定随机变量所推导出的统计量在统计意义上并非“相同”（the same）时，这种情况被解释为：两个样本在该随机变量方面存在统计关系。因此，两个样本推导出的统计量“相同”，表示不存在统计关系。

例如，考虑如下零假设 H0：两个呈正态分布的纯种马样本，其身高均值相同。这表示两个纯种马样本在身高方面不存在关系。若缺乏统计意义上的相同性，即存在统计差异，则表明零假设是错误的，并且两个纯种马样本的身高之间确实存在统计关系。因此，统计显著差异被用来证伪零假设 H0，即“关系不存在”（也就是认为两个样本的该统计量相同）的假设。

需要牢记的核心思想是：统计显著差异用于证伪或拒绝零假设 H0，即两个样本的某个统计量在统计上相同；这样做的目的是确认备择假设 Ha，即两个样本的统计量在统计上不同，因此两个样本之间存在关系。

统计学家和生物学家在感知、描述和定义世界的方式上存在差异，这是两类科学家相互交流时许多科学混淆的来源，常常导致合作低效甚至失败。因此，在建立跨学科合作时，非常重要的一点是保持充分耐心，并着重识别误沟通发生的位置；这些误沟通常常源自术语差异。

现在将上述统计假设检验过程的前两步放入一个生物学实例中考虑。研究人员在培养皿中培养两组细胞培养物；一组接受某种药物处理，另一组不接受处理。经过 24 小时药物暴露后，从每个培养皿的培养基和细胞中取样，并通过一维 1H 核磁共振（nuclear magnetic resonance, NMR）实验测量乳酸的相对含量。实验人员首先希望检验如下实验假设：“病例组与对照组总体之间，培养基中归一化乳酸 NMR 强度观测值不同。”

为了检验该实验假设，建立如下统计备择假设 Ha：来自样本 Sa 和 Sb 的两组观测值集合，其均值 xa 和 xb 不同。备择假设 Ha 提出，Sa 和 Sb 之间存在关系，即二者均值存在差异。

接下来，建立逻辑上相反的零假设 H0：来自样本 Sa 和 Sb 的两组观测值集合，其均值 xa 和 xb 相同。零假设 H0 提出，Sa 和 Sb 之间不存在关系；在统计检验中拒绝零假设 H0 将验证备择假设 Ha，并支持如下解释：这两组细胞培养物代表两个不同总体。

此时，研究小组中的统计学家要求描述每一个“样本”（sample）。实验人员开始描述从每个细胞培养物中取出的“样品”（sample）。双方都没有意识到，“sample”这个词对对方而言意味着不同的东西，于是误解开始产生，交流也随之变得紧张。

Type I and II Errors that Arise from Statistical Hypothesis Testing

在检验零假设 H0 时，需要判断检验结果是阳性还是阴性。拒绝零假设将支持备择假设，被视为检验的阳性结果。未能拒绝零假设则不支持备择假设，被视为检验的阴性结果。然而，根据零假设实际上为真还是为假，检验存在四种逻辑结果。这些结果由 Figure 18.15 中的真值表展示（更多信息见 Box 5.4）。

从真值表左下角开始，拒绝一个实际上为假的零假设称为真阳性（true positive）。在这种情况下，拒绝错误的零假设正确地支持了备择假设。

移动到真值表右上角，未拒绝一个实际上为真的零假设称为真阴性（true negative）。在这种情况下，未能拒绝真实的零假设，正确地没有支持备择假设。

在真值表左上角，错误地拒绝一个实际上为真的零假设称为假阳性（false positive）。在这种情况下，拒绝真实的零假设错误地支持了备择假设。在统计学中，假阳性称为 I 类错误（type I error）。此时，检验结果会使人得出“存在统计关系”的结论，而事实上这种关系并不存在。Figure 18.15 左侧图像展示了一个 I 类错误：妊娠测试显示男性患者怀孕。

最后，在真值表右下角，未能拒绝一个实际上为假的零假设称为假阴性（false negative）。在这种情况下，未能拒绝错误的零假设，错误地没有支持备择假设。在统计学中，假阴性称为 II 类错误（type II error）。此时，检验结果会使人得出“不存在统计关系”的结论，而事实上这种关系存在。Figure 18.15 最右侧图像展示了一个 II 类错误：妊娠测试显示明显怀孕的女性患者未怀孕。

Figure 18.15 带有 I 类错误和 II 类错误说明的真值表

图中术语：

Truth table：真值表
Type I error (false positive)：I 类错误（假阳性）
Type II error (false negative)：II 类错误（假阴性）
FP (type I error)：FP（I 类错误）
TN：真阴性
TP：真阳性
FN (type II error)：FN（II 类错误）
Reject H0：拒绝 H0
Failure to reject H0：未能拒绝 H0
True H0：H0 为真
False H0：H0 为假
you’re not pregnant：你没有怀孕
you’re pregnant：你怀孕了

Statistical Significance

是否拒绝零假设 H0 并不是一个容易作出的决定，尤其是在并不知道零假设是真是假时。统计显著性（statistical significance）的概念有助于这一决策：它将判断框定为“拒绝一个真实零假设，也就是犯 I 类错误，是多么不可能”。犯 I 类错误的可能性越低，拒绝零假设的统计显著性就越强。

Figure 18.16 以概率或 p 值（p value）的形式展示了统计显著性。p 值表示：当 H0 为真时，获得至少与当前零假设 H0 下的结果一样极端的结果的概率。对于给定的 H0，图中绿色的 p 值是基于检验统计量 t，在给定概率密度函数下一个或两个绿色尾部面积之和。具体使用哪个检验统计量，以及累加一个尾部还是两个尾部，取决于所执行的具体检验。

Alpha，也称显著性水平（level of significance），是当 H0 为真时拒绝零假设 H0 的概率。图中的蓝色 alpha 是从蓝色临界值线开始的一个或两个尾部面积之和。临界值（critical value）只是对应于给定 alpha 的检验统计量取值。Alpha 根据与零假设对应的 p 值是否小于 alpha，建立是否接受或拒绝零假设 H0 的决策点。

良好的统计实践要求在进行统计检验之前选择 alpha，以避免确认偏差（confirmation bias），或避免选择有助于确认实验预期结果的判定标准。在生物学和生物医学研究中，常用的 alpha 包括 0.001、0.01；当样本量较小时，甚至会选择 0.05。

Figure 18.16 概率密度分布、p 值和 alpha 之间关系的示意图

图中术语与公式：

alpha – sum of the two tails starting at the blue critical value lines：alpha——从蓝色临界值线开始的两个尾部面积之和
P value – sum of the two tails：p 值——两个尾部面积之和
H0 is rejected when：当满足以下条件时拒绝 H0
P value ≤ alpha：p 值 ≤ alpha
ts prob density：ts 的概率密度

公式：

P(abs(ts) ≥ c) = ∫c∞ pdf(ts) dt + ∫−∞−c pdf(ts) dt

Source: Moseley, Hunter (2017): Relationships between pdf, p value, and alpha. figshare. doi.org/10.6084/m9.figshare.4994216.v1.

Testing the Null Hypothesis with a Two-Sample t-Test

一旦建立了零假设，就应尝试对其进行检验。这要求找到合适的统计检验或方法。对于涉及比较两个近似正态分布样本均值的零假设，双样本 Student’s t-test 是一种理想方法。

Figure 18.17 第 1 步所示的 t 统计量，是两个样本均值之差，除以均值差异估计方差的平方根；换言之，是除以每个均值标准误最佳估计值平方和的平方根。也就是说，均值之间的分离程度，是相对于用于计算这些均值的底层数据的不确定性（方差）来评估的。

这里并不是使用每个均值的标准误作为不确定性的估计，而是从两个样本方差 𝜎a² 和 𝜎b² 的加权平均中推导出一个新的方差估计 𝜎d²；这一做法假定这两个方差是同一总体方差的两个估计。t 统计量遵循一种称为 Student’s t-distribution 的概率密度分布。实际上，如 Figure 18.17 第 2 步所示，存在许多 t 分布，它们通过参数 v 相互关联；v 是 t-test 中的自由度（degrees of freedom）数量。在本例中，自由度等于两个样本量 na 和 nb 之和减 2。

一般而言，自由度指影响系统可能状态范围及每种状态概率的变量数量。在统计学语境中，自由度指在计算某一给定统计量时“可以自由变化”的数值数量，这些数值会影响结果的范围和概率。在计算双样本 t 统计量的语境中，自由度指两个样本中独立抽样得到的观测值集合总数，减去正在被直接检验的两个均值；因为这两个均值是由同一组数值集合推导出来的。因此，自由度决定了与所计算的特定 t 统计量相关的具体 Student’s t-distribution。

William Sealy Gosset 于 1908 年以笔名 Student 发表了对 Student’s t-distributions 及其统计用途的描述。之所以使用笔名，是因为其雇主对发表论文有公司限制；这也是 Student’s t-distribution 和 Student’s t-test 得名的原因（Student 1908）。

Figure 18.17 展示了使用双样本 t-test 检验零假设的过程。该过程从在检验前选择显著性水平 alpha 开始。随后，在第 1 步中计算 t 统计量及相关统计量。第 2 步，根据自由度 v 选择合适的 Student’s t-distribution。第 3 步，根据 t 统计量和相应 Student’s t-distribution 的概率密度函数计算 p 值。最后，在第 4 步中，根据 p 值是否小于或等于 alpha，决定是否拒绝零假设 H0。

通常，所有这些步骤都由统计 t-test 函数完成；许多电子表格程序以及几乎所有通用数据分析软件包中都能找到这种函数。使用者只需以合适格式提供两组数值样本即可；此时默认预期是：两个样本具有相同方差，并且来自近似正态分布的一个或多个总体。

Figure 18.17 使用 Student’s t-test 检验零假设

图中步骤与公式：

Select an alpha (level of significance) for testing

选择用于检验的 alpha（显著性水平）

Calculate the t-statistic

计算 t 统计量

t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))

其中：

σd² = [(na − 1)σa² + (nb − 1)σb²] / (na + nb − 2)

na = |Sa|
nb = |Sb|
v = na + nb − 2

Select the appropriate Student’s t-distribution

选择合适的 Student’s t-distribution

Calculate p value and compare to alpha

计算 p 值并与 alpha 比较

Reject H0 if P-value ≤ alpha

若 p 值 ≤ alpha，则拒绝 H0

图中术语：

t probability density：t 概率密度
The sum of two tail areas is the p value：两个尾部面积之和即为 p 值

公式：

P(abs(t) ≥ c) = ∫c∞ pdf(t) dt + ∫−∞−c pdf(t) dt

Source: Moseley, Hunter (2017): Overview of using a t-test to test a null hypothesis. figshare. doi.org/10.6084/m9.figshare.4994219.v1.

为了更好地理解双样本 t-test 实际上在做什么，需要理解总体分布与可能样本均值分布之间的关系；后者由对总体进行多次随机抽样而形成。Figure 18.18 展示了这种关系：较大的浅蓝色和红色分布表示总体分布，而较深、且小得多的分布表示样本均值分布。

由于中心极限定理（central limit theorem），当随机抽样的样本量足够大时，无论总体分布本身是什么形状，较小的样本均值分布都会近似于正态分布。这是因为每一个样本值都代表一个独立随机变量，而这些变量会被求和以计算均值统计量；根据中心极限定理，所得变量，也就是这里的均值，应当近似服从正态分布。

也就是说，给定样本的均值和标准误能在多大程度上合理估计样本均值分布的均值和标准差，取决于原始总体分布在多大程度上近似正态分布。因此，在双样本 t-test 的语境中，原始总体分布确实重要，因为样本均值分布的均值和标准差估计值只来自两个样本。

现在，可以使用 t 统计量中对两个样本均值的比较，来比较两个均值分布中成对的均值。由此得到的 t 统计量概率密度分布就是相应的 Student’s t-distribution。随后，该 t 分布可用于单尾或双尾比较，以计算 p 值，并决定是否拒绝零假设 H0。

单尾比较与双尾比较的区别在于：检验的是单一方向的偏离，还是任一方向的偏离。例如，如果要检验药物是否在病例–对照实验的观测值中产生正向反应，可以使用单尾 t-test。然而，如果要检验两个样本均值之间任一方向上的显著偏离，则使用双尾检验。关于如何正确选择统计假设检验的其他考虑，将在本章后面的“Common Statistical Tests Used in a Typical Statistical Inference Process”部分讨论。

Figure 18.18 总体分布与样本均值分布之间的关系

图中术语：

Population A distribution：总体 A 分布
Sample mean A distribution：样本均值 A 分布
Population B distribution：总体 B 分布
Sample mean B distribution：样本均值 B 分布
Compare mean distributions：比较均值分布
Student’s t-distribution：Student’s t-distribution
One-tailed comparison：单尾比较
Two-tailed comparison：双尾比较
Calculate p value：计算 p 值
alpha：alpha
± σp：± 总体标准差
± SE = σs/√n：± 标准误 = σs/√n

公式：

t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))

P(t ≥ c) = ∫c∞ pdf(t) dt

P(abs(t) ≥ c) = ∫c∞ pdf(t) dt + ∫−∞−c pdf(t) dt

Source: Moseley, Hunter (2017): Relationships between population and sample mean distributions. figshare. doi.org/10.6084/m9.figshare.4994222.v1.

Statistical Power

如前所述，统计显著性关注的是 alpha，即 I 类错误（假阳性）的概率。那么 II 类错误（假阴性）的概率又如何表示？统计术语 beta 表示 II 类错误的概率；1 − beta 则表示统计功效（statistical power）的概念，即正确拒绝零假设 H0 的概率。

具有较强统计功效的实验，有较高概率拒绝那些实际上为假的零假设。这也解释了为什么大多数生物医学和临床研究基金申请的评审，都会包括对拟议实验统计功效的评估：目的是评估拟议研究成功的可能性。对统计功效的评估需要估计统计功效，而这种估计来自基于已知或估计统计量的统计功效分析（power analysis）。

功效分析在某一特定统计检验的语境中关联四个相互依赖的因素：alpha、beta（或 1 − beta）、样本量（sample size）和效应量（effect size）。效应量是对某一现象强度的定量度量。给定这四个因素中的任意三个，第四个因素即可通过功效分析推导出来。在许多情况下，某些因素，尤其是效应量，并不知道，只能估计；这意味着推导出的第四个因素也只是一个估计值。

Figure 18.19 在 Student’s t-test 的语境中，用一个近似图展示了功效分析中这四个因素之间的关系；该图在小样本量情况下会存在偏差。如图所示，效应量是样本均值分布的均值之差，通常根据等价实验中的两个样本均值之差估计，或根据类似实验或预实验“合理近似”得到。

效应量根据均值差异的方差进行评估；而均值差异的方差又来自两个样本均值分布的方差。样本均值分布的方差通过标准误的平方进行估计，而标准误依赖于样本量。Alpha 和 beta 围绕一个特定的 t 统计量临界值相互关联；该临界值依赖于均值差异的方差，而这一方差最终依赖于样本量。因此，当其中一个因素发生变化时，其他因素也会随之变化。

通常，功效分析用于估计样本量或统计功效。在估计所需最小样本量时，需要给定期望的统计功效，例如 0.9（90% 功效）、给定的 alpha，例如 0.01，以及对效应量的合理估计。同样，在估计某一拟议实验的统计功效时，需要给定预期样本量、某个 alpha，例如 0.01，以及对效应量的合理估计。

Figure 18.19 Student’s t-test 的近似功效分析图

图中术语：

effect size：效应量
beta：beta
Power：功效
alpha：alpha
critical value：临界值
Retain H0：保留 H0
Reject H0：拒绝 H0
SEa：样本 A 的标准误
SEb：样本 B 的标准误

公式：

t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))

SEa = σa / √na
SEb = σb / √nb

Source: Moseley, Hunter (2017): Approximate power analysis diagram for a Student’s t-test. figshare. doi.org/10.6084/m9.figshare.4994228.v1.

Correcting for False Discovery due to Multiple Testing

生物信息学中一个常见且日益突出的挑战，是处理包含大量不同观测随机变量的实验；这些观测值常常由高通量分析仪器生成，例如 next generation sequencers。所得数据集虽然存在各种与数据存储和管理有关的后勤问题，但也对统计检验和分析提出了独特挑战。可能影响最大的问题是：如果检验大量随机变量，而不采取措施降低错误发现（false discovery），就会产生错误发现。

例如，考虑一个 RNA-seq 实验。该实验使用人类癌细胞培养样本，其中一部分接受抗癌药物处理，另一部分未接受处理；研究人员测量了细胞培养物统计样本中 7500 个独特转录本的丰度。熟悉这类数据集的数据分析人员会明智地先探索数据，验证其行为是否符合预期，然后再进入解释阶段。他们通过绘制代表性随机变量的分布图，验证这些变量看起来是否近似于对数正态分布。随后，他们对原始基因表达观测值进行对数转换，并再次绘图，以观察转换后的分布是否近似正态。

接下来，数据分析人员选择 alpha = 0.01，并使用病例样本和对照样本，对每一个基因表达随机变量执行双样本 t-test。检验结果显示，150 个转录本通过检验，但这里存在一个问题。基于 alpha = 0.01 且共执行 7500 个独立检验，可以预期其中 75 个结果，即 0.01 × 7500 个结果，是假阳性（I 类错误）。然而，只有 150 个转录本通过检验。因此，约 75/150，即 50% 的结果是假阳性，这意味着错误发现率为 50%。会有人信任一个估计有 50% 错误的结果集吗？这个例子展示了对包含大量随机变量的数据集进行多重检验时的根本问题。

多重检验问题的解决方法，是对所执行的一组检验产生的 p 值进行校正。这个统计过程称为多重检验校正（multiple testing correction），其目的是限制错误发现率（false discovery rate, FDR；见 Box 5.4）。FDR 根据假阳性（FP）和真阳性（TP）由下式计算：

FDR = FP / (TP + FP)

在该过程中，会基于一个 p 值或一组 p 值计算 q 值（q value），即经过 FDR 调整的 p 值（见 Chapter 10）。最简单的多重检验校正方法是 Bonferroni correction；该方法将给定 p 值乘以执行检验的数量，从而生成调整后的 p 值。对于少量检验，Bonferroni correction 快速且合理，能够最小化 I 类错误。然而，Bonferroni correction 是一种非常严格的校正，往往在预防 I 类错误和降低 FDR 方面过度补偿，同时会严重提高 II 类错误的概率（McIntyre et al. 2000）。

这是因为 Bonferroni correction 实际上控制的是所谓 family-wise error rate（FWER），即在给定 alpha 下，在一组检验中至少犯一次 I 类错误的概率。因此，Bonferroni 调整后的 p 值从技术上讲并不是 q 值。对于许多涉及高维数据集的统计分析而言，Bonferroni correction 并不是一种可行的多重校正方法；原因在于，当检验数量达到数百个或更多时，对 FWER 的校正会造成 II 类错误大幅增加，并可能抹去所得 q 值中的所有统计显著性。

还有其他更复杂的多重检验校正方法，能够在限制 I 类错误和 II 类错误之间提供更好的平衡，同时达到给定 FDR；不过这些方法并不那么容易使用。最常用的多重校正方法之一是 Benjamini–Hochberg correction。该方法基于目标 FDR，以及由一组相关统计检验生成的有序 p 值集合，对每个 p 值进行调整，从而计算 q 值（Hochberg and Benjamini 1990）。

The Global Problem with the Use of p Values

即使进行了多重检验校正，并且研究者足够谨慎、细致且认真，p 值的使用仍然存在一个全局性问题。

首先，即使在一般科学共同体中，p 值也常常被误解和误用。p 值经常被混同于效应量。某一现象可测量的强度或大小，并不等同于通过统计检验检测到该现象时的统计显著性。在许多情况下，一旦某一特定现象的存在已经建立，由该现象造成的效应量，在评估该现象潜在应用价值时往往更为重要。

例如，在大型 genome-wide association studies（GWAS）中，许多与疾病相关且具有统计显著性的核苷酸变异，其 p 值低于 10−8；然而，这些核苷酸变异中的大多数，其疾病风险 odds ratio 低于 1.5（Ku et al. 2010）。在这一语境中，odds ratio 是一种效应量，代表疾病风险相对较小的增加，即使检测到的疾病关联极有可能存在，也就是具有统计显著性。

同样，其他统计量也常被与 p 值混淆。例如，BLAST 搜索中的 E values 表示：对于给定序列数据库，在随机机会下预期出现相同相似性水平搜索命中的数量（见 Chapter 3）。E values 经常被误认为 p values。虽然 p 值的计算是一致的，但 E values 依赖于其计算所使用的数据库，因此限制了其解释范围。

其次，对 p 值显著性的误解使科学文献中充斥着显著的错误发现。许多已发表科学研究使用较弱的 alpha，例如 0.05，来定义“显著”p 值。考虑到世界各地每个科学实验室都在进行大量检验，基于 alpha = 0.05 选择显著性，会在整个科学文献中产生大量已发表的错误发现。当许多人试图复现他们在已发表科学文献中看到的同一个错误发现时，这种已发表的错误发现还可能被进一步强化。

解决这一全球性 p 值问题并不容易。甚至有一个期刊采取了禁止在其发表文章中使用 p 值的政策（Woolston 2015）。此外，某些科学共同体也共同制定了尽量减少错误发现的指南。例如，物理学共同体通常会等到达到 five sigmas of significance 后，才接受重大结果。这相当于双尾 p 值为 6 × 10−7。对于人类 GWAS，p 值小于 5 × 10−8 是接受结果的标准；这一标准基于对 alpha = 0.05 的 Bonferroni correction，并假定人类基因组中存在 100 万个可检验的独立变异（Risch and Merikangas 1996）。

数据科学领域试图更好地理解这一现象，并对其进行建模，以创建一种更稳健的显著性度量，同时又不限制发现。一个良好的起点，是报告 q 值或其他调整后的 p 值，以防止已发表结果中的错误发现；这对于涉及高通量分析技术和其他生成高维数据实验的发表结果尤其重要。

Common Statistical Tests Used in a Typical Statistical Inference Process

有若干广泛使用的统计检验适用于范围很广的实验结果。大多数统计检验可分为两类：参数检验（parametric tests）和非参数检验（non-parametric tests）。

参数检验假定样本数据来自一个总体，而该总体服从由固定参数集合定义的某种概率分布。最常见的参数检验假定总体服从或近似正态分布。非参数检验不对总体或样本的概率分布作出假设。许多非参数检验，例如 Wilcoxon–Mann–Whitney test（Wilcoxon 1945; Mann and Whitney 1947），通过比较样本的秩序（rank order）进行检验，而不对总体或样本的底层分布作出假设。

Table 18.1 列出了常见参数检验、其对应的非参数等价检验，以及它们在单个连续随机变量上的具体统计使用情境。必须谨慎选择适用于给定统计推断的统计检验。为了帮助选择，可以提出以下四个情境性问题：

总体或样本是否近似服从正态分布？
有多少个样本，即观测值或数值集合，正在被直接比较？
样本方差或样本量是否显著不相等？
样本之间的观测值或数值是否以某种方式重复或相互关联？

这四个问题的答案将有助于确定特定统计情境，以及适用于单个连续随机变量的统计检验。

对于第一个问题，如果相关总体或样本看起来服从正态分布，则参数检验更合适，并能提供更强的统计功效和性能。然而，如果总体或样本明显偏离正态分布，则假设更少的非参数检验最为合适，并能提供更好的显著性估计。当样本包含 30 个以上数值时，用直方图绘制每个样本，是回答这一问题的一种良好且相对快速的方法。此外，如果分布看起来呈对数正态分布，那么对数值进行简单的对数转换可能允许使用参数检验，并且可以通过绘制转换后的样本数据来验证正态性假设。

对于第二个问题，正在检验的是一个样本、两个样本，还是两个以上样本，将决定统计检验的具体类型。对于正态分布数据，当样本为一个或两个时，使用 t-test 及其变体。当样本超过两个时，使用 analysis of variance（ANOVA）及其变体，检验是否至少有一个样本与其他样本显著不同。同样，对于明显非正态分布的数据，Wilcoxon–Mann–Whitney test 及其变体用于检验一个或两个样本。Kruskal–Wallis test（Kruskal and Wallis 1952）适用于检验两个以上样本，并且其中一个样本明显偏离正态性的情形。

Table 18.1 常见参数统计检验及其非参数等价检验

Statistical situation	Parametric	Non-parametric
1 sample	1-sample t-test	1-sample Wilcoxon rank sum
2 samples	2-sample t-test	Wilcoxon–Mann–Whitney test
2 samples, unequal 𝝈², n	Welch unequal 𝝈² t-test	Wilcoxon–Mann–Whitney test
Matched pair of samples	Paired t-test	Wilcoxon signed rank test
>2 samples	One-way ANOVA	Kruskal–Wallis test
>2 samples, unequal 𝝈², n	Welch ANOVA	Kruskal–Wallis test
Matched, >2 samples	Repeated measures ANOVA	Friedman test

表下注：红色标出的两个参数检验适用于 repeated measures 和 matched experimental designs，并提供最强的统计功效。

对于第三个问题，当两个样本均服从正态分布，但其方差或样本量相差超过两倍时，Welch unequal variance t-test（Welch 1947）非常合适（Delacre et al. 2017）。这种双样本 Student’s t-test 的改良版本可以补偿由方差和样本量不成比例所造成的问题，并提供稳健的统计性能。当比较两个以上正态分布样本时，Welch ANOVA 是 ANOVA test 的 Welch 等价方法。

第四个问题用于识别样本之间的特定观测值是否以统计上有意义的方式相互关联。最强类型的关联来自 repeated measures experimental designs。在这种设计中，同一生物学单位或受试对象被用于测量每个样本的观测值，包括对照样本。所得数据集在样本之间具有相互关联的观测值，因此可以使用最有力的统计检验；这些检验直接检验关联观测值之间差异的汇总统计量，而不是检验样本之间汇总统计量的差异。从生物学角度看，由于只比较来自同一生物学单位的测量值，生物学单位之间的方差被忽略。

例如，比较小鼠在治疗前后的体能表现时，只允许检验来自同一只小鼠的测量样本之间的差异，从而减少在不同小鼠之间进行比较时固有的生物学方差的引入。

当两个样本具有相互关联的观测值时，如果样本服从正态分布，paired t-test 最为合适；如果至少一个样本明显偏离正态分布，则 Wilcoxon signed rank test 最为合适。当三个或更多样本具有相互关联的观测值时，如果样本服从正态分布，repeated measures ANOVA 最为合适；如果至少一个样本明显偏离正态分布，则 Friedman test 最为合适。

除 repeated measurements 外，样本之间观测值较弱形式的关联，有时来自 matched experimental designs；然而，这类实验设计存在必须处理的统计问题，并且曾被批评为具有偏倚。相关的 randomized block experimental design 通常被认为更稳健，但要求根据特定潜在混杂因素对生物学单位进行分组（blocking）并在组块之间随机测量，例如年龄、性别、遗传因素，甚至吸烟状态等环境因素。

这些实验设计会生成复杂的样本集合，需要更复杂的统计检验，例如 multiple factor（multi-way）ANOVA。在这些情况下，通常需要统计学家的建议，既用于建立良好的实验设计和相关实验流程，也用于选择合适的统计检验。应当在尝试实验之前寻求这种建议；否则，可能会浪费大量时间、精力和资源，生成不足以回答所提问题的数据集。

同样，当需要对离散随机变量或有序随机变量进行统计检验时，也应咨询统计学家，因为对于给定情境中哪些统计检验合适，并不存在普遍共识，而且当前已发表建议的解释需要专家知识（Fagerland et al. 2011）。

此外，同时检验多个随机变量需要多变量统计分析方法。chi-squared test 是其中一种方法，但它假定随机变量集合彼此独立且服从正态分布。若要同时分析大量随机变量，则需要 PCA、discriminant analysis 以及更新的 machine learning methods 等专门方法。由于每种技术对数据有不同的假设，适当使用和解释这些方法需要专家知识。再次强调，在盲目使用这些方法之前，应寻求统计学和计算专家的建议。当实验问题出现时，还应再次寻求进一步建议。

将合适统计检验或方法的选择置于整体语境中，以下步骤描述了一个使用统计假设检验的典型统计推断过程：

用可检验、可拒绝的假设形式说明正在检验什么。

同时说明零假设 H0 和备择假设 Ha。

推导适当的描述性统计量，并构建样本数据的描述性可视化表示。
评估数据及其相关元数据的质量。

156

Summary + Acknowledgments + Internet Resources + Further Reading + References

PDF page 600-602；印刷页码待核对

▶

Ch18 Statistical Methods for Biologists / Summary + Acknowledgments + Internet Resources + Further Reading + References

Summary

现代生物学与生物医学研究环境已变得数据丰富且数据密集，这要求每一位科研人员都具备数据分析与统计技能，以便在全球科学知识库和数据仓储的背景下，有效分析、利用并解释自己生成的数据。本章旨在作为这些技能的入门指南，重点放在数据解释中最重要的方面：真正努力理解所分析的数据集，使用数据的描述性表征来把握其含义，并在提出、检验和解释统计假设时保持方法上的严谨与谨慎。本章应被视为获取统计知识与直觉的起点，而不是终点。对数据的有效审视需要专业知识与经验的共同支撑，才能避免误读。掌握生物学、统计学与计算相关的综合知识及相应经验需要时间。同样重要的是，要能识别某一特定数据集已经超出自己当前的知识与专长范围，并以耐心沟通的方式寻求统计、计算或分析建议。此外，也应主动参与协作，阅读同事所处学科的相关内容，以提升成功开展多学科合作所必需的有效沟通能力。

Acknowledgments

作者感谢 Robert M. Flight 在创建 Figure 18.7 和 Figure 18.9 过程中提供帮助。作者还感谢 Qingjun Wang 提供 Figure 18.9 所示数据。

Internet Resources

直方图的说明、用途，以及如何创建直方图

www.cqeacademy.com/cqe-body-of-knowledge/continuous-improvement/quality-control-tools/histograms

不同实验设计的优缺点说明

www.simplypsychology.org/experimental-designs.html

描述统计量几乎相同但图形不同的示例

www.autodeskresearch.com/publications/samestats

关于 boxplots 和多峰分布的讨论

stats.stackexchange.com/questions/137965/box-and-whisker-plot-for-multimodal-distribution/137982#137982

ggplot —— 基于 Grammar of Graphics 的 R 和 Python 库

pypi.python.org/pypi/ggplot%3B%20cran.r-project.org/web/packages/ggplot2/index.html

plotly —— 基于网页和脚本的数据分析与可视化平台

plot.ly

R 基础统计与绘图教程

www.statmethods.net

转录组分析的 R 与 Bioconductor 两天入门课程

www.bioconductor.org/help/course-materials/2016/BiocIntro-May

Hadley Wickham 和 Garrett Grolemund 的《R for Data Science》网站

r4ds.had.co.nz

References

Anscombe, F.J. (1973). Graphs in statistical analysis. Am. Stat. 27 (1): 17–21.

Berman, H., Henrick, K., Nakamura, H., and Markley, J.L. (2007). The worldwide Protein Data Bank (wwPDB): ensuring a single, uniform archive of PDB data. Nucleic Acids Res. 35 (Database issue): D301–D303.

Brazma, A., Hingamp, P., Quackenbush, J. et al. (2001). Minimum information about a microarray experiment (MIAME)—toward standards for microarray data. Nat. Genet. 29 (4): 365–371.

Choonpradub, C. and McNeil, D. (2005). Can the box plot be improved? Songklanakarin J. Sci. Technol. 27 (3): 649–657.

Daniel, W.W. and Wayne, W.D. (1995). Biostatistics: a Foundation for Analysis in the Health Sciences. New York, NY: Wiley.

Delacre, M., Lakens, D., and Leys, C. (2017). Why psychologists should by default use Welch’s t-test instead of Student’s t-test. Int. Rev. Soc. Psychol. 30 (1): 92–101.

Fagerland, M.W., Sandvik, L., and Mowinckel, P. (2011). Parametric methods outperformed non-parametric methods in comparisons of discrete numerical variables. BMC Med. Res. Methodol. 11 (1): 44.

Galton, F. (1886). Regression towards mediocrity in hereditary stature. J. R. Anthropol. Inst. 15: 246–263.

Gauss, C.F. (1809). Theoria motus corporum coelestium in sectionibus conicis solem ambientium auctore Carolo Friderico Gauss. Hamburg, Germany: Sumtibus Frid. Perthes et I.H. Besser.

Hintze, J.L. and Nelson, R.D. (1998). Violin plots: a box plot-density trace synergism. Am. Stat. 52 (2): 181–184.

Hochberg, Y. and Benjamini, Y. (1990). More powerful procedures for multiple significance testing. Stat. Med. 9 (7): 811–818.

Kim, W., Choi, B.-J., Hong, E.-K. et al. (2003). A taxonomy of dirty data. Data Min. Knowl. Disc. 7 (1): 81–99.

Kruskal, W.H. and Wallis, W.A. (1952). Use of ranks in one-criterion variance analysis. J. Am. Stat. Assoc. 47 (260): 583–621.

Ku, C.S., Loy, E.Y., Pawitan, Y., and Chia, K.S. (2010). The pursuit of genome-wide association studies: where are we now? J. Hum. Genet. 55(4), 195–206.

Mann, H.B. and Whitney, D.R. (1947). On a test of whether one of two random variables is stochastically larger than the other. Ann. Math. Stat. 18: 50–60.

McGill, R., Tukey, J.W., and Larsen, W.A. (1978). Variations of box plots. Am. Stat. 32 (1): 12–16.

McIntyre, L.M., Martin, E.R., Simonsen, K.L., and Kaplan, N.L. (2000). Circumventing multiple testing. Genet. Epidemiol. 19 (1): 18–29.

Pearson, K. (1895). Note on regression and inheritance in the case of two parents. Proc. R. Soc. Lond. 58: 240–242.

Risch, N. and Merikangas, K. (1996). The future of genetic studies of complex human diseases. Science 273 (5281): 1516–1517.

Sidiropoulos, N., Sohi, S.H., Pedersen, T.L. et al. (2018). SinaPlot: an enhanced chart for simple and truthful representation of single observations over multiple classes. J. Comput. Graph. Stat. 27 (3): 673–676.

Spear, M.E. (1952). Charting Statistics. New York, NY: McGraw-Hill.

Spearman, C. (1904). The proof and measurement of association between two things. Am. J. Psychol. 15 (1): 72–101.

Student (1908). The probable error of a mean. Biometrika 6 (1): 1–25.

Welch, B.L. (1947). The generalization of ‘Student’s’ problem when several different population variances are involved. Biometrika 34 (1/2): 28–35.

Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biom. Bull. 1 (6): 80–83.

Woolston, C. (2015). Psychology journal bans P values. Nature 519: 9.

Yao, S., Flight, R.M., Rouchka, E.C., and Moseley, H.N. (2017). Aberrant coordination geometries discovered in the most abundant metalloproteins. Proteins 85 (5): 885–907.

Zhang, S., Zhang, C., and Yang, Q. (2003). Data preparation for data mining. Appl. Artif. Intell. 17 (5–6): 375–381.

Bioinformatics中文译稿

Biological Sequence Databases导出本章

第 1 章 Biological Sequence Databases

Introduction

第 1 章 Biological Sequence Databases

Nucleotide Sequence Databases

第 1 章 Biological Sequence Databases

Nucleotide Sequence Flatfiles: A Dissection

The Header

Box 1.1 核苷酸数据库中的功能分区

The Feature Table

Table 1.1 feature table 中位置的表示方式

第 1 章 Biological Sequence Databases

Graphical Interfaces

Figure 1.1

第 1 章 Biological Sequence Databases

Box 1.2 RefSeq

第 1 章 Biological Sequence Databases

Protein Sequence Databases

第 1 章 Biological Sequence Databases

The NCBI Protein Database

第 1 章 Biological Sequence Databases

UniProt

Figure 1.2

Figure 1.3

Figure 1.4

Figure 1.5

第 1 章 Biological Sequence Databases

Summary

Box 1.3 确保公共序列数据库中数据的持续质量

第 1 章 Biological Sequence Databases

Acknowledgments

Internet Resources

第 1 章 Biological Sequence Databases

Further Reading

第1章 生物序列数据库

参考文献

Information Retrieval from Biological Databases导出本章

2 信息检索：从生物数据库中获取信息

引言

集成信息检索：Entrez 系统

概述

数据库条目之间的关系：邻近关系

硬链接

Entrez 发现路径

表 2.1 Entrez 布尔搜索语句

图 2.2 说明（见原书）

图 2.3 说明（见原书）

图 2.4 说明（见原书）

图 2.5 说明（见原书）

图 2.6 说明（见原书）

图 2.7 说明（见原书）

图 2.8 说明（见原书）

图 2.9 说明（见原书）

图 2.10 说明（见原书）

图 2.11 说明（见原书）

图 2.12 说明（见原书）

医学数据库

术语表

NCBI 以外的物种序列数据库

小结、网络资源、延伸阅读与参考文献

跨页图注（承接上一小节，图 2.20）

小结

网络资源

延伸阅读

参考文献

章节署名说明

Assessing Pairwise Sequence Similarity: BLAST and FASTA导出本章

评估双序列相似性：BLAST 和 FASTA

引言

全局序列比对与局部序列比对

评分矩阵

Box 3.1 评分矩阵与对数优势比

PAM 矩阵

BLOSUM 矩阵

应在何时使用哪种矩阵？

表 3.1 选择合适的评分矩阵

核苷酸评分矩阵

缺口与缺口罚分

BLAST

Bioinformatics
中文译稿

Biological Sequence Databases

第1章生物序列数据库

Information Retrieval from Biological Databases

Assessing Pairwise Sequence Similarity: BLAST and FASTA

Genome Browsers

第4章基因组浏览器