Bioinformatics 术语表

由 Excel 自动导出为 HTML 预览版，适合浏览器中查看，不依赖本地表格应用。

Workbook: bioinformatics_glossary.xlsxSheets: 4

核心术语表

生物信息学专业术语对照表 · Bioinformatics Glossary	—	—	—	—	—	—	—
来源：NCBI MeSH / Gene Ontology / HGNC / 国家科技名词审定委员会 \| 版本：2025-03
#	英文术语 English Term	中文标准译名	缩写 Abbr.	类别 Category	说明 / 使用注意	来源 Source	备注
1	sequence alignment	序列比对	—	序列分析	分局部比对与全局比对，注意区分 local/global	NCBI
2	local alignment	局部比对	—	序列分析	Smith-Waterman 算法基础	NCBI
3	global alignment	全局比对	—	序列分析	Needleman-Wunsch 算法基础	NCBI
4	pairwise alignment	双序列比对	—	序列分析	两条序列之间的比对	NCBI
5	multiple sequence alignment	多序列比对	MSA	序列分析	用于系统发育、结构预测	NCBI
6	gap penalty	空位罚分	—	序列分析	线性/仿射空位罚分，影响比对质量	NCBI
7	substitution matrix	替换矩阵	—	序列分析	BLOSUM62、PAM250 等	NCBI
8	BLAST	基本局部比对搜索工具	BLAST	序列分析	Basic Local Alignment Search Tool，保留英文缩写	NCBI
9	E-value	期望值	E值	序列分析	衡量比对的统计显著性，非 p-value	NCBI
10	bit score	比特得分	—	序列分析	归一化的比对得分	NCBI
11	query sequence	查询序列	—	序列分析	待检索序列	NCBI
12	subject sequence	目标序列	—	序列分析	数据库中的匹配序列	NCBI
13	homology	同源性	—	序列分析	源于共同祖先，区分相似性 similarity	MeSH
14	ortholog	直系同源基因	—	序列分析	物种分化产生，功能通常保守	NCBI
15	paralog	旁系同源基因	—	序列分析	基因组内复制产生	NCBI
16	percent identity	序列一致性百分比	%ID	序列分析	相同位点占比，不等于同源性	NCBI
17	consensus sequence	共有序列	—	序列分析	多序列比对中最常见碱基/氨基酸	NCBI
18	motif	序列模体	motif	序列分析	保留英文亦可，指保守功能模式	NCBI
19	domain	结构域	—	蛋白质结构	蛋白质的独立折叠/功能单元	Pfam/NCBI
20	genome assembly	基因组组装	—	基因组学	将测序读段重建为完整基因组序列	NCBI
21	contig	重叠群	contig	基因组学	连续无间隙序列，通常保留英文	NCBI
22	scaffold	脚手架序列	scaffold	基因组学	含N填充的更长序列，保留英文亦可	NCBI
23	N50	N50	N50	基因组学	组装质量指标，一半碱基包含在≥N50的片段中	NCBI
24	read	测序读段	read	测序	高通量测序产出的原始序列片段	NCBI
25	coverage	测序深度	—	测序	又称覆盖度，基因组每碱基被测序次数	NCBI
26	paired-end sequencing	双端测序	PE	测序	从文库两端测序，提高组装准确性	NCBI
27	long-read sequencing	长读长测序	—	测序	PacBio / Oxford Nanopore 技术	NCBI
28	short-read sequencing	短读长测序	—	测序	Illumina 为代表，读长100-300 bp	NCBI
29	reference genome	参考基因组	—	基因组学	作为比对基准的已知基因组序列	NCBI
30	variant calling	变异检测	—	基因组学	从测序数据识别SNP、InDel等变异	NCBI
31	SNP	单核苷酸多态性	SNP	基因组学	Single Nucleotide Polymorphism，保留英文缩写	NCBI
32	indel	插入缺失	InDel	基因组学	Insertion/Deletion，小型序列变异	NCBI
33	structural variant	结构变异	SV	基因组学	大片段插入、缺失、倒位、易位等	NCBI
34	copy number variation	拷贝数变异	CNV	基因组学	基因组区段拷贝数异常	NCBI
35	annotation	注释	—	基因组学	为基因组序列添加功能/位置信息	NCBI
36	gene prediction	基因预测	—	基因组学	从基因组序列识别编码基因	NCBI
37	open reading frame	开放阅读框	ORF	基因组学	起始/终止密码子间的可编码序列	NCBI
38	promoter	启动子	—	基因组学	RNA聚合酶结合位点上游调控区	NCBI
39	enhancer	增强子	—	基因组学	顺式作用调控元件，可远距离激活转录	NCBI
40	transcriptome	转录组	—	转录组学	细胞/组织某时刻所有RNA的集合	NCBI
41	RNA-seq	RNA测序	RNA-seq	转录组学	高通量转录组测序，保留英文	NCBI
42	differential expression	差异表达	DE	转录组学	不同条件下基因表达量的统计差异	NCBI
43	read mapping	读段比对	—	转录组学	将测序读段比对到参考序列	NCBI
44	transcript	转录本	—	转录组学	一个基因的一条RNA产物	NCBI
45	isoform	异构体	—	转录组学	同一基因不同剪接形式的RNA	NCBI
46	alternative splicing	选择性剪接	—	转录组学	前体mRNA的不同剪接方式	NCBI
47	FPKM	每百万映射读段中每千碱基的读段数	FPKM	转录组学	Fragments Per Kilobase per Million，表达量单位	NCBI
48	TPM	每百万转录本中每千碱基的转录本数	TPM	转录组学	Transcripts Per Million，推荐替代FPKM	NCBI
49	count matrix	计数矩阵	—	转录组学	基因×样本的表达量原始计数表	NCBI
50	normalization	标准化	—	转录组学	消除文库大小等批次效应	NCBI
51	batch effect	批次效应	—	转录组学	非生物学的技术差异，需校正	NCBI
52	single-cell RNA-seq	单细胞RNA测序	scRNA-seq	转录组学	单个细胞分辨率的转录组分析	NCBI
53	cell clustering	细胞聚类	—	转录组学	根据表达谱将细胞分组	NCBI
54	UMAP	均匀流形近似与投影	UMAP	转录组学	降维可视化方法，保留英文缩写	UMAP
55	t-SNE	t-分布随机近邻嵌入	t-SNE	转录组学	降维可视化方法，保留英文缩写	NCBI
56	proteome	蛋白质组	—	蛋白质组学	细胞/组织某状态下所有蛋白质	NCBI
57	mass spectrometry	质谱	MS	蛋白质组学	蛋白质组学核心检测技术	MeSH
58	peptide	肽/肽段	—	蛋白质组学	短链氨基酸，通常<50个残基	NCBI
59	protein structure prediction	蛋白质结构预测	—	蛋白质结构	如 AlphaFold2 实现的计算预测	NCBI
60	fold	蛋白质折叠	—	蛋白质结构	特定的三维拓扑结构	NCBI
61	active site	活性位点	—	蛋白质结构	酶与底物结合并催化反应的区域	MeSH
62	binding site	结合位点	—	蛋白质结构	与配体/底物结合的氨基酸残基	MeSH
63	secondary structure	二级结构	—	蛋白质结构	α-螺旋、β-折叠等局部构象	NCBI
64	tertiary structure	三级结构	—	蛋白质结构	蛋白质完整三维构象	NCBI
65	quaternary structure	四级结构	—	蛋白质结构	多条多肽链的组装方式	NCBI
66	homology modeling	同源建模	—	蛋白质结构	基于已知结构的同源蛋白建模	NCBI
67	molecular docking	分子对接	—	蛋白质结构	预测小分子与蛋白质的结合构象	MeSH
68	gene ontology	基因本体	GO	系统生物学	Gene Ontology，基因功能描述框架	GO
69	GO term	GO术语	GO term	系统生物学	GO数据库中的功能描述条目	GO
70	pathway	通路	—	系统生物学	基因/蛋白质参与的生化/信号反应链	KEGG
71	KEGG	京都基因与基因组百科全书	KEGG	系统生物学	Kyoto Encyclopedia of Genes and Genomes	KEGG
72	protein-protein interaction	蛋白质-蛋白质相互作用	PPI	系统生物学	蛋白质间的功能相互作用	STRING
73	network	网络	—	系统生物学	节点（基因/蛋白）与边（相互作用）构成的图	NCBI
74	hub gene	核心基因	—	系统生物学	网络中度值最高的关键节点基因	NCBI
75	enrichment analysis	富集分析	—	系统生物学	检验基因集在特定功能/通路中的过表示	GO/KEGG
76	false discovery rate	错误发现率	FDR	统计	多重检验校正方法，优于 Bonferroni	统计
77	p-value	p值	p	统计	统计显著性指标，需配合效应量解释	统计
78	feature extraction	特征提取	—	机器学习	从原始序列/结构提取有效特征	ML
79	dimensionality reduction	降维	—	机器学习	PCA、UMAP、t-SNE等	ML
80	principal component analysis	主成分分析	PCA	机器学习	线性降维方法	ML
81	clustering	聚类	—	机器学习	无监督分组，如 k-means、层次聚类	ML
82	classification	分类	—	机器学习	有监督预测类别标签	ML
83	cross-validation	交叉验证	CV	机器学习	模型评估方法，避免过拟合	ML
84	overfitting	过拟合	—	机器学习	模型对训练数据过度拟合	ML
85	neural network	神经网络	NN	深度学习	模拟神经元连接的计算模型	ML
86	convolutional neural network	卷积神经网络	CNN	深度学习	序列/图像特征提取	ML
87	transformer	变换器	Transformer	深度学习	自注意力机制，蛋白质语言模型基础	ML
88	language model	语言模型	LM	深度学习	如 ESM2、ProtTrans 用于蛋白质序列	ML
89	embedding	嵌入/向量表示	—	深度学习	序列/蛋白质的低维向量表示	ML
90	GenBank	GenBank核苷酸数据库	GenBank	数据库	NCBI核心核苷酸序列数据库	NCBI
91	UniProt	UniProt蛋白质数据库	UniProt	数据库	含 Swiss-Prot（手动注释）和 TrEMBL	UniProt
92	PDB	蛋白质数据银行	PDB	数据库	Protein Data Bank，三维结构存储	RCSB
93	Ensembl	Ensembl基因组数据库	Ensembl	数据库	欧洲生物信息研究所基因组注释	EBI
94	SRA	序列读取存档	SRA	数据库	Sequence Read Archive，原始测序数据	NCBI
95	GEO	基因表达综合数据库	GEO	数据库	Gene Expression Omnibus，表达数据	NCBI
96	BWA	Burrows-Wheeler比对工具	BWA	工具	短读长比对到参考基因组	工具
97	STAR	剪接转录本比对工具	STAR	工具	RNA-seq读段比对，处理剪接位点	工具
98	SAMtools	SAM格式工具集	SAMtools	工具	处理 SAM/BAM 格式比对文件	工具
99	GATK	基因组分析工具包	GATK	工具	Genome Analysis Toolkit，变异检测标准流程	Broad
100	DESeq2	差异表达分析工具	DESeq2	工具	R包，基于负二项分布	Bioconductor
101	edgeR	边缘R差异表达工具	edgeR	工具	R包，RNA-seq差异分析	Bioconductor
102	Seurat	Seurat单细胞分析包	Seurat	工具	R包，scRNA-seq分析主流工具	Satija Lab
103	Scanpy	Scanpy单细胞分析包	Scanpy	工具	Python包，scRNA-seq分析	Theis Lab
104	AlphaFold	AlphaFold蛋白质结构预测	AF2	工具	DeepMind 开发的结构预测工具	DeepMind
105	epigenome	表观基因组	—	表观遗传学	所有表观遗传修饰的总和	NCBI
106	ChIP-seq	染色质免疫沉淀测序	ChIP-seq	表观遗传学	检测蛋白质-DNA结合位点	NCBI
107	ATAC-seq	转座酶可及染色质测序	ATAC-seq	表观遗传学	检测开放染色质区域	NCBI
108	DNA methylation	DNA甲基化	—	表观遗传学	CpG位点甲基化，影响基因表达	NCBI
109	histone modification	组蛋白修饰	—	表观遗传学	H3K4me3、H3K27ac等	NCBI
110	chromatin accessibility	染色质可及性	—	表观遗传学	染色质开放程度，影响转录因子结合	NCBI
111	peak calling	峰值检测	—	表观遗传学	从ChIP/ATAC-seq数据识别富集区域	NCBI
112	biological sequence database	生物序列数据库	—	数据库	本书第1章标题术语；可简称“序列数据库”。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
113	nucleotide base	核苷酸碱基	—	分子生物学	注意与 nucleotide sequence 区分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
114	sequence data	序列数据	—	序列分析	泛指 DNA/RNA/蛋白质等序列数据。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
115	annotated sequence database	带注释的序列数据库	—	数据库	annotated 在数据库语境中统一译为“带注释的”。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
116	Protein Information Resource	蛋白质信息资源	PIR	数据库	机构/数据库名首次出现可译名+英文缩写，后续保留 PIR。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
117	European Molecular Biology Laboratory	欧洲分子生物学实验室	EMBL	机构	机构名首次出现可中文+英文缩写。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
118	DNA Databank of Japan	日本 DNA 数据库	DDBJ	数据库	数据库名首次出现可中文+英文缩写，后续保留 DDBJ。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
119	International Nucleotide Sequence Database Collaboration	国际核苷酸序列数据库协作组织	INSDC	数据库联盟	核心数据库联盟术语。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
120	European Nucleotide Archive	欧洲核苷酸档案库	ENA	数据库	数据库名首次出现可中文+英文缩写，后续保留 ENA。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
121	Swiss-Prot	Swiss-Prot	—	数据库	数据库名保留英文。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
122	TrEMBL	TrEMBL	—	数据库	保留英文；首次出现解释为 translation of EMBL nucleotide sequences。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
123	coding sequence	编码序列	CDS	分子生物学	复数 coding sequences 可译“编码序列”。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
124	UniProt Knowledgebase	UniProt 知识库	UniProtKB	数据库	保留 UniProtKB 缩写。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
125	model genome	模式生物基因组	—	基因组学	本句中 numerous model genomes 指众多模式生物基因组。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
126	bioinformatic analysis	生物信息学分析	—	通用	形容词 bioinformatic 统一译为“生物信息学的/生物信息学”。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Introduction
127	curator	人工审查人员	—	数据库	数据库维护语境使用；不用“策展人员”。	Bioinformatics 4e Ch1	2026-05-11 用户确认译法；中文习惯优化
128	curation	人工审查	—	数据库	数据库条目维护语境使用；不用“策展”。	Bioinformatics 4e Ch1	2026-05-11 用户确认译法；中文习惯优化
129	book of life	生命之书	—	概念表述	隐喻表达；按中文习惯译为“生命之书”。	Bioinformatics 4e Ch1	2026-05-11 用户确认译法
130	nucleotide sequence data	核苷酸序列数据	—	序列分析	指核苷酸层面的序列数据。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
131	common data format	共同的数据格式	—	数据库	用于数据库间数据交换。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
132	flatfile	flatfile / 平面文件	—	文件格式	本书数据库记录格式术语；首次可写“称为 flatfile 的文本文件”。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
133	sequence record	序列记录	—	数据库	数据库中的单条序列条目。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
134	tag	标签	—	数据结构	与 identifier 区分；基础标记信息。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
135	identifier	标识符	ID	数据结构	用于唯一或基本识别记录。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
136	FASTA format	FASTA 格式	FASTA	文件格式	注意 FASTA 可指格式，也可指软件套件，按上下文区分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
137	FASTA software suite	FASTA 软件套件	FASTA	工具	与 FASTA 格式区分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
138	primary data	原始数据	—	数据类型	此处指未经复杂加工的基本序列数据。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
139	definition line	定义行	def line	文件格式	FASTA 记录中以 > 开头的说明行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
140	accession.version number	accession.version 编号	—	数据库	登录号与版本号组合；可保留英文格式。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
141	accession number	登录号	—	数据库	论文引用序列时应使用的稳定编号。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
142	version number suffix	版本号后缀	—	数据库	用于判断序列记录版本。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
143	source database	来源数据库	—	数据库	记录来源数据库，如 ENA。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
144	biological entity	生物学实体	—	生物学	序列所代表的对象。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Nucleotide Sequence Databases
145	elementary unit of information	信息的基本单位	—	数据库	描述 flatfile 在序列数据库中的角色。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Flatfiles
146	field	字段	—	数据结构	flatfile 中单个信息项。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Flatfiles
147	header	头部	—	数据库记录	包含整条记录相关信息和描述符。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Flatfiles
148	descriptor	描述符	—	数据库记录	用于描述整条记录的信息。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Flatfiles
149	feature table	特征表	—	数据库记录	提供与序列相关的注释。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Flatfiles
150	database-specific	数据库特异性的	—	数据库	描述 header 最能体现数据库格式差异。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
151	ID line	ID 行	ID	数据库记录	ENA 中记录基本识别信息的行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
152	LOCUS line	LOCUS 行	LOCUS	数据库记录	DDBJ/GenBank 中对应 ENA ID 行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
153	sequence version	序列版本	SV	数据库	与 accession.version 中的版本概念相关但不完全等同。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
154	topology	拓扑结构	—	分子属性	如 linear。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
155	molecule type	分子类型	—	分子属性	如 genomic DNA。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
156	data class	数据类别	—	数据库	ENA 对功能分区类型的称呼。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
157	functional division	功能分区	—	数据库	用于按功能类型组织序列记录。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
158	taxonomic division	分类分区	—	分类学	如 INV 表示无脊椎动物。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
159	base pair	碱基对	bp	分子生物学	长度单位；复数 base pairs。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
160	AC line	AC 行	AC	数据库记录	显示登录号的行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
161	Constructed record	构建记录	CON	数据库分区	CON 分区；可保留 contigged 说明。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
162	Expressed Sequence Tag	表达序列标签	EST	数据库分区	短 cDNA 单次读段；表达快照。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
163	Genome Survey Sequence	基因组调查序列	GSS	数据库分区	基因组来源的调查序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
164	High-Throughput Genome sequence	高通量基因组序列	HTG	数据库分区	高通量测序中心产生的未完成 DNA 序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
165	Sequence-Tagged Site	序列标签位点	STS	数据库分区	PCR 实验相关的操作上唯一短序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
166	Whole-Genome Shotgun sequence	全基因组鸟枪法序列	WGS	数据库分区	鸟枪法项目产生的大量短读段数据。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
167	date line	日期行	DT	数据库记录	说明条目创建或更新日期。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
168	release number	发布版本号	—	数据库	指季度发布版本。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
169	OS line	OS 行	OS	数据库记录	ENA 中来源物种科学名称行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
170	OC line	OC 行	OC	数据库记录	ENA 中完整分类信息行。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
171	reference block	参考信息块	—	数据库记录	记录参考文献或提交信息。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
172	database cross-reference	数据库交叉引用	DR	数据库记录	链接到关联数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Header
173	feature key	特征键	—	数据库记录	feature table 的组成之一。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
174	location information	位置信息	—	数据库记录	feature table 的组成之一。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
175	qualifier	限定符	—	数据库记录	feature table 的补充描述字段。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
176	source feature	source feature / 来源特征	—	数据库记录	feature table 中标记序列生物学来源的首个 feature。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
177	gene feature	gene feature / 基因特征	—	数据库记录	表示基因本身在整条序列中的位置。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
178	mRNA feature	mRNA feature	—	数据库记录	表示成熟 mRNA 转录本区域。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
179	CDS feature	CDS feature	—	数据库记录	表示编码序列区域。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
180	source key	source key	—	数据库记录	source feature 对应的 key 名。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
181	organism	生物体	—	生物学	/organism 限定符所用字段。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
182	chromosome	染色体	—	染色体	/chromosome 限定符。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
183	map	图谱位置	—	遗传图谱	/map 限定符。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
184	molecular type	分子类型	mol_type	分子属性	/mol_type 限定符。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
185	database cross-reference qualifier	数据库交叉引用限定符	db_xref	数据库记录	feature table 中的受控交叉引用。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
186	join line	join 行	join	数据库记录	表示多个区段连接。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
187	codon_start	codon_start	codon_start	翻译	表示翻译起始偏移。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
188	protein_id	protein_id	protein_id	蛋白质	蛋白质数据库对应条目的登录号。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
189	translation qualifier	translation 限定符	translation	翻译	CDS 翻译后的氨基酸序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
190	untranslated region	非翻译区	UTR	分子生物学	5′ 和 3′ UTR。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
191	sequence length	序列长度	—	序列属性	SQ 行中给出。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
192	GC content	GC 含量	—	序列属性	由碱基计数可计算。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
193	graphical interface	图形界面	—	可视化	用于辅助解释 flatfile。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
194	RefSeq	RefSeq	—	数据库	NCBI 的参考序列项目。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
195	non-redundant	非冗余的	—	数据库	RefSeq 的重要特征。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
196	biocuration	人工审查	—	数据库	数据库专家对原始数据的人工增强。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
197	interoperability	互操作性	—	标准化	序列数据库标准的重要目标。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The Feature Table
198	graphical view	图形视图	—	可视化	用于展示数据库记录中的生物学特征。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Graphical Interfaces
199	documented biological feature	已记录的生物学特征	—	数据库记录	feature table 中文档化的特征。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Graphical Interfaces
200	track	track / 轨道	—	基因组浏览	图形视图中显示基因、mRNA、CDS 等位置的轨道。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Graphical Interfaces
201	coding region	编码区	CDS	分子生物学	图形视图中标记为 CDS 的区域。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Graphical Interfaces
202	Entrez discovery pathway	Entrez 发现路径	—	NCBI	NCBI Entrez 中的信息发现路径。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Graphical Interfaces
203	central dogma	中心法则	—	分子生物学	DNA、RNA、蛋白质三者关系的基础概念。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
204	reference sequence	参考序列	RefSeq	数据库	RefSeq 的目标产物。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
205	non-redundant set	非冗余集合	—	数据库	RefSeq 项目的重要特征。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
206	ongoing curation	持续人工审查	—	数据库	RefSeq 条目的持续更新和审查。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
207	accession number series	登录号系列	—	数据库	RefSeq 使用独立编号系列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
208	experimentally determined sequence	实验测定序列	N-type	数据库	对应 N 编号序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
209	computational prediction	计算预测	X-type	数据库	对应 X 编号序列。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
210	genome annotation	基因组注释	—	基因组学	RefSeq 中的模型序列来源。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
211	RefSeq web site	RefSeq 网站	—	网站	NCBI RefSeq 官网。	Bioinformatics 4e Ch1	2026-05-11 Ch1 RefSeq
212	protein sequence database	蛋白质序列数据库	—	数据库	存储蛋白质序列数据的数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
213	prokaryote	原核生物	—	生物分类	与 eukaryote 相对。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
214	eukaryote	真核生物	—	生物分类	与 prokaryote 相对。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
215	functional analysis	功能分析	—	蛋白质组学	分析蛋白质功能。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
216	proteomic method	蛋白质组学方法	—	蛋白质组学	第11章相关。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
217	protein structure analysis	蛋白质结构分析	—	结构生物学	第12章相关。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
218	biological activity	生物学活性	—	生物学	蛋白功能分析内容之一。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
219	information space	信息空间	—	概念表述	原文引号表达，保留概念性译法。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
220	secondary database	二级数据库	—	数据库	由其他数据库/序列翻译派生的数据资源。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
221	universal protein sequence database	通用蛋白质序列数据库	—	数据库	覆盖所有物种蛋白质的数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
222	specialized protein sequence database	专门的蛋白质序列数据库	—	数据库	聚焦特定家族/群体/生物体的数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
223	model organism database	模式生物数据库	—	数据库	如 MGD、WormBase。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
224	sequence repository	序列库	—	数据库	很少或没有人工干预的数据存储库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
225	curated database	人工审查数据库	—	数据库	由专家进行人工审查增强的数据资源。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
226	best practice	最佳实践	—	标准化	准确表示生物学知识的实践。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
227	International Society for Biocuration	International Society for Biocuration	ISB	组织	组织名保留英文；使命是推进 biocuration 原则。	Bioinformatics 4e Ch1	2026-05-11 Ch1 Protein Sequence Databases
228	protein database	蛋白质数据库	—	数据库	NCBI 维护的蛋白质数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The NCBI Protein Database
229	Third Party Annotation	第三方注释	TPA	数据库	NCBI 的补充注释数据库。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The NCBI Protein Database
230	TPA dataset	TPA 数据集	TPA	数据库	Third Party Annotation 数据集。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The NCBI Protein Database
231	original submitter	原始提交者	—	数据库	INSDC 条目的原始提交人。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The NCBI Protein Database
232	Protein Research Foundation	Protein Research Foundation	—	机构	保留英文机构名。	Bioinformatics 4e Ch1	2026-05-11 Ch1 The NCBI Protein Database
233	data repository	数据仓库	—	数据库	科学家快速访问序列数据的资源。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
234	UniProt Consortium	UniProt Consortium	—	数据库联盟	保留英文名。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
235	UniProt Archive	UniProt Archive	UniParc	数据库	所有公开蛋白质序列的非冗余集合。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
236	UniProt Reference Clusters	UniProt 参考聚类	UniRef	数据库	按序列一致性聚类的非冗余视图。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
237	sequence identity	序列一致性	—	序列分析	UniRef 聚类水平。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
238	heterogeneous nuclear ribonuclear protein A1	异质性核核糖核蛋白 A1	hnRNP A1	蛋白质	原文术语疑似应为 heterogeneous nuclear ribonucleoprotein A1；保留英文核对。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
239	manual review	人工审查	—	数据库	UniProtKB 条目审查状态。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
240	experimental evidence	实验证据	—	证据类型	支持蛋白存在。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
241	Gene Ontology term	Gene Ontology 术语	GO term	本体	与条目相关联的 GO 术语。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
242	Subcellular location	亚细胞定位	—	蛋白质注释	UniProtKB 条目部分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
243	color-coded schematic	颜色编码示意图	—	可视化	图形界面中的细胞示意图。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
244	Feature viewer	Feature viewer / 特征查看器	—	可视化	UniProtKB 中按坐标显示特征的视图。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
245	post-translational modification	翻译后修饰	PTM	蛋白质修饰	蛋白质翻译后修饰。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
246	modified residue	修饰残基	—	蛋白质修饰	PTM 中被修饰的氨基酸残基。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
247	Structural features	结构特征	—	蛋白质结构	UniProtKB Feature viewer 部分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
248	Variants	变体	—	变异	UniProtKB Feature viewer 部分。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
249	alpha helix	α 螺旋	—	蛋白质结构	蛋白质二级结构。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
250	beta strand	β 链	—	蛋白质结构	蛋白质二级结构。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
251	beta turn	β 转角	—	蛋白质结构	蛋白质二级结构。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
252	point mutation	点突变	—	变异	单个位点突变。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
253	proline-to-leucine variant	脯氨酸到亮氨酸变体	—	变异	蛋白质氨基酸替换。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
254	relapsing-remitting multiple sclerosis	复发缓解型多发性硬化	RRMS	疾病	疾病名。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
255	disease-causing variant	致病变体	—	变异	已知或预测造成疾病的变体。	Bioinformatics 4e Ch1	2026-05-11 Ch1 UniProt
256	genomic arena	基因组学领域	—	领域	Summary 中与 proteomic arena 并列。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
257	proteomic arena	蛋白质组学领域	—	领域	Summary 中与 genomic arena 并列。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
258	data storage	数据存储	—	数据库	数据库基本功能之一。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
259	information retrieval	信息检索	—	数据库	数据库高效使用的关键能力。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
260	biological community	生物学界	—	社群	数据库质量维护依赖的使用者与提交者群体。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
261	database administrator	数据库管理员	—	数据库	负责跟进错误报告和数据库维护。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
262	designee	指定人员	—	数据库	可代表原提交者更新记录的人。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
263	full-length mRNA	全长 mRNA	—	分子生物学	Box 1.3 错误示例。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
264	public sequence database	公共序列数据库	—	数据库	公开序列资源。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
265	specialized database	专业数据库	—	数据库	面向特定生物学群体或特定数据类型的小型数据库。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
266	strain cross	品系杂交	—	遗传学	专业数据库可能包含的数据类型。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
267	gene expression data	基因表达数据	—	组学数据	专业数据库可能包含的数据类型。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
268	Database issue	Database 专刊	—	期刊栏目	Nucleic Acids Research 每年数据库专刊。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
269	robust bioinformatic analysis	稳健的生物信息学分析	—	分析	本章总结中的能力目标。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Summary + Box 1.3
270	Acknowledgments	致谢	—	章节结构	章节末尾致谢标题。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
271	Internet Resources	互联网资源	—	章节结构	章节末尾资源列表标题。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
272	DDBJ Database Divisions	DDBJ 数据库分部	—	数据库资源	DDBJ 数据库分类资源。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
273	EMBL Nucleotide Sequence Database	EMBL 核苷酸序列数据库	—	数据库资源	EMBL 序列数据库资源。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
274	ENA Data Formats	ENA 数据格式	—	数据库资源	ENA 提交数据格式资源。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
275	European Bioinformatics Institute	欧洲生物信息学研究所	EBI	机构	EBI 机构名。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
276	GenBank Database Divisions	GenBank 数据库分部	—	数据库资源	GenBank 分类资源。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
277	INSDC Feature Table Definition	INSDC Feature Table 定义	—	数据库资源	INSDC 特征表定义。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
278	NCBI Data Model	NCBI 数据模型	—	数据库资源	NCBI 数据模型文档。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Acknowledgments + Internet Resources
279	Further Reading	延伸阅读	—	章节结构	章节末尾推荐阅读标题。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
280	bioinformatics landscape	生物信息学格局	—	领域	描述现代生物信息学发展背景。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
281	DNA sequencing methodology	DNA 测序方法	—	测序	进一步阅读中讨论的技术方法。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
282	data sharing	数据共享	—	数据库	测序应用引出的数据治理问题。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
283	molecular biology database collection	分子生物学数据库集	—	数据库资源	NAR 数据库概览标题中的术语。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
284	bioinformatic database	生物信息学数据库	—	数据库	公开可用的数据库资源类型。	Bioinformatics 4e Ch1	2026-05-12 Ch1 Further Reading
genome sequencing	基因组测序	Ch2 Introduction
GenBank	GenBank	Ch2 Introduction (保留原名)
National Center for Biotechnology Information	美国国立生物技术信息中心	Ch2 Introduction	NCBI
NCBI	NCBI	Ch2 Introduction (保留缩写)
National Institutes of Health	美国国立卫生研究院	Ch2 Introduction	NIH
NIH	NIH	Ch2 Introduction (保留缩写)
European Molecular Biology Laboratory	欧洲分子生物学实验室	Ch2 Introduction	EMBL
EMBL	EMBL	Ch2 Introduction (保留缩写)
DNA Data Bank of Japan	日本 DNA 数据库	Ch2 Introduction	DDBJ
DDBJ	DDBJ	Ch2 Introduction (保留缩写)
nucleotide	核苷酸	Ch2 Introduction
sequence	序列	Ch2 Introduction
Human Genome Project	人类基因组计划	Ch2 Introduction
information space	信息空间	Ch2 Introduction
Entrez	Entrez	Ch2 Introduction (保留原名)
integrated information retrieval	综合信息检索	Ch2 Introduction
exponential growth	指数增长	Ch2 Introduction
bioinformatics	生物信息学	Ch2 Introduction
sequence variation	序列变异	Ch2 Introduction
model organism	模式生物	Ch2 Introduction
database	数据库	Ch2 Introduction
retrieval	检索	Ch2 Introduction
neighboring (neighbors)	邻近关系	数据库条目关联方式
hard links	硬链接	数据库间条目连接
VAST+	VAST+	Vector Alignment Search Tool增强版
Weighted Key Terms	加权关键词项	Entrez文本相似性方法
relevance pairs model	相关对检索模型	Entrez文本检索算法
Discovery Column	Discovery Column	NCBI界面元素
iCn3D	iCn3D	NCBI 3D结构查看器
biological unit	生物单元	VAST+术语
netrin-1 receptor	netrin-1受体	DCC基因编码蛋白质
DCC	DCC	deleted in colorectal carcinoma
dbSNP	dbSNP	Database of Single Nucleotide Polymorphisms
dbVAR	dbVAR	Database of Genomic Structural Variation
Monte Carlo methods	蒙特卡罗方法	随机搜索优化算法
RMSD	RMSD	Root-mean-square deviation
author field	作者字段	PubMed检索字段
Boolean operators	布尔运算符	AND/OR/NOT
field delimiters / tags	字段限定符	搜索语句中的[AUTH]等
Related articles	相关文章	PubMed相似文献推荐
non-synonymous SNP	非同义SNP	产生氨基酸改变的SNP
synonymous SNP	同义SNP	不改变氨基酸的SNP
allelic variant	等位基因变异	allelic variant listed in OMIM entries
mirror movements	镜像运动	phenotype term in OMIM example
physician-scientists	医师科学家	clinician-researchers interested in genetic disorders
colorectal neoplasms	结直肠肿瘤	ClinicalTrials.gov disease term
specialized genomic databases	专业基因组数据库	—	数据库类型	服务于特定研究群体的专业化基因组数据库	NCBI
NCBI datamodel	NCBI 数据模型	—	概念/模型	NCBI 用于组织数据的结构化模型	NCBI
value-added databases	增值数据库	—	数据库类型	在原始数据基础上增加了人工注释或额外信息的数据库，区别于普通数据库	NCBI
Jackson Laboratory	杰克逊实验室	—	机构	位于缅因州巴尔港（Bar Harbor），MGD 和 MGI 的主办机构	NCBI
Bar Harbor	巴尔港	—	地点	缅因州城镇，Jackson Laboratory 所在地	NCBI
physical mapping data	物理图谱数据	—	图谱学	基于克隆和序列的图谱数据，区别于遗传图谱和细胞遗传学图谱	NCBI
transgenic constructs	转基因构建	—	分子生物学	人工构建的含有转基因序列的 DNA 分子	NCBI
Alliance of Genome Resources	基因组资源联盟	—	机构	模式生物数据库协作组织，提供跨资源中央门户，建议保留英文	NCBI
central portals	中央门户	—	网络资源	集中提供多个数据库检索访问的门户网站	NCBI
free-text searches	自由文本搜索	—	检索方式	使用任意自然语言词汇进行搜索，区别于结构化检索	NCBI
sequence targeting reagents	序列靶向试剂	—	实验材料	用于靶向特定 DNA 序列的实验试剂（如 CRISPR、morpholinos）	NCBI
dcc	dcc	—	基因名	斑马鱼基因名，小写斜体 dcc，人类直系同源基因为 DCC（大写）	NCBI
343	similarity	相似性	—	序列分析	定量指标，基于可观察的序列比对结果；注意区分 homology	Bioinformatics 4e Ch3
344	orthologous	直系同源的	—	序列分析	形容词；由物种分化事件分隔的基因关系	Bioinformatics 4e Ch3
345	paralogous	旁系同源的	—	序列分析	形容词；由同一物种内基因复制事件分隔的基因关系	Bioinformatics 4e Ch3
346	structural motif	结构基序	—	蛋白质结构	序列或结构中可识别的功能/结构模式	Bioinformatics 4e Ch3
347	conserved residue	保守残基	—	序列分析	进化中保持不变或高度保守、通常对结构或功能重要的残基	Bioinformatics 4e Ch3
348	conserved position	保守位置	—	序列分析	多条序列比对中保持不变或高度保守的位置	Bioinformatics 4e Ch3
349	subsequence	子序列	—	序列分析	序列中的连续片段；局部比对常关注高相似性子序列	Bioinformatics 4e Ch3
350	global sequence alignment method	全局序列比对方法	—	序列分析	在两条序列全长范围内寻找最佳比对的方法	Bioinformatics 4e Ch3
351	local sequence alignment method	局部序列比对方法	—	序列分析	寻找两条序列中最相似局部区域的方法	Bioinformatics 4e Ch3
352	scoring matrix	评分矩阵	—	序列分析	序列比对中的经验性加权方案，用于评估比对质量	Bioinformatics 4e Ch3
353	conservative amino acid substitution	保守性氨基酸替换	—	序列分析	物理化学性质相似的氨基酸之间的替换，通常对功能影响较小	Bioinformatics 4e Ch3
354	odds ratio	优势比	—	统计学	评分矩阵中用于比较观察替换频率与随机替换频率的比值	Bioinformatics 4e Ch3
355	log odds ratio	对数优势比	—	统计学	优势比取对数后得到的分数形式，评分矩阵中的数值基础	Bioinformatics 4e Ch3
356	lod score	lod 分数	LOD	统计学	log odds score；观察频率与随机频率比值的对数	Bioinformatics 4e Ch3
357	PAM matrix	PAM 矩阵	PAM	序列分析	基于 point accepted mutation 的蛋白质替换评分矩阵	Bioinformatics 4e Ch3
358	point accepted mutation	可接受点突变	PAM	进化分析	通过自然选择被容纳且保持相同或相似功能的点突变	Bioinformatics 4e Ch3
359	BLOSUM matrix	BLOSUM 矩阵	BLOSUM	序列分析	基于保守区块替换模式直接计算得到的蛋白质评分矩阵	Bioinformatics 4e Ch3
360	blocks substitution matrix	区块替换矩阵	BLOSUM	序列分析	BLOSUM 的全称；基于蛋白质 block 中替换模式构建	Bioinformatics 4e Ch3
361	block	block / 区块	—	序列分析	同一家族蛋白质中可无缺口比对的保守基序集合；指比对本身	Bioinformatics 4e Ch3
362	acceptance	接受	—	进化分析	PAM 语境中指可被自然选择容纳、仍保持相同或相似功能的变化	Bioinformatics 4e Ch3
363	substitution pattern	替换模式	—	序列分析	序列进化或比对中氨基酸/核苷酸彼此替换的规律	Bioinformatics 4e Ch3
364	nucleotide scoring matrix	核苷酸评分矩阵	—	序列分析	核苷酸序列比对使用的评分矩阵，通常统计匹配与错配	Bioinformatics 4e Ch3
365	mismatch	错配	—	序列分析	比对位置上两个字符不同；与 match 区分	Bioinformatics 4e Ch3
366	protein-based search	基于蛋白质的搜索	—	序列检索	将编码 DNA 转为蛋白质层面检索；信息量通常高于核苷酸搜索	Bioinformatics 4e Ch3
367	nucleotide-based search	基于核苷酸的搜索	—	序列检索	直接在核苷酸层面进行搜索或比对	Bioinformatics 4e Ch3
368	amino acid alphabet	氨基酸字母表	—	序列分析	20 个氨基酸字符构成，信息量高于四字母核苷酸字母表	Bioinformatics 4e Ch3
369	nucleotide alphabet	核苷酸字母表	—	序列分析	A/C/G/T 四个核苷酸字符构成	Bioinformatics 4e Ch3
370	gap	缺口	—	序列比对	为补偿插入或缺失而在比对中引入的空位	Bioinformatics 4e Ch3
371	affine gap penalty	仿射缺口罚分	—	序列比对	由缺口开启罚分和与缺口长度成比例的延伸罚分构成	Bioinformatics 4e Ch3
372	gap-opening penalty	缺口开启罚分	G	序列比对	创建一个新缺口的固定代价	Bioinformatics 4e Ch3
373	gap-extension penalty	缺口延伸罚分	L	序列比对	延长已有缺口的单位长度代价	Bioinformatics 4e Ch3
374	linear gap penalty	线性缺口罚分	—	序列比对	非仿射缺口罚分；每个缺口位置施加固定罚分，无开启代价	Bioinformatics 4e Ch3
375	mismatch penalty	错配罚分	—	序列比对	对错配位置施加的固定扣分；线性缺口罚分中也用于每个缺口位置	Bioinformatics 4e Ch3
376	Basic Local Alignment Search Tool	基本局部比对搜索工具	BLAST	序列比对	BLAST 的英文全称	Bioinformatics 4e Ch3
377	sensitivity	敏感性	—	序列比对	检测真实相似性或同源关系的能力	Bioinformatics 4e Ch3
378	pairwise sequence comparison	双序列比较	—	序列比对	两条序列之间的比较分析	Bioinformatics 4e Ch3
379	local alignment method	局部比对方法	—	序列比对	检测序列局部相似区域的方法	Bioinformatics 4e Ch3
380	target sequence	目标序列	—	序列比对	被查询序列搜索或比对的序列	Bioinformatics 4e Ch3
381	query word	查询词	—	序列比对	从查询序列取出的固定长度短片段，用作 BLAST 搜索种子	Bioinformatics 4e Ch3
382	neighborhood	邻域	—	序列比对	与原始查询词按评分矩阵判定为相关的一组词	Bioinformatics 4e Ch3
383	conservative substitution	保守替换	—	序列比对	性质相近残基之间的替换，常保留一定生物学相关性	Bioinformatics 4e Ch3
384	neighborhood score threshold	邻域得分阈值	T	序列比对	控制 BLAST 邻域词进入下一步的得分截断参数	Bioinformatics 4e Ch3
385	cumulative score	累计得分	—	序列比对	比对延伸过程中逐位置得分的累计总和	Bioinformatics 4e Ch3
386	score threshold	得分阈值	S	序列比对	BLAST 输出中返回命中所需的最低得分	Bioinformatics 4e Ch3
387	significance decay	显著性衰减阈值	X	序列比对	控制 BLAST 延伸终止的得分下降阈值	Bioinformatics 4e Ch3
388	high-scoring segment pair	高得分片段对	HSP	序列比对	BLAST 中得分较高的局部比对片段对	Bioinformatics 4e Ch3
389	expectation value	期望值	E-value	序列比对	随机机会下预期出现同等或更高得分 HSP 的数量	Bioinformatics 4e Ch3
390	false positive	假阳性	—	统计/序列比对	被报告为命中但并非真实生物学相关的结果	Bioinformatics 4e Ch3
391	Karlin-Altschul equation	Karlin–Altschul 方程	—	序列比对统计	用于计算 BLAST 期望值 E 的局部比对统计方程	Bioinformatics 4e Ch3
392	BLAST home page	BLAST 主页	—	序列分析	NCBI BLAST 搜索入口；界面术语可保留英文	Ch3 Performing a BLAST Search
393	query subrange	query subrange	—	界面元素	BLAST 界面字段名，保留英文	Ch3 Performing a BLAST Search
394	expect threshold	expect threshold	—	BLAST 参数	限制返回结果 E 值阈值；界面字段保留英文	Ch3 Performing a BLAST Search
395	word size	word size	—	BLAST 参数	启动 BLAST 搜索的查询词长度；参数名保留英文	Ch3 Performing a BLAST Search
396	low-complexity region	低复杂度区域	—	序列分析	组成偏倚区域，可能导致假阳性比对	Ch3 Performing a BLAST Search
397	Conserved Domain Database	保守结构域数据库	CDD	数据库	NCBI CDD；正文首次可写 Conserved Domain Database（CDD）	Ch3 Performing a BLAST Search
398	hit list	hit list	—	BLAST 输出	BLAST 输出中的命中列表；界面/输出术语保留英文	Ch3 Performing a BLAST Search
399	positives	positives	—	BLAST 输出	完全匹配加保守替换；输出字段保留英文	Ch3 Performing a BLAST Search
400	cut-off	截断标准	—	序列分析	BLAST 等搜索结果判定阈值；复数 cut-offs 同译	Ch3 Suggested BLAST Cut-Offs
401	twilight zone	暮光区	—	序列分析	低序列一致性区域，序列关系结论通常不可靠；正文首次保留英文并加中文	Ch3 Suggested BLAST Cut-Offs
402	putative homology	推定同源关系	—	序列分析	需结合比对和文献证据判断	Ch3 Suggested BLAST Cut-Offs
BLAST 2 Sequences	BLAST 2 Sequences	BLAST 变体名，保留英文
local alignment	局部比对	序列比对术语
query sequence	query sequence	BLAST 界面/输出术语，保留英文
subject sequence	subject sequence	BLAST 界面/输出术语，保留英文
dot matrix view	dot matrix view	BLAST 2 Sequences 输出视图，保留英文
dotplot	dotplot	点阵图/点图；本项目保留英文
ctenophore	栉水母	动物类群
direct or inverted repeats	正向或反向重复	序列结构术语
MegaBLAST	MegaBLAST	BLASTN 变体名，保留英文
BLASTN	BLASTN	核苷酸 BLAST 程序名，保留英文
nucleotide sequence	核苷酸序列	序列类型
exact match	精确匹配	序列比对术语
greedy gapped alignment routine	greedy gapped alignment routine（贪婪式带缺口比对流程）	MegaBLAST 算法描述
contig	contig	组装连续序列术语，保留英文
word length	word length	BLAST 参数名，保留英文
non-affine gap penalty scheme	non-affine gap penalty scheme	BLAST 参数方案名，保留英文
discontiguous MegaBLAST	discontiguous MegaBLAST	MegaBLAST 变体名，保留英文
sequence identity	sequence identity	比对统计术语，保留英文
discontiguous word approach	discontiguous word approach	算法方法名，保留英文
PSI-BLAST	PSI-BLAST	position-specific iterated BLAST，保留英文
position-specific iterated BLAST	position-specific iterated BLAST	PSI-BLAST 全称，保留英文
position-specific scoring matrix	position-specific scoring matrix（PSSM）	位置特异性打分矩阵；首次可中文解释
PSSM	PSSM	position-specific scoring matrix 缩写，保留英文
hidden Markov model	hidden Markov model	模型名，保留英文
profile	profile	PSSM/序列模型语境，保留英文
multiple sequence alignment	multiple sequence alignment	多序列比对；本项目保留英文术语
protein family	蛋白家族	生物学术语
absolute sequence identity	绝对 sequence identity	比对统计语境
distantly related protein	远缘相关蛋白	同源性语境
conservative substitution	保守替换	序列比对术语
non-conservative substitution	非保守替换	序列比对术语
query protein sequence	query protein sequence	BLAST 术语，保留英文
search converges	搜索收敛	PSI-BLAST 迭代语境
sex-determining protein SRY	sex-determining protein SRY	蛋白名，保留英文
E value threshold	E value threshold	参数名，保留英文
PSI-BLAST threshold	PSI-BLAST threshold	参数名，保留英文
hit list table	hit list table	BLAST 输出表术语，保留英文
inclusion boxes	inclusion boxes	界面复选框语境，保留英文
BLAT	BLAT	BLAST-Like Alignment Tool，保留英文
BLAST-Like Alignment Tool	BLAST-Like Alignment Tool	BLAT 全称，保留英文
nucleotide sequence alignment program	核苷酸序列比对程序	工具类别
non-overlapping 11-mers	non-overlapping 11-mers	BLAT 索引术语，保留英文
cross-species analyses	跨物种分析	比较基因组语境
Cancer Genome Anatomy Project	Cancer Genome Anatomy Project	项目名，保留英文
CGAP	CGAP	Cancer Genome Anatomy Project 缩写，保留英文
cDNA clone	cDNA clone	分子生物学术语，保留英文
rat genome	大鼠基因组	基因组语境
query page	query page	界面术语，保留英文
sequence box	sequence box	界面术语，保留英文
pull-down menu	pull-down menu	界面术语，保留英文
assembly	assembly	基因组装版本语境，保留英文
query type	query type	界面参数，保留英文
UCSC Genome Browser	UCSC Genome Browser	数据库/浏览器名，保留英文
splice site	splice site	剪接位点；本项目界面图注语境保留英文复数 splice sites
side-by-side alignment	side-by-side alignment	比对视图术语，保留英文
FASTA	FASTA	数据库相似性搜索程序名，保留英文
heuristic method	heuristic method	算法描述，保留英文
FASTA format	FASTA format	序列表示格式，保留英文
FASTX/FASTY	FASTX/FASTY	FASTA 算法变体，保留英文
TFASTX/TFASTY	TFASTX/TFASTY	FASTA 算法变体，保留英文
overlapping words	overlapping words	FASTA 方法术语，保留英文
ktup	ktup	FASTA word length 参数，保留英文
word match	word match	FASTA 搜索术语，保留英文
dotplot format	dotplot format	图形表示术语，保留英文
init1	init1	FASTA 初始分数变量，保留英文
initn	initn	FASTA 连接后分数变量，保留英文
Smith-Waterman algorithm	Smith-Waterman algorithm	算法名，保留英文
expectation value E	expectation value E	统计显著性术语，保留英文
web front-end	web front-end	网页查询前端，保留英文
gap and extension penalties	gap and extension penalties	参数名，保留英文
histone H2B.3	histone H2B.3	组蛋白变体名，保留英文
Hydractinia	Hydractinia	刺胞动物属名，保留学名
Hydractinia echinata	Hydractinia echinata	物种名，保留学名
protamines	protamines	精子 DNA 包装相关蛋白，保留英文
histogram	histogram	输出图表术语，保留英文
normalized bit score	normalized bit score	FASTA 输出列术语，保留英文
frameshift	frameshift	移码；FASTA/FASTX 输出语境保留英文复数 frameshifts
Structural Classification of Proteins	Structural Classification of Proteins	数据库名，保留英文
SCOP	SCOP	Structural Classification of Proteins 缩写，保留英文
bioinformatician	bioinformatician	生物信息学研究者；本项目复数 bioinformaticians 保留英文
black box	black box	黑箱；本项目原文引号语境保留英文
sequence-based	sequence-based	以序列为基础的；本项目保留英文形容词
cross-check	交叉检查/核查	验证计算结果语境
403	expression analysis	表达分析	—	表达分析	本章总主题；指针对基因表达数据进行评估、比较与解释的分析流程	Ch10 cron 2026-05-14
404	gene expression profile	基因表达谱	—	表达分析	指特定样本、细胞类型或条件下各基因表达水平的整体模式	Ch10 cron 2026-05-14
405	phenotypic state	表型状态	—	表达分析	指健康、疾病或其他生物学条件下表现出的状态	Ch10 cron 2026-05-14
406	DNA microarray	DNA 微阵列	—	表达分析	经典高通量表达检测技术；本项目暂统一保留 DNA + 中文术语混排	Ch10 cron 2026-05-14
407	irreproducibility	不可重复性	—	科研方法	指研究结果缺乏重复实验一致性的问题	Ch10 cron 2026-05-14
408	experimental design	实验设计	—	科研方法	表达分析工作流的起点，决定样本、分组与重复设置	Ch10 cron 2026-05-14

分类索引

按类别快速检索	—	—
▸ 基因组学 (15 条)
英文	中文	缩写
genome assembly	基因组组装	—
contig	重叠群	contig
scaffold	脚手架序列	scaffold
N50	N50	N50
reference genome	参考基因组	—
variant calling	变异检测	—
SNP	单核苷酸多态性	SNP
indel	插入缺失	InDel
structural variant	结构变异	SV
copy number variation	拷贝数变异	CNV
annotation	注释	—
gene prediction	基因预测	—
open reading frame	开放阅读框	ORF
promoter	启动子	—
enhancer	增强子	—
▸ 工具 (9 条)
英文	中文	缩写
BWA	Burrows-Wheeler比对工具	BWA
STAR	剪接转录本比对工具	STAR
SAMtools	SAM格式工具集	SAMtools
GATK	基因组分析工具包	GATK
DESeq2	差异表达分析工具	DESeq2
edgeR	边缘R差异表达工具	edgeR
Seurat	Seurat单细胞分析包	Seurat
Scanpy	Scanpy单细胞分析包	Scanpy
AlphaFold	AlphaFold蛋白质结构预测	AF2
▸ 序列分析 (18 条)
英文	中文	缩写
sequence alignment	序列比对	—
local alignment	局部比对	—
global alignment	全局比对	—
pairwise alignment	双序列比对	—
multiple sequence alignment	多序列比对	MSA
gap penalty	空位罚分	—
substitution matrix	替换矩阵	—
BLAST	基本局部比对搜索工具	BLAST
E-value	期望值	E值
bit score	比特得分	—
query sequence	查询序列	—
subject sequence	目标序列	—
homology	同源性	—
ortholog	直系同源基因	—
paralog	旁系同源基因	—
percent identity	序列一致性百分比	%ID
consensus sequence	共有序列	—
motif	序列模体	motif
▸ 数据库 (6 条)
英文	中文	缩写
GenBank	GenBank核苷酸数据库	GenBank
UniProt	UniProt蛋白质数据库	UniProt
PDB	蛋白质数据银行	PDB
Ensembl	Ensembl基因组数据库	Ensembl
SRA	序列读取存档	SRA
GEO	基因表达综合数据库	GEO
▸ 机器学习 (7 条)
英文	中文	缩写
feature extraction	特征提取	—
dimensionality reduction	降维	—
principal component analysis	主成分分析	PCA
clustering	聚类	—
classification	分类	—
cross-validation	交叉验证	CV
overfitting	过拟合	—
▸ 测序 (5 条)
英文	中文	缩写
read	测序读段	read
coverage	测序深度	—
paired-end sequencing	双端测序	PE
long-read sequencing	长读长测序	—
short-read sequencing	短读长测序	—
▸ 深度学习 (5 条)
英文	中文	缩写
neural network	神经网络	NN
convolutional neural network	卷积神经网络	CNN
transformer	变换器	Transformer
language model	语言模型	LM
embedding	嵌入/向量表示	—
▸ 系统生物学 (8 条)
英文	中文	缩写
gene ontology	基因本体	GO
GO term	GO术语	GO term
pathway	通路	—
KEGG	京都基因与基因组百科全书	KEGG
protein-protein interaction	蛋白质-蛋白质相互作用	PPI
network	网络	—
hub gene	核心基因	—
enrichment analysis	富集分析	—
▸ 统计 (2 条)
英文	中文	缩写
false discovery rate	错误发现率	FDR
p-value	p值	p
▸ 蛋白质组学 (3 条)
英文	中文	缩写
proteome	蛋白质组	—
mass spectrometry	质谱	MS
peptide	肽/肽段	—
▸ 蛋白质结构 (10 条)
英文	中文	缩写
domain	结构域	—
protein structure prediction	蛋白质结构预测	—
fold	蛋白质折叠	—
active site	活性位点	—
binding site	结合位点	—
secondary structure	二级结构	—
tertiary structure	三级结构	—
quaternary structure	四级结构	—
homology modeling	同源建模	—
molecular docking	分子对接	—
▸ 表观遗传学 (7 条)
英文	中文	缩写
epigenome	表观基因组	—
ChIP-seq	染色质免疫沉淀测序	ChIP-seq
ATAC-seq	转座酶可及染色质测序	ATAC-seq
DNA methylation	DNA甲基化	—
histone modification	组蛋白修饰	—
chromatin accessibility	染色质可及性	—
peak calling	峰值检测	—
▸ 转录组学 (16 条)
英文	中文	缩写
transcriptome	转录组	—
RNA-seq	RNA测序	RNA-seq
differential expression	差异表达	DE
read mapping	读段比对	—
transcript	转录本	—
isoform	异构体	—
alternative splicing	选择性剪接	—
FPKM	每百万映射读段中每千碱基的读段数	FPKM
TPM	每百万转录本中每千碱基的转录本数	TPM
count matrix	计数矩阵	—
normalization	标准化	—
batch effect	批次效应	—
single-cell RNA-seq	单细胞RNA测序	scRNA-seq
cell clustering	细胞聚类	—
UMAP	均匀流形近似与投影	UMAP
t-SNE	t-分布随机近邻嵌入	t-SNE

翻译规范

生物信息学教材翻译规范 & 常见错误	—	—	—
规则	说明	正确示例	错误示例
基因名保留英文	人类基因名用斜体大写，不翻译	TP53 基因	肿瘤蛋白53基因
物种学名保留	斜体拉丁文二名法，不翻译	Homo sapiens	智人（学名处）
数据库名保留英文	NCBI、UniProt、PDB 等不翻译	UniProt 数据库	单一蛋白数据库
软件/工具名保留	BLAST、BWA、Seurat 等不翻译	使用 BLAST 进行搜索	使用基本局部比对工具搜索
统计术语精确	p-value 不等于假设成立的概率	p < 0.05	概率小于0.05
homology≠similarity	同源性指共同祖先，相似性指序列相似	同源蛋白	相似蛋白（当有共同祖先时）
alignment 的翻译	序列语境下译'比对'，结构语境下可译'叠合'	序列比对结果	序列排列/对齐
assembly 的翻译	基因组语境下译'组装'，其他勿混	基因组组装	基因组构建
read 保留英文	测序读段，避免译为'读数'	测序 read 长度	读数长度
coverage 的翻译	测序语境：测序深度；基因组覆盖率两义，需注明	10× 测序深度	10× 覆盖
公式/代码不翻译	LaTeX 公式、代码块、序列数据原样保留	```python def align():```	翻译代码注释时保留代码
缩写首次出现展开	首次出现给出全称+缩写，后续可直接用缩写	单核苷酸多态性（SNP）	SNP（不给全称）

Prompt片段

可直接复制到翻译 Prompt 的术语对照（按类别分块）	—
## 基因组学
	genome assembly → 基因组组装 contig → 重叠群 (contig) scaffold → 脚手架序列 (scaffold) N50 → N50 (N50) reference genome → 参考基因组 variant calling → 变异检测 SNP → 单核苷酸多态性 (SNP) indel → 插入缺失 (InDel) structural variant → 结构变异 (SV) copy number variation → 拷贝数变异 (CNV) annotation → 注释 gene prediction → 基因预测 open reading frame → 开放阅读框 (ORF) promoter → 启动子 enhancer → 增强子
## 工具
	BWA → Burrows-Wheeler比对工具 (BWA) STAR → 剪接转录本比对工具 (STAR) SAMtools → SAM格式工具集 (SAMtools) GATK → 基因组分析工具包 (GATK) DESeq2 → 差异表达分析工具 (DESeq2) edgeR → 边缘R差异表达工具 (edgeR) Seurat → Seurat单细胞分析包 (Seurat) Scanpy → Scanpy单细胞分析包 (Scanpy) AlphaFold → AlphaFold蛋白质结构预测 (AF2)
## 序列分析
	sequence alignment → 序列比对 local alignment → 局部比对 global alignment → 全局比对 pairwise alignment → 双序列比对 multiple sequence alignment → 多序列比对 (MSA) gap penalty → 空位罚分 substitution matrix → 替换矩阵 BLAST → 基本局部比对搜索工具 (BLAST) E-value → 期望值 (E值) bit score → 比特得分 query sequence → 查询序列 subject sequence → 目标序列 homology → 同源性 ortholog → 直系同源基因 paralog → 旁系同源基因 percent identity → 序列一致性百分比 (%ID) consensus sequence → 共有序列 motif → 序列模体 (motif)
## 数据库
	GenBank → GenBank核苷酸数据库 (GenBank) UniProt → UniProt蛋白质数据库 (UniProt) PDB → 蛋白质数据银行 (PDB) Ensembl → Ensembl基因组数据库 (Ensembl) SRA → 序列读取存档 (SRA) GEO → 基因表达综合数据库 (GEO)
## 机器学习
	feature extraction → 特征提取 dimensionality reduction → 降维 principal component analysis → 主成分分析 (PCA) clustering → 聚类 classification → 分类 cross-validation → 交叉验证 (CV) overfitting → 过拟合
## 测序
	read → 测序读段 (read) coverage → 测序深度 paired-end sequencing → 双端测序 (PE) long-read sequencing → 长读长测序 short-read sequencing → 短读长测序
## 深度学习
	neural network → 神经网络 (NN) convolutional neural network → 卷积神经网络 (CNN) transformer → 变换器 (Transformer) language model → 语言模型 (LM) embedding → 嵌入/向量表示
## 系统生物学
	gene ontology → 基因本体 (GO) GO term → GO术语 (GO term) pathway → 通路 KEGG → 京都基因与基因组百科全书 (KEGG) protein-protein interaction → 蛋白质-蛋白质相互作用 (PPI) network → 网络 hub gene → 核心基因 enrichment analysis → 富集分析
## 统计
	false discovery rate → 错误发现率 (FDR) p-value → p值 (p)
## 蛋白质组学
	proteome → 蛋白质组 mass spectrometry → 质谱 (MS) peptide → 肽/肽段
## 蛋白质结构
	domain → 结构域 protein structure prediction → 蛋白质结构预测 fold → 蛋白质折叠 active site → 活性位点 binding site → 结合位点 secondary structure → 二级结构 tertiary structure → 三级结构 quaternary structure → 四级结构 homology modeling → 同源建模 molecular docking → 分子对接
## 表观遗传学
	epigenome → 表观基因组 ChIP-seq → 染色质免疫沉淀测序 (ChIP-seq) ATAC-seq → 转座酶可及染色质测序 (ATAC-seq) DNA methylation → DNA甲基化 histone modification → 组蛋白修饰 chromatin accessibility → 染色质可及性 peak calling → 峰值检测
## 转录组学
	transcriptome → 转录组 RNA-seq → RNA测序 (RNA-seq) differential expression → 差异表达 (DE) read mapping → 读段比对 transcript → 转录本 isoform → 异构体 alternative splicing → 选择性剪接 FPKM → 每百万映射读段中每千碱基的读段数 (FPKM) TPM → 每百万转录本中每千碱基的转录本数 (TPM) count matrix → 计数矩阵 normalization → 标准化 batch effect → 批次效应 single-cell RNA-seq → 单细胞RNA测序 (scRNA-seq) cell clustering → 细胞聚类 UMAP → 均匀流形近似与投影 (UMAP) t-SNE → t-分布随机近邻嵌入 (t-SNE)