Ch18 Statistical Methods for Biologists / Statistical Inference and Statistical Hypothesis Testing
Statistical Inference and Statistical Hypothesis Testing
Figure 18.13 金属蛋白中配位金属离子的键长和配位角直方图
(a) 金属蛋白中与氧配体结合的常见金属离子的键长直方图。
(b) 金属蛋白中配位锌离子的最小配体–金属–配体角直方图。
图中术语:
- Metal ion–oxygen ligand:金属离子–氧配体
- Smallest ligand–metal–ligand angle for a coordinated Zn ion:配位 Zn 离子的最小配体–金属–配体角
- Positively skewed:正偏态
- Negatively skewed:负偏态
- Bimodal:双峰分布
- Bond length (Å):键长(Å)
- Angle (degrees):角度(度)
- Count:计数
- metal:金属
- numLig:配体数
Source: Yao, S., Flight, R.M., Rouchka, E.C., and Moseley, H.N.B. (2017). Aberrant coordination geometries discovered in the most abundant metalloproteins. Proteins: Structure, Function, and Bioinformatics 85, 885–907. Reproduced with permission of Wiley.
Statistical Inference and Statistical Hypothesis Testing
Statistical Inference
统计推断(statistical inference)是指对总体(population)的性质形成判断或“命题”(propositions)的过程,通常基于随机抽样(random sampling)进行。其总体目的在于获得新的信息和知识,和/或支持有依据的决策。Figure 18.14 展示了这一过程:从正在被分析的总体开始,对该总体进行随机抽样,用于某个实验,并在实验中获得观测值。这些观测值生成数据;数据可用于推导描述性统计量(descriptive statistics),进而推断刻画底层总体的特定参数(parameters)。随后,这些描述性统计量被解释为新的信息和知识。
在这一过程中,至关重要的是:样本、实验、观测值和数据都必须经过充分检查、审查和评估,使得由此推导出的统计量能够用于推断准确刻画正确总体的参数,从而支持合理解释并提供新的信息和知识。
例如,考虑一个实验室构建了一种基因敲除小鼠,其表型为毛发非常浓密,研究人员亲切地称之为 furball。这种多毛表型相当独特,因此该实验室繁育了 100 只 furball 小鼠,形成随机样本,以刻画其多毛表型。研究人员测量了这一小鼠样本背侧和腹侧的毛发斑块。所得毛发测量数据集用图形进行描述;这些图形显示样本分布近似于正态分布,同时均值和标准差这类描述性统计量似乎能够完整地再现该样本分布。基于这一抽样结果,研究人员推断 furball 总体具有一种呈正态分布的多毛表型,并且可由样本均值和样本标准差很好地描述。该实验室在 6 个月后重复随机抽样,得到关于 furball 总体非常相似的推断,从而进一步验证了该结果。
对于公共科学数据库(public scientific repositories)中的数据集,在进行下游分析之前,通常只有数据及其相关元数据能够得到充分检查、审查和评估。对公开归档数据进行这种检查是绝对必要的,因为并非每一个提交到数据库的数据集都经历过相同程度的前期检查和质量控制;此外,许多数据库对数据提交只要求满足最低标准(Brazma et al. 2001)。这使得生物信息学领域的许多人认为,公共科学数据库虽然有用且常常必不可少,但在某种程度上是“脏的”(dirty)(Kim et al. 2003)。因此,许多生物信息学研究者认为,检查并移除不可用数据——也就是对数据集进行“清洗”(cleaning)——是他们工作中最大的一部分,且往往是最关键的步骤,通常约占其工作量的 80%(Zhang et al. 2003)。实际上,检查、审查和评估只是统计推断整体过程中的基础组成部分;这一过程可能需要修订,甚至重复其中任意一个步骤。
Figure 18.14 统计推断过程概览
FUV stands for the fraction of unexplained variance.
图中术语:
- Population:总体
- Sample:样本
- Experiment:实验
- Observations:观测值
- Data:数据
- Statistic:统计量
- Parameter:参数
- Information and knowledge:信息与知识
- Inspect, review, and evaluate:检查、审查和评估
- 1. Sampled:抽样
- 2. Acquired:获得
- 3. Generates:生成
- 4. Derived:推导
- 5. Infers:推断
- 6. Characterizes:刻画
- 7. Interpreted:解释
Source: Moseley, Hunter (2017): Overview of a statistical inference process. figshare. doi.org/10.6084/m9.figshare.4994213.v1.
Statistical Hypothesis Testing
统计推断最主要的直接目的,是形成命题或判断;统计假设检验(statistical hypothesis testing)是用于对数据形成这些判断的最常见统计方法之一。在大多数生物信息学分析的语境中,可以给出一个实用定义:假设检验是将一个数据集(样本)与另一个数据集(样本)或一个模型进行比较,并基于数据形成判断的过程。然而,从更一般的统计学定义来看,假设检验是基于对某一现象的观测,建立并检验一个可检验假设(testable hypothesis)的过程;该现象通过一组随机变量建模。
从技术上讲,建立可检验假设可以被视为一个独立于统计假设检验的步骤;但很多时候,精确可检验假设的建立与实际检验该假设是相伴发生的,因为一个给定假设必须能够适配某种可用的检验方法。
统计假设检验的标准实施通常包括三个主要步骤。
第一步,是建立一个假设,其形式为:两个样本之间存在某种统计关系。这个假设称为备择假设(alternative hypothesis, Ha),通常直接基于从生物学和/或分析学角度提出的实验假设。然而,直接检验备择假设 Ha 往往非常困难。
第二步,是建立一个逻辑上相反的假设,即零假设(null hypothesis, H0)。零假设通常更容易被直接检验;在此情形下,它表示两个样本之间不存在统计关系。
第三步,是通过比较从每个样本推导出的某个统计量的取值,直接检验零假设 H0,也就是检验“统计关系不存在”这一命题。这种方法的基础在于:直接证伪一个假设或陈述,要比直接证明一个假设或陈述为真容易得多。因此,如果能够证伪一个与目标备择假设 Ha 逻辑相反的零假设 H0,就可以间接支持目标备择假设 Ha 为真。
不过,为了理解被直接检验的零假设 H0,必须在描述性统计的语境中清楚定义什么是“统计关系”(statistical relationship),以避免混淆。当来自两个样本、针对某一给定随机变量所推导出的统计量在统计意义上并非“相同”(the same)时,这种情况被解释为:两个样本在该随机变量方面存在统计关系。因此,两个样本推导出的统计量“相同”,表示不存在统计关系。
例如,考虑如下零假设 H0:两个呈正态分布的纯种马样本,其身高均值相同。这表示两个纯种马样本在身高方面不存在关系。若缺乏统计意义上的相同性,即存在统计差异,则表明零假设是错误的,并且两个纯种马样本的身高之间确实存在统计关系。因此,统计显著差异被用来证伪零假设 H0,即“关系不存在”(也就是认为两个样本的该统计量相同)的假设。
需要牢记的核心思想是:统计显著差异用于证伪或拒绝零假设 H0,即两个样本的某个统计量在统计上相同;这样做的目的是确认备择假设 Ha,即两个样本的统计量在统计上不同,因此两个样本之间存在关系。
统计学家和生物学家在感知、描述和定义世界的方式上存在差异,这是两类科学家相互交流时许多科学混淆的来源,常常导致合作低效甚至失败。因此,在建立跨学科合作时,非常重要的一点是保持充分耐心,并着重识别误沟通发生的位置;这些误沟通常常源自术语差异。
现在将上述统计假设检验过程的前两步放入一个生物学实例中考虑。研究人员在培养皿中培养两组细胞培养物;一组接受某种药物处理,另一组不接受处理。经过 24 小时药物暴露后,从每个培养皿的培养基和细胞中取样,并通过一维 1H 核磁共振(nuclear magnetic resonance, NMR)实验测量乳酸的相对含量。实验人员首先希望检验如下实验假设:“病例组与对照组总体之间,培养基中归一化乳酸 NMR 强度观测值不同。”
为了检验该实验假设,建立如下统计备择假设 Ha:来自样本 Sa 和 Sb 的两组观测值集合,其均值 xa 和 xb 不同。备择假设 Ha 提出,Sa 和 Sb 之间存在关系,即二者均值存在差异。
接下来,建立逻辑上相反的零假设 H0:来自样本 Sa 和 Sb 的两组观测值集合,其均值 xa 和 xb 相同。零假设 H0 提出,Sa 和 Sb 之间不存在关系;在统计检验中拒绝零假设 H0 将验证备择假设 Ha,并支持如下解释:这两组细胞培养物代表两个不同总体。
此时,研究小组中的统计学家要求描述每一个“样本”(sample)。实验人员开始描述从每个细胞培养物中取出的“样品”(sample)。双方都没有意识到,“sample”这个词对对方而言意味着不同的东西,于是误解开始产生,交流也随之变得紧张。
Type I and II Errors that Arise from Statistical Hypothesis Testing
在检验零假设 H0 时,需要判断检验结果是阳性还是阴性。拒绝零假设将支持备择假设,被视为检验的阳性结果。未能拒绝零假设则不支持备择假设,被视为检验的阴性结果。然而,根据零假设实际上为真还是为假,检验存在四种逻辑结果。这些结果由 Figure 18.15 中的真值表展示(更多信息见 Box 5.4)。
从真值表左下角开始,拒绝一个实际上为假的零假设称为真阳性(true positive)。在这种情况下,拒绝错误的零假设正确地支持了备择假设。
移动到真值表右上角,未拒绝一个实际上为真的零假设称为真阴性(true negative)。在这种情况下,未能拒绝真实的零假设,正确地没有支持备择假设。
在真值表左上角,错误地拒绝一个实际上为真的零假设称为假阳性(false positive)。在这种情况下,拒绝真实的零假设错误地支持了备择假设。在统计学中,假阳性称为 I 类错误(type I error)。此时,检验结果会使人得出“存在统计关系”的结论,而事实上这种关系并不存在。Figure 18.15 左侧图像展示了一个 I 类错误:妊娠测试显示男性患者怀孕。
最后,在真值表右下角,未能拒绝一个实际上为假的零假设称为假阴性(false negative)。在这种情况下,未能拒绝错误的零假设,错误地没有支持备择假设。在统计学中,假阴性称为 II 类错误(type II error)。此时,检验结果会使人得出“不存在统计关系”的结论,而事实上这种关系存在。Figure 18.15 最右侧图像展示了一个 II 类错误:妊娠测试显示明显怀孕的女性患者未怀孕。
Figure 18.15 带有 I 类错误和 II 类错误说明的真值表
图中术语:
- Truth table:真值表
- Type I error (false positive):I 类错误(假阳性)
- Type II error (false negative):II 类错误(假阴性)
- FP (type I error):FP(I 类错误)
- TN:真阴性
- TP:真阳性
- FN (type II error):FN(II 类错误)
- Reject H0:拒绝 H0
- Failure to reject H0:未能拒绝 H0
- True H0:H0 为真
- False H0:H0 为假
- you’re not pregnant:你没有怀孕
- you’re pregnant:你怀孕了
Statistical Significance
是否拒绝零假设 H0 并不是一个容易作出的决定,尤其是在并不知道零假设是真是假时。统计显著性(statistical significance)的概念有助于这一决策:它将判断框定为“拒绝一个真实零假设,也就是犯 I 类错误,是多么不可能”。犯 I 类错误的可能性越低,拒绝零假设的统计显著性就越强。
Figure 18.16 以概率或 p 值(p value)的形式展示了统计显著性。p 值表示:当 H0 为真时,获得至少与当前零假设 H0 下的结果一样极端的结果的概率。对于给定的 H0,图中绿色的 p 值是基于检验统计量 t,在给定概率密度函数下一个或两个绿色尾部面积之和。具体使用哪个检验统计量,以及累加一个尾部还是两个尾部,取决于所执行的具体检验。
Alpha,也称显著性水平(level of significance),是当 H0 为真时拒绝零假设 H0 的概率。图中的蓝色 alpha 是从蓝色临界值线开始的一个或两个尾部面积之和。临界值(critical value)只是对应于给定 alpha 的检验统计量取值。Alpha 根据与零假设对应的 p 值是否小于 alpha,建立是否接受或拒绝零假设 H0 的决策点。
良好的统计实践要求在进行统计检验之前选择 alpha,以避免确认偏差(confirmation bias),或避免选择有助于确认实验预期结果的判定标准。在生物学和生物医学研究中,常用的 alpha 包括 0.001、0.01;当样本量较小时,甚至会选择 0.05。
Figure 18.16 概率密度分布、p 值和 alpha 之间关系的示意图
图中术语与公式:
- alpha – sum of the two tails starting at the blue critical value lines:alpha——从蓝色临界值线开始的两个尾部面积之和
- P value – sum of the two tails:p 值——两个尾部面积之和
- H0 is rejected when:当满足以下条件时拒绝 H0
- P value ≤ alpha:p 值 ≤ alpha
- ts prob density:ts 的概率密度
公式:
P(abs(ts) ≥ c) = ∫c∞ pdf(ts) dt + ∫−∞−c pdf(ts) dt
Source: Moseley, Hunter (2017): Relationships between pdf, p value, and alpha. figshare. doi.org/10.6084/m9.figshare.4994216.v1.
Testing the Null Hypothesis with a Two-Sample t-Test
一旦建立了零假设,就应尝试对其进行检验。这要求找到合适的统计检验或方法。对于涉及比较两个近似正态分布样本均值的零假设,双样本 Student’s t-test 是一种理想方法。
Figure 18.17 第 1 步所示的 t 统计量,是两个样本均值之差,除以均值差异估计方差的平方根;换言之,是除以每个均值标准误最佳估计值平方和的平方根。也就是说,均值之间的分离程度,是相对于用于计算这些均值的底层数据的不确定性(方差)来评估的。
这里并不是使用每个均值的标准误作为不确定性的估计,而是从两个样本方差 𝜎a² 和 𝜎b² 的加权平均中推导出一个新的方差估计 𝜎d²;这一做法假定这两个方差是同一总体方差的两个估计。t 统计量遵循一种称为 Student’s t-distribution 的概率密度分布。实际上,如 Figure 18.17 第 2 步所示,存在许多 t 分布,它们通过参数 v 相互关联;v 是 t-test 中的自由度(degrees of freedom)数量。在本例中,自由度等于两个样本量 na 和 nb 之和减 2。
一般而言,自由度指影响系统可能状态范围及每种状态概率的变量数量。在统计学语境中,自由度指在计算某一给定统计量时“可以自由变化”的数值数量,这些数值会影响结果的范围和概率。在计算双样本 t 统计量的语境中,自由度指两个样本中独立抽样得到的观测值集合总数,减去正在被直接检验的两个均值;因为这两个均值是由同一组数值集合推导出来的。因此,自由度决定了与所计算的特定 t 统计量相关的具体 Student’s t-distribution。
William Sealy Gosset 于 1908 年以笔名 Student 发表了对 Student’s t-distributions 及其统计用途的描述。之所以使用笔名,是因为其雇主对发表论文有公司限制;这也是 Student’s t-distribution 和 Student’s t-test 得名的原因(Student 1908)。
Figure 18.17 展示了使用双样本 t-test 检验零假设的过程。该过程从在检验前选择显著性水平 alpha 开始。随后,在第 1 步中计算 t 统计量及相关统计量。第 2 步,根据自由度 v 选择合适的 Student’s t-distribution。第 3 步,根据 t 统计量和相应 Student’s t-distribution 的概率密度函数计算 p 值。最后,在第 4 步中,根据 p 值是否小于或等于 alpha,决定是否拒绝零假设 H0。
通常,所有这些步骤都由统计 t-test 函数完成;许多电子表格程序以及几乎所有通用数据分析软件包中都能找到这种函数。使用者只需以合适格式提供两组数值样本即可;此时默认预期是:两个样本具有相同方差,并且来自近似正态分布的一个或多个总体。
Figure 18.17 使用 Student’s t-test 检验零假设
图中步骤与公式:
- Select an alpha (level of significance) for testing
选择用于检验的 alpha(显著性水平)
- Calculate the t-statistic
计算 t 统计量
t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))
其中:
σd² = [(na − 1)σa² + (nb − 1)σb²] / (na + nb − 2)
na = |Sa|
nb = |Sb|
v = na + nb − 2
- Select the appropriate Student’s t-distribution
选择合适的 Student’s t-distribution
- Calculate p value and compare to alpha
计算 p 值并与 alpha 比较
- Reject H0 if P-value ≤ alpha
若 p 值 ≤ alpha,则拒绝 H0
图中术语:
- t probability density:t 概率密度
- The sum of two tail areas is the p value:两个尾部面积之和即为 p 值
公式:
P(abs(t) ≥ c) = ∫c∞ pdf(t) dt + ∫−∞−c pdf(t) dt
Source: Moseley, Hunter (2017): Overview of using a t-test to test a null hypothesis. figshare. doi.org/10.6084/m9.figshare.4994219.v1.
为了更好地理解双样本 t-test 实际上在做什么,需要理解总体分布与可能样本均值分布之间的关系;后者由对总体进行多次随机抽样而形成。Figure 18.18 展示了这种关系:较大的浅蓝色和红色分布表示总体分布,而较深、且小得多的分布表示样本均值分布。
由于中心极限定理(central limit theorem),当随机抽样的样本量足够大时,无论总体分布本身是什么形状,较小的样本均值分布都会近似于正态分布。这是因为每一个样本值都代表一个独立随机变量,而这些变量会被求和以计算均值统计量;根据中心极限定理,所得变量,也就是这里的均值,应当近似服从正态分布。
也就是说,给定样本的均值和标准误能在多大程度上合理估计样本均值分布的均值和标准差,取决于原始总体分布在多大程度上近似正态分布。因此,在双样本 t-test 的语境中,原始总体分布确实重要,因为样本均值分布的均值和标准差估计值只来自两个样本。
现在,可以使用 t 统计量中对两个样本均值的比较,来比较两个均值分布中成对的均值。由此得到的 t 统计量概率密度分布就是相应的 Student’s t-distribution。随后,该 t 分布可用于单尾或双尾比较,以计算 p 值,并决定是否拒绝零假设 H0。
单尾比较与双尾比较的区别在于:检验的是单一方向的偏离,还是任一方向的偏离。例如,如果要检验药物是否在病例–对照实验的观测值中产生正向反应,可以使用单尾 t-test。然而,如果要检验两个样本均值之间任一方向上的显著偏离,则使用双尾检验。关于如何正确选择统计假设检验的其他考虑,将在本章后面的“Common Statistical Tests Used in a Typical Statistical Inference Process”部分讨论。
Figure 18.18 总体分布与样本均值分布之间的关系
图中术语:
- Population A distribution:总体 A 分布
- Sample mean A distribution:样本均值 A 分布
- Population B distribution:总体 B 分布
- Sample mean B distribution:样本均值 B 分布
- Compare mean distributions:比较均值分布
- Student’s t-distribution:Student’s t-distribution
- One-tailed comparison:单尾比较
- Two-tailed comparison:双尾比较
- Calculate p value:计算 p 值
- alpha:alpha
- ± σp:± 总体标准差
- ± SE = σs/√n:± 标准误 = σs/√n
公式:
t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))
P(t ≥ c) = ∫c∞ pdf(t) dt
P(abs(t) ≥ c) = ∫c∞ pdf(t) dt + ∫−∞−c pdf(t) dt
Source: Moseley, Hunter (2017): Relationships between population and sample mean distributions. figshare. doi.org/10.6084/m9.figshare.4994222.v1.
Statistical Power
如前所述,统计显著性关注的是 alpha,即 I 类错误(假阳性)的概率。那么 II 类错误(假阴性)的概率又如何表示?统计术语 beta 表示 II 类错误的概率;1 − beta 则表示统计功效(statistical power)的概念,即正确拒绝零假设 H0 的概率。
具有较强统计功效的实验,有较高概率拒绝那些实际上为假的零假设。这也解释了为什么大多数生物医学和临床研究基金申请的评审,都会包括对拟议实验统计功效的评估:目的是评估拟议研究成功的可能性。对统计功效的评估需要估计统计功效,而这种估计来自基于已知或估计统计量的统计功效分析(power analysis)。
功效分析在某一特定统计检验的语境中关联四个相互依赖的因素:alpha、beta(或 1 − beta)、样本量(sample size)和效应量(effect size)。效应量是对某一现象强度的定量度量。给定这四个因素中的任意三个,第四个因素即可通过功效分析推导出来。在许多情况下,某些因素,尤其是效应量,并不知道,只能估计;这意味着推导出的第四个因素也只是一个估计值。
Figure 18.19 在 Student’s t-test 的语境中,用一个近似图展示了功效分析中这四个因素之间的关系;该图在小样本量情况下会存在偏差。如图所示,效应量是样本均值分布的均值之差,通常根据等价实验中的两个样本均值之差估计,或根据类似实验或预实验“合理近似”得到。
效应量根据均值差异的方差进行评估;而均值差异的方差又来自两个样本均值分布的方差。样本均值分布的方差通过标准误的平方进行估计,而标准误依赖于样本量。Alpha 和 beta 围绕一个特定的 t 统计量临界值相互关联;该临界值依赖于均值差异的方差,而这一方差最终依赖于样本量。因此,当其中一个因素发生变化时,其他因素也会随之变化。
通常,功效分析用于估计样本量或统计功效。在估计所需最小样本量时,需要给定期望的统计功效,例如 0.9(90% 功效)、给定的 alpha,例如 0.01,以及对效应量的合理估计。同样,在估计某一拟议实验的统计功效时,需要给定预期样本量、某个 alpha,例如 0.01,以及对效应量的合理估计。
Figure 18.19 Student’s t-test 的近似功效分析图
图中术语:
- effect size:效应量
- beta:beta
- Power:功效
- alpha:alpha
- critical value:临界值
- Retain H0:保留 H0
- Reject H0:拒绝 H0
- SEa:样本 A 的标准误
- SEb:样本 B 的标准误
公式:
t = (x̄a − x̄b) / sqrt((σd² / na) + (σd² / nb))
SEa = σa / √na
SEb = σb / √nb
Source: Moseley, Hunter (2017): Approximate power analysis diagram for a Student’s t-test. figshare. doi.org/10.6084/m9.figshare.4994228.v1.
Correcting for False Discovery due to Multiple Testing
生物信息学中一个常见且日益突出的挑战,是处理包含大量不同观测随机变量的实验;这些观测值常常由高通量分析仪器生成,例如 next generation sequencers。所得数据集虽然存在各种与数据存储和管理有关的后勤问题,但也对统计检验和分析提出了独特挑战。可能影响最大的问题是:如果检验大量随机变量,而不采取措施降低错误发现(false discovery),就会产生错误发现。
例如,考虑一个 RNA-seq 实验。该实验使用人类癌细胞培养样本,其中一部分接受抗癌药物处理,另一部分未接受处理;研究人员测量了细胞培养物统计样本中 7500 个独特转录本的丰度。熟悉这类数据集的数据分析人员会明智地先探索数据,验证其行为是否符合预期,然后再进入解释阶段。他们通过绘制代表性随机变量的分布图,验证这些变量看起来是否近似于对数正态分布。随后,他们对原始基因表达观测值进行对数转换,并再次绘图,以观察转换后的分布是否近似正态。
接下来,数据分析人员选择 alpha = 0.01,并使用病例样本和对照样本,对每一个基因表达随机变量执行双样本 t-test。检验结果显示,150 个转录本通过检验,但这里存在一个问题。基于 alpha = 0.01 且共执行 7500 个独立检验,可以预期其中 75 个结果,即 0.01 × 7500 个结果,是假阳性(I 类错误)。然而,只有 150 个转录本通过检验。因此,约 75/150,即 50% 的结果是假阳性,这意味着错误发现率为 50%。会有人信任一个估计有 50% 错误的结果集吗?这个例子展示了对包含大量随机变量的数据集进行多重检验时的根本问题。
多重检验问题的解决方法,是对所执行的一组检验产生的 p 值进行校正。这个统计过程称为多重检验校正(multiple testing correction),其目的是限制错误发现率(false discovery rate, FDR;见 Box 5.4)。FDR 根据假阳性(FP)和真阳性(TP)由下式计算:
FDR = FP / (TP + FP)
在该过程中,会基于一个 p 值或一组 p 值计算 q 值(q value),即经过 FDR 调整的 p 值(见 Chapter 10)。最简单的多重检验校正方法是 Bonferroni correction;该方法将给定 p 值乘以执行检验的数量,从而生成调整后的 p 值。对于少量检验,Bonferroni correction 快速且合理,能够最小化 I 类错误。然而,Bonferroni correction 是一种非常严格的校正,往往在预防 I 类错误和降低 FDR 方面过度补偿,同时会严重提高 II 类错误的概率(McIntyre et al. 2000)。
这是因为 Bonferroni correction 实际上控制的是所谓 family-wise error rate(FWER),即在给定 alpha 下,在一组检验中至少犯一次 I 类错误的概率。因此,Bonferroni 调整后的 p 值从技术上讲并不是 q 值。对于许多涉及高维数据集的统计分析而言,Bonferroni correction 并不是一种可行的多重校正方法;原因在于,当检验数量达到数百个或更多时,对 FWER 的校正会造成 II 类错误大幅增加,并可能抹去所得 q 值中的所有统计显著性。
还有其他更复杂的多重检验校正方法,能够在限制 I 类错误和 II 类错误之间提供更好的平衡,同时达到给定 FDR;不过这些方法并不那么容易使用。最常用的多重校正方法之一是 Benjamini–Hochberg correction。该方法基于目标 FDR,以及由一组相关统计检验生成的有序 p 值集合,对每个 p 值进行调整,从而计算 q 值(Hochberg and Benjamini 1990)。
The Global Problem with the Use of p Values
即使进行了多重检验校正,并且研究者足够谨慎、细致且认真,p 值的使用仍然存在一个全局性问题。
首先,即使在一般科学共同体中,p 值也常常被误解和误用。p 值经常被混同于效应量。某一现象可测量的强度或大小,并不等同于通过统计检验检测到该现象时的统计显著性。在许多情况下,一旦某一特定现象的存在已经建立,由该现象造成的效应量,在评估该现象潜在应用价值时往往更为重要。
例如,在大型 genome-wide association studies(GWAS)中,许多与疾病相关且具有统计显著性的核苷酸变异,其 p 值低于 10−8;然而,这些核苷酸变异中的大多数,其疾病风险 odds ratio 低于 1.5(Ku et al. 2010)。在这一语境中,odds ratio 是一种效应量,代表疾病风险相对较小的增加,即使检测到的疾病关联极有可能存在,也就是具有统计显著性。
同样,其他统计量也常被与 p 值混淆。例如,BLAST 搜索中的 E values 表示:对于给定序列数据库,在随机机会下预期出现相同相似性水平搜索命中的数量(见 Chapter 3)。E values 经常被误认为 p values。虽然 p 值的计算是一致的,但 E values 依赖于其计算所使用的数据库,因此限制了其解释范围。
其次,对 p 值显著性的误解使科学文献中充斥着显著的错误发现。许多已发表科学研究使用较弱的 alpha,例如 0.05,来定义“显著”p 值。考虑到世界各地每个科学实验室都在进行大量检验,基于 alpha = 0.05 选择显著性,会在整个科学文献中产生大量已发表的错误发现。当许多人试图复现他们在已发表科学文献中看到的同一个错误发现时,这种已发表的错误发现还可能被进一步强化。
解决这一全球性 p 值问题并不容易。甚至有一个期刊采取了禁止在其发表文章中使用 p 值的政策(Woolston 2015)。此外,某些科学共同体也共同制定了尽量减少错误发现的指南。例如,物理学共同体通常会等到达到 five sigmas of significance 后,才接受重大结果。这相当于双尾 p 值为 6 × 10−7。对于人类 GWAS,p 值小于 5 × 10−8 是接受结果的标准;这一标准基于对 alpha = 0.05 的 Bonferroni correction,并假定人类基因组中存在 100 万个可检验的独立变异(Risch and Merikangas 1996)。
数据科学领域试图更好地理解这一现象,并对其进行建模,以创建一种更稳健的显著性度量,同时又不限制发现。一个良好的起点,是报告 q 值或其他调整后的 p 值,以防止已发表结果中的错误发现;这对于涉及高通量分析技术和其他生成高维数据实验的发表结果尤其重要。
Common Statistical Tests Used in a Typical Statistical Inference Process
有若干广泛使用的统计检验适用于范围很广的实验结果。大多数统计检验可分为两类:参数检验(parametric tests)和非参数检验(non-parametric tests)。
参数检验假定样本数据来自一个总体,而该总体服从由固定参数集合定义的某种概率分布。最常见的参数检验假定总体服从或近似正态分布。非参数检验不对总体或样本的概率分布作出假设。许多非参数检验,例如 Wilcoxon–Mann–Whitney test(Wilcoxon 1945; Mann and Whitney 1947),通过比较样本的秩序(rank order)进行检验,而不对总体或样本的底层分布作出假设。
Table 18.1 列出了常见参数检验、其对应的非参数等价检验,以及它们在单个连续随机变量上的具体统计使用情境。必须谨慎选择适用于给定统计推断的统计检验。为了帮助选择,可以提出以下四个情境性问题:
- 总体或样本是否近似服从正态分布?
- 有多少个样本,即观测值或数值集合,正在被直接比较?
- 样本方差或样本量是否显著不相等?
- 样本之间的观测值或数值是否以某种方式重复或相互关联?
这四个问题的答案将有助于确定特定统计情境,以及适用于单个连续随机变量的统计检验。
对于第一个问题,如果相关总体或样本看起来服从正态分布,则参数检验更合适,并能提供更强的统计功效和性能。然而,如果总体或样本明显偏离正态分布,则假设更少的非参数检验最为合适,并能提供更好的显著性估计。当样本包含 30 个以上数值时,用直方图绘制每个样本,是回答这一问题的一种良好且相对快速的方法。此外,如果分布看起来呈对数正态分布,那么对数值进行简单的对数转换可能允许使用参数检验,并且可以通过绘制转换后的样本数据来验证正态性假设。
对于第二个问题,正在检验的是一个样本、两个样本,还是两个以上样本,将决定统计检验的具体类型。对于正态分布数据,当样本为一个或两个时,使用 t-test 及其变体。当样本超过两个时,使用 analysis of variance(ANOVA)及其变体,检验是否至少有一个样本与其他样本显著不同。同样,对于明显非正态分布的数据,Wilcoxon–Mann–Whitney test 及其变体用于检验一个或两个样本。Kruskal–Wallis test(Kruskal and Wallis 1952)适用于检验两个以上样本,并且其中一个样本明显偏离正态性的情形。
Table 18.1 常见参数统计检验及其非参数等价检验
| Statistical situation | Parametric | Non-parametric |
|---|
| 1 sample | 1-sample t-test | 1-sample Wilcoxon rank sum |
| 2 samples | 2-sample t-test | Wilcoxon–Mann–Whitney test |
| 2 samples, unequal 𝝈², n | Welch unequal 𝝈² t-test | Wilcoxon–Mann–Whitney test |
| Matched pair of samples | Paired t-test | Wilcoxon signed rank test |
| >2 samples | One-way ANOVA | Kruskal–Wallis test |
| >2 samples, unequal 𝝈², n | Welch ANOVA | Kruskal–Wallis test |
| Matched, >2 samples | Repeated measures ANOVA | Friedman test |
表下注:红色标出的两个参数检验适用于 repeated measures 和 matched experimental designs,并提供最强的统计功效。
对于第三个问题,当两个样本均服从正态分布,但其方差或样本量相差超过两倍时,Welch unequal variance t-test(Welch 1947)非常合适(Delacre et al. 2017)。这种双样本 Student’s t-test 的改良版本可以补偿由方差和样本量不成比例所造成的问题,并提供稳健的统计性能。当比较两个以上正态分布样本时,Welch ANOVA 是 ANOVA test 的 Welch 等价方法。
第四个问题用于识别样本之间的特定观测值是否以统计上有意义的方式相互关联。最强类型的关联来自 repeated measures experimental designs。在这种设计中,同一生物学单位或受试对象被用于测量每个样本的观测值,包括对照样本。所得数据集在样本之间具有相互关联的观测值,因此可以使用最有力的统计检验;这些检验直接检验关联观测值之间差异的汇总统计量,而不是检验样本之间汇总统计量的差异。从生物学角度看,由于只比较来自同一生物学单位的测量值,生物学单位之间的方差被忽略。
例如,比较小鼠在治疗前后的体能表现时,只允许检验来自同一只小鼠的测量样本之间的差异,从而减少在不同小鼠之间进行比较时固有的生物学方差的引入。
当两个样本具有相互关联的观测值时,如果样本服从正态分布,paired t-test 最为合适;如果至少一个样本明显偏离正态分布,则 Wilcoxon signed rank test 最为合适。当三个或更多样本具有相互关联的观测值时,如果样本服从正态分布,repeated measures ANOVA 最为合适;如果至少一个样本明显偏离正态分布,则 Friedman test 最为合适。
除 repeated measurements 外,样本之间观测值较弱形式的关联,有时来自 matched experimental designs;然而,这类实验设计存在必须处理的统计问题,并且曾被批评为具有偏倚。相关的 randomized block experimental design 通常被认为更稳健,但要求根据特定潜在混杂因素对生物学单位进行分组(blocking)并在组块之间随机测量,例如年龄、性别、遗传因素,甚至吸烟状态等环境因素。
这些实验设计会生成复杂的样本集合,需要更复杂的统计检验,例如 multiple factor(multi-way)ANOVA。在这些情况下,通常需要统计学家的建议,既用于建立良好的实验设计和相关实验流程,也用于选择合适的统计检验。应当在尝试实验之前寻求这种建议;否则,可能会浪费大量时间、精力和资源,生成不足以回答所提问题的数据集。
同样,当需要对离散随机变量或有序随机变量进行统计检验时,也应咨询统计学家,因为对于给定情境中哪些统计检验合适,并不存在普遍共识,而且当前已发表建议的解释需要专家知识(Fagerland et al. 2011)。
此外,同时检验多个随机变量需要多变量统计分析方法。chi-squared test 是其中一种方法,但它假定随机变量集合彼此独立且服从正态分布。若要同时分析大量随机变量,则需要 PCA、discriminant analysis 以及更新的 machine learning methods 等专门方法。由于每种技术对数据有不同的假设,适当使用和解释这些方法需要专家知识。再次强调,在盲目使用这些方法之前,应寻求统计学和计算专家的建议。当实验问题出现时,还应再次寻求进一步建议。
将合适统计检验或方法的选择置于整体语境中,以下步骤描述了一个使用统计假设检验的典型统计推断过程:
- 用可检验、可拒绝的假设形式说明正在检验什么。
- 推导适当的描述性统计量,并构建样本数据的描述性可视化表示。
- 评估数据及其相关元数据的质量。