網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

臨床研究中的多重比較：以JAMA文獻(xiàn)為例講講Hochberg法

2026-03-11 19:17:29　來源: 醫(yī)咖會(huì)

北京舉報(bào)

分享至

本文整理自2026年3月5日發(fā)表在《JAMA》上的一篇文章，原文標(biāo)題為“The Hochberg Procedure for the Comparison of Multiple End Points”。

在臨床研究中，通常需要對(duì)治療組與對(duì)照組的 多個(gè)結(jié)局或終點(diǎn)進(jìn)行比較。相比單一終點(diǎn)，對(duì)多個(gè)終點(diǎn)分析能更全面地評(píng)估療效，但也伴隨著風(fēng)險(xiǎn)。

如果一種療法實(shí)際并沒有臨床益處，那么每增加一個(gè)終點(diǎn)的比較，就多了一次因?yàn)殡S機(jī)誤差而產(chǎn)生“獲益假象”的可能，這在統(tǒng)計(jì)學(xué)上被稱為I類錯(cuò)誤（Type I error）[1]。

隨著終點(diǎn)數(shù)量的增加，出現(xiàn)至少一個(gè)“假陽性”的累計(jì)概率就會(huì)變得過高。為了避免這種情況，當(dāng)研究涉及多個(gè)終點(diǎn)時(shí)，通常需要采用更嚴(yán)格的統(tǒng)計(jì)標(biāo)準(zhǔn)，以控制得出假陽性結(jié)論的風(fēng)險(xiǎn)[1,2]。

2025年Anker等在JAMA期刊發(fā)表了FAIR-HF2試驗(yàn)的結(jié)果[3]，該研究旨在觀察靜脈補(bǔ)鐵對(duì)伴有鐵缺乏的收縮性心衰患者發(fā)病率和死亡率的影響。在該試驗(yàn)中，研究者設(shè)置了3個(gè)主要終點(diǎn)（與心血管死亡和心衰住院相關(guān)）。為了確保這3個(gè)終點(diǎn)的評(píng)估不會(huì)產(chǎn)生過多的假陽性風(fēng)險(xiǎn)，作者采用了Hochberg法進(jìn)行校正[2-4]。

為什么要使用Hochberg法？

在證明療效更優(yōu)的臨床試驗(yàn)中，如果只檢測(cè)單一終點(diǎn)，通常會(huì)計(jì)算一個(gè)P值。如果 P值低于預(yù)設(shè)的閾值（通常單側(cè)檢驗(yàn)為0.025，雙側(cè)檢驗(yàn)為0.05），研究則宣稱治療有效。在實(shí)際治療無效的情況下，這套流程可將誤判有效的風(fēng)險(xiǎn)（假陽性）控制在2.5%以內(nèi)（假設(shè)單側(cè)檢驗(yàn)）。

然而，當(dāng)檢測(cè)多個(gè)終點(diǎn)時(shí)，如果對(duì)每個(gè)終點(diǎn)都沿用上述標(biāo)準(zhǔn)，那么每次 2.5% 的誤判風(fēng)險(xiǎn)就會(huì)不斷累積。

舉個(gè)例子：如果某種療法實(shí)際上完全無效，而研究同時(shí)檢測(cè)8個(gè)互不相關(guān)的終點(diǎn)，那么在8個(gè)結(jié)論中至少出現(xiàn)1個(gè)“假陽性”結(jié)論的概率將飆升至約18%。

為了降低這種風(fēng)險(xiǎn)，我們需要使用“多重性校正（Multiplicity corrections）”。這些方法通過為每一次比較設(shè)置更嚴(yán)苛的門檻，確保即使進(jìn)行了多次對(duì)比，在所有終點(diǎn)中出現(xiàn)一個(gè)假陽性結(jié)論的總概率，依然維持在預(yù)設(shè)的限制之內(nèi)（例如2.5%）。

在探討多個(gè)終點(diǎn)時(shí)，這種“至少在一個(gè)終點(diǎn)上犯錯(cuò)”的概率被稱為族系錯(cuò)誤率（Family-wise error rate, FWER）。這里的“族系（Family）”指的是一組終點(diǎn)對(duì)比或假設(shè)檢驗(yàn)[5]。

最廣為人知的多重性校正方法是Bonferroni校正，其做法非常簡單粗暴：將顯著性閾值（如0.025）直接除以檢測(cè)的終點(diǎn)數(shù)量K，即新的閾值= 0.025/K[1,2,6]。

雖然Bonferroni校正能嚴(yán)格控制族系錯(cuò)誤率，但也被認(rèn)為過于保守[6]。如果一種療法確實(shí)具有臨床療效，過于保守的校正方法會(huì)降低統(tǒng)計(jì)效能。也就是說，由于門檻設(shè)得太高，我們可能會(huì)錯(cuò)失發(fā)現(xiàn)獲益的機(jī)會(huì)，導(dǎo)致研究出現(xiàn)“假陰性”。

為了解決這個(gè)問題，研究者開發(fā)了其他的多重性校正方法。這些方法在確保控制總錯(cuò)誤率的前提下，通過對(duì)一部分比較采用稍寬松的準(zhǔn)則，獲得更高的統(tǒng)計(jì)效能，增加檢測(cè)出真實(shí)療效的機(jī)會(huì)，Hochberg法就是這樣一種校正方案[2,4,7]。

Hochberg法具體是如何操作的？

在Hochberg法中，每個(gè)終點(diǎn)首先獨(dú)立進(jìn)行分析，然后將得到的P值按從大到小的順序排列。該方法從最大的P值開始，逐一進(jìn)行：

1、檢查最大的P值

如果最大的P值小于或等于總體的顯著性水平（例如單側(cè)0.025），那么該終點(diǎn)以及后面P值更小的終點(diǎn)，都被視為具有統(tǒng)計(jì)學(xué)顯著性。

2、如果第一步不顯著，評(píng)估第二個(gè)P值

如果最大的P值沒有達(dá)到標(biāo)準(zhǔn)，則轉(zhuǎn)為評(píng)估第二大P值。此時(shí)，對(duì)比的閾值會(huì)變得更嚴(yán)苛，即用原始閾值除以2（例如0.025/2=0.0125）。如果這個(gè)P值小于該閾值，那么該終點(diǎn)以及剩余P值更小的終點(diǎn)都視為顯著。

3、以此類推

如果第二大P值仍不顯著，則將第三大P值和原始閾值除以3（例如0.025/3=0.0083）進(jìn)行比較。這個(gè)過程一直持續(xù)到某個(gè)P值達(dá)到對(duì)應(yīng)的標(biāo)準(zhǔn)，或者所有P值都評(píng)估完畢。

其核心邏輯在于：只要在任何一步得到了顯著的結(jié)果，那么該結(jié)果以及排位更靠后（即P值更小）的終點(diǎn)，全部判定為顯著。

Hochberg法的替代方案與局限性

除了Hochberg法，還可以選擇：

不進(jìn)行任何校正：當(dāng)然這會(huì)導(dǎo)致極高的假陽性風(fēng)險(xiǎn)。
Bonferroni校正：如前所述，該方法過于保守，在療法確實(shí)有效時(shí)容易得出假陰性的結(jié)論。
Holm 校正： 這種方法與 Hochberg 法類似，但它是從最小P值開始比對(duì)。它比Bonferroni法的效能高，但略遜于Hochberg法[7]。

另一種替代方案是逐步守門法（stepwise gatekeeping procedure），即在分析數(shù)據(jù)前預(yù)先設(shè)定檢驗(yàn)順序來控制假陽性風(fēng)險(xiǎn)。例如，按照終點(diǎn)事件的重要性從高到低進(jìn)行檢驗(yàn)，一旦出現(xiàn)第一個(gè)陰性結(jié)果即停止檢驗(yàn)，但不會(huì)調(diào)整單個(gè)檢驗(yàn)的統(tǒng)計(jì)顯著性標(biāo)準(zhǔn)[8]。

包括Hochberg法在內(nèi)的多重性校正，核心在于控制假設(shè)檢驗(yàn)中的假陽性，結(jié)論通常簡化為二元的"是"或"否"。在許多研究情境下，相較于單純關(guān)注統(tǒng)計(jì)學(xué)顯著性，更重要的是估計(jì)治療效應(yīng)值的大小并量化這些估計(jì)值的不確定性。

不同多重性校正方法可能導(dǎo)致不同結(jié)論

對(duì)于同一組數(shù)據(jù)，Hochberg法可能顯示某些終點(diǎn)存在獲益，而另一種方法可能顯示另一組終點(diǎn)具有益處。

預(yù)先指定一種校正方法（如Hochberg法）有助于控制誤差風(fēng)險(xiǎn)，然而，更嚴(yán)格的標(biāo)準(zhǔn)也增加了不能識(shí)別出療法所有實(shí)際獲益的風(fēng)險(xiǎn)。如果有一個(gè)終點(diǎn)明顯最重要，那么將其作為唯一的主要終點(diǎn)進(jìn)行比較而不進(jìn)行任何校正，將其余終點(diǎn)指定為次要終點(diǎn)，將增加該終點(diǎn)取得陽性結(jié)果的機(jī)會(huì)。在設(shè)計(jì)臨床試驗(yàn)時(shí)，研究者應(yīng)選擇與自身研究目標(biāo)最契合的終點(diǎn)指標(biāo)和檢驗(yàn)方法。

需要注意的是，應(yīng)將Hochberg法與名稱相似的Benjamini-Hochberg法區(qū)分開來[9]。這兩種方法在不同場(chǎng)景下使用：Hochberg法通常用于臨床研究，以控制族系錯(cuò)誤率；Benjamini-Hochberg法用于控制另一種指標(biāo)——錯(cuò)誤發(fā)現(xiàn)率（False Discovery Rate, FDR），即所有被拒絕的假設(shè)中假陽性的期望比例。錯(cuò)誤發(fā)現(xiàn)率是一種相對(duì)寬松的誤差度量標(biāo)準(zhǔn)，常用于基因組學(xué)、神經(jīng)影像學(xué)等高維度或大規(guī)模的多重檢驗(yàn)場(chǎng)景。

案例分析：Hochberg法在FAIR-HF2試驗(yàn)中的應(yīng)用

FAIR-HF2試驗(yàn)采用了Hochberg法比較治療組與對(duì)照組的3個(gè)主要終點(diǎn)[3]：

（1）心血管死亡或首次因心衰住院的時(shí)間；

（2）因心衰住院的總次數(shù)；

（3）在轉(zhuǎn)鐵蛋白飽和度低于20%的亞組患者中，心血管死亡或首次因心衰住院的時(shí)間。

將分析得到的雙側(cè)P值按從大到小排序如下：

P = 0.12 （心衰住院總次數(shù)）
P = 0.07 （轉(zhuǎn)鐵蛋白飽和度低的亞組的終點(diǎn)）
P = 0.04 （總體人群的心血管死亡或首次住院時(shí)間）

Hochberg法的判定過程如下：

首先將最大的P值 (0.12) 與預(yù)設(shè)的顯著性水平0.05進(jìn)行比較。由于0.12 > 0.05，未達(dá)到顯著性。

接著，將下一個(gè)P值 (0.07) 與調(diào)整后的閾值0.025（即0.05/2）進(jìn)行比較，依然未達(dá)到顯著性。

最后，將最小的P值 (0.04) 與0.0167（即0.05/3）進(jìn)行比較，結(jié)果仍未達(dá)標(biāo)。

由于這三個(gè)觀測(cè)到的P值都沒有低于各自對(duì)應(yīng)的判定閾值，因此在統(tǒng)計(jì)學(xué)上，沒有任何一個(gè)終點(diǎn)被認(rèn)為具有統(tǒng)計(jì)學(xué)顯著性。

如何解讀該結(jié)果？

在FAIR-HF2試驗(yàn)中，3個(gè)主要終點(diǎn)在數(shù)值上顯示出獲益的趨勢(shì)，但根據(jù)Hochberg 法的校正標(biāo)準(zhǔn)，均未達(dá)到統(tǒng)計(jì)學(xué)顯著性。基于此，不能得出具有統(tǒng)計(jì)學(xué)意義的陽性結(jié)論。但這絕不等同于證明了該療法無效[10]。

在當(dāng)前的多重檢驗(yàn)框架下雖不顯著，但這并不能排除該療法在該人群中的真實(shí)獲益。這一點(diǎn)對(duì)于“心血管死亡或首次因心衰住院的時(shí)間”這一終點(diǎn)尤其重要，其原始P值為 0.04。如果研究在設(shè)計(jì)時(shí)將這個(gè)終點(diǎn)作為唯一的主要終點(diǎn)，結(jié)果本可達(dá)到統(tǒng)計(jì)學(xué)顯著性，但代價(jià)是我們將無法對(duì)另外兩個(gè)終點(diǎn)做出獨(dú)立的統(tǒng)計(jì)推斷。

這正是多重性校正方法的典型特征：核心目標(biāo)是在得出陽性結(jié)論時(shí)確保結(jié)論的有效性（即嚴(yán)格控制假陽性風(fēng)險(xiǎn)），但代價(jià)是當(dāng)結(jié)果接近顯著性邊界時(shí)，對(duì)陰性結(jié)論的解讀將變得困難。

附錄：原文獻(xiàn)的統(tǒng)計(jì)方法描述

JAMA這篇文獻(xiàn)，在統(tǒng)計(jì)方法中介紹Hochberg法時(shí)表述如下，供大家參考：

The 3 primary end points were considered statistically significant if the corresponding 2-sidedP values fulfilled at least 1 of the following conditions: (1) P≤.05 for all 3 of the end point comparisons, (2) P≤.025 for 2 of the end point comparisons, or (3) P≤.0167 for any of the 3 end point comparisons (Hochberg procedure). The Hochberg procedure controls for the family-wise type I error rate and should not be confused with the Benjamini-Hochberg procedure, which controls for the false discovery rate and is a weaker criterion than the type I error rate. Further explanation of the Hochberg procedure and examples of its application in heart failure trials are provided elsewhere. The family-wise type I error rate across the 4 secondary end points, which is formally tested only if all primary hypotheses are rejected, was also controlled for using the Hochberg procedure.

參考文獻(xiàn)：

1. Biometrics. 1987;43(3):487-498.

2. JAMA. 2014;312(5):543-544.

3. JAMA. 2025;333(22):1965-1976.

4. Biometrika. 1988;75(4):800-802.

5. Stat Med. 2020;39(9):1407-1413.

6. BMJ. 1995;310(6973):170.

7. Stat Med. 1997;16(22):2529-2542.

8. JAMA. 2017;318(14):1385-1386.

9. J R Stat Soc B. 1995;57(1):289-300.

10. JAMA. 2023;329(23):2023-2025.

文章整理自：JAMA. 2026 Mar 5. doi: 10.1001/jama.2026.0191.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.