![]()
本文整理自2026年3月5日發(fā)表在《JAMA》上的一篇文章,原文標(biāo)題為“The Hochberg Procedure for the Comparison of Multiple End Points”。
在臨床研究中,通常需要對(duì)治療組與對(duì)照組的 多個(gè)結(jié)局或終點(diǎn)進(jìn)行比較。相比單一終點(diǎn),對(duì)多個(gè)終點(diǎn)分析能更全面地評(píng)估療效,但也伴隨著風(fēng)險(xiǎn)。
如果一種療法實(shí)際并沒有臨床益處,那么每增加一個(gè)終點(diǎn)的比較,就多了一次因?yàn)殡S機(jī)誤差而產(chǎn)生“獲益假象”的可能,這在統(tǒng)計(jì)學(xué)上被稱為I類錯(cuò)誤(Type I error)[1]。
隨著終點(diǎn)數(shù)量的增加,出現(xiàn)至少一個(gè)“假陽性”的累計(jì)概率就會(huì)變得過高。為了避免這種情況,當(dāng)研究涉及多個(gè)終點(diǎn)時(shí),通常需要采用更嚴(yán)格的統(tǒng)計(jì)標(biāo)準(zhǔn),以控制得出假陽性結(jié)論的風(fēng)險(xiǎn)[1,2]。
2025年Anker等在JAMA期刊發(fā)表了FAIR-HF2試驗(yàn)的結(jié)果[3],該研究旨在觀察靜脈補(bǔ)鐵對(duì)伴有鐵缺乏的收縮性心衰患者發(fā)病率和死亡率的影響。在該試驗(yàn)中,研究者設(shè)置了3個(gè)主要終點(diǎn)(與心血管死亡和心衰住院相關(guān))。為了確保這3個(gè)終點(diǎn)的評(píng)估不會(huì)產(chǎn)生過多的假陽性風(fēng)險(xiǎn),作者采用了Hochberg法進(jìn)行校正[2-4]。
為什么要使用Hochberg法?
在證明療效更優(yōu)的臨床試驗(yàn)中,如果只檢測(cè)單一終點(diǎn),通常會(huì)計(jì)算一個(gè)P值。如果 P值低于預(yù)設(shè)的閾值(通常單側(cè)檢驗(yàn)為0.025,雙側(cè)檢驗(yàn)為0.05),研究則宣稱治療有效。在實(shí)際治療無效的情況下,這套流程可將誤判有效的風(fēng)險(xiǎn)(假陽性)控制在2.5%以內(nèi)(假設(shè)單側(cè)檢驗(yàn))。
然而,當(dāng)檢測(cè)多個(gè)終點(diǎn)時(shí),如果對(duì)每個(gè)終點(diǎn)都沿用上述標(biāo)準(zhǔn),那么每次 2.5% 的誤判風(fēng)險(xiǎn)就會(huì)不斷累積。
舉個(gè)例子:如果某種療法實(shí)際上完全無效,而研究同時(shí)檢測(cè)8個(gè)互不相關(guān)的終點(diǎn),那么在8個(gè)結(jié)論中至少出現(xiàn)1個(gè)“假陽性”結(jié)論的概率將飆升至約18%。
為了降低這種風(fēng)險(xiǎn),我們需要使用“多重性校正(Multiplicity corrections)”。這些方法通過為每一次比較設(shè)置更嚴(yán)苛的門檻,確保即使進(jìn)行了多次對(duì)比,在所有終點(diǎn)中出現(xiàn)一個(gè)假陽性結(jié)論的總概率,依然維持在預(yù)設(shè)的限制之內(nèi)(例如2.5%)。
在探討多個(gè)終點(diǎn)時(shí),這種“至少在一個(gè)終點(diǎn)上犯錯(cuò)”的概率被稱為族系錯(cuò)誤率(Family-wise error rate, FWER)。這里的“族系(Family)”指的是一組終點(diǎn)對(duì)比或假設(shè)檢驗(yàn)[5]。
最廣為人知的多重性校正方法是Bonferroni校正,其做法非常簡單粗暴:將顯著性閾值(如0.025)直接除以檢測(cè)的終點(diǎn)數(shù)量K,即新的閾值= 0.025/K[1,2,6]。
雖然Bonferroni校正能嚴(yán)格控制族系錯(cuò)誤率,但也被認(rèn)為過于保守[6]。如果一種療法確實(shí)具有臨床療效,過于保守的校正方法會(huì)降低統(tǒng)計(jì)效能。也就是說,由于門檻設(shè)得太高,我們可能會(huì)錯(cuò)失發(fā)現(xiàn)獲益的機(jī)會(huì),導(dǎo)致研究出現(xiàn)“假陰性”。
為了解決這個(gè)問題,研究者開發(fā)了其他的多重性校正方法。這些方法在確保控制總錯(cuò)誤率的前提下,通過對(duì)一部分比較采用稍寬松的準(zhǔn)則,獲得更高的統(tǒng)計(jì)效能,增加檢測(cè)出真實(shí)療效的機(jī)會(huì),Hochberg法就是這樣一種校正方案[2,4,7]。
Hochberg法具體是如何操作的?
在Hochberg法中,每個(gè)終點(diǎn)首先獨(dú)立進(jìn)行分析,然后將得到的P值按從大到小的順序排列。該方法從最大的P值開始,逐一進(jìn)行:
1、檢查最大的P值
如果最大的P值小于或等于總體的顯著性水平(例如單側(cè)0.025),那么該終點(diǎn)以及后面P值更小的終點(diǎn),都被視為具有統(tǒng)計(jì)學(xué)顯著性。
2、如果第一步不顯著,評(píng)估第二個(gè)P值
如果最大的P值沒有達(dá)到標(biāo)準(zhǔn),則轉(zhuǎn)為評(píng)估第二大P值。此時(shí),對(duì)比的閾值會(huì)變得更嚴(yán)苛,即用原始閾值除以2(例如0.025/2=0.0125)。如果這個(gè)P值小于該閾值,那么該終點(diǎn)以及剩余P值更小的終點(diǎn)都視為顯著。
3、以此類推
如果第二大P值仍不顯著,則將第三大P值和原始閾值除以3(例如0.025/3=0.0083)進(jìn)行比較。這個(gè)過程一直持續(xù)到某個(gè)P值達(dá)到對(duì)應(yīng)的標(biāo)準(zhǔn),或者所有P值都評(píng)估完畢。
其核心邏輯在于:只要在任何一步得到了顯著的結(jié)果,那么該結(jié)果以及排位更靠后(即P值更小)的終點(diǎn),全部判定為顯著。
Hochberg法的替代方案與局限性
除了Hochberg法,還可以選擇:
不進(jìn)行任何校正:當(dāng)然這會(huì)導(dǎo)致極高的假陽性風(fēng)險(xiǎn)。
Bonferroni校正:如前所述,該方法過于保守,在療法確實(shí)有效時(shí)容易得出假陰性的結(jié)論。
Holm 校正: 這種方法與 Hochberg 法類似,但它是從最小P值開始比對(duì)。它比Bonferroni法的效能高,但略遜于Hochberg法[7]。
另一種替代方案是逐步守門法(stepwise gatekeeping procedure),即在分析數(shù)據(jù)前預(yù)先設(shè)定檢驗(yàn)順序來控制假陽性風(fēng)險(xiǎn)。例如,按照終點(diǎn)事件的重要性從高到低進(jìn)行檢驗(yàn),一旦出現(xiàn)第一個(gè)陰性結(jié)果即停止檢驗(yàn),但不會(huì)調(diào)整單個(gè)檢驗(yàn)的統(tǒng)計(jì)顯著性標(biāo)準(zhǔn)[8]。
包括Hochberg法在內(nèi)的多重性校正,核心在于控制假設(shè)檢驗(yàn)中的假陽性,結(jié)論通常簡化為二元的"是"或"否"。在許多研究情境下,相較于單純關(guān)注統(tǒng)計(jì)學(xué)顯著性,更重要的是估計(jì)治療效應(yīng)值的大小并量化這些估計(jì)值的不確定性。
不同多重性校正方法可能導(dǎo)致不同結(jié)論
對(duì)于同一組數(shù)據(jù),Hochberg法可能顯示某些終點(diǎn)存在獲益,而另一種方法可能顯示另一組終點(diǎn)具有益處。
預(yù)先指定一種校正方法(如Hochberg法)有助于控制誤差風(fēng)險(xiǎn),然而,更嚴(yán)格的標(biāo)準(zhǔn)也增加了不能識(shí)別出療法所有實(shí)際獲益的風(fēng)險(xiǎn)。如果有一個(gè)終點(diǎn)明顯最重要,那么將其作為唯一的主要終點(diǎn)進(jìn)行比較而不進(jìn)行任何校正,將其余終點(diǎn)指定為次要終點(diǎn),將增加該終點(diǎn)取得陽性結(jié)果的機(jī)會(huì)。在設(shè)計(jì)臨床試驗(yàn)時(shí),研究者應(yīng)選擇與自身研究目標(biāo)最契合的終點(diǎn)指標(biāo)和檢驗(yàn)方法。
需要注意的是,應(yīng)將Hochberg法與名稱相似的Benjamini-Hochberg法區(qū)分開來[9]。這兩種方法在不同場(chǎng)景下使用:Hochberg法通常用于臨床研究,以控制族系錯(cuò)誤率;Benjamini-Hochberg法用于控制另一種指標(biāo)——錯(cuò)誤發(fā)現(xiàn)率(False Discovery Rate, FDR),即所有被拒絕的假設(shè)中假陽性的期望比例。錯(cuò)誤發(fā)現(xiàn)率是一種相對(duì)寬松的誤差度量標(biāo)準(zhǔn),常用于基因組學(xué)、神經(jīng)影像學(xué)等高維度或大規(guī)模的多重檢驗(yàn)場(chǎng)景。
案例分析:Hochberg法在FAIR-HF2試驗(yàn)中的應(yīng)用
FAIR-HF2試驗(yàn)采用了Hochberg法比較治療組與對(duì)照組的3個(gè)主要終點(diǎn)[3]:
(1)心血管死亡或首次因心衰住院的時(shí)間;
(2)因心衰住院的總次數(shù);
(3)在轉(zhuǎn)鐵蛋白飽和度低于20%的亞組患者中,心血管死亡或首次因心衰住院的時(shí)間。
將分析得到的雙側(cè)P值按從大到小排序如下:
P = 0.12 (心衰住院總次數(shù))
P = 0.07 (轉(zhuǎn)鐵蛋白飽和度低的亞組的終點(diǎn))
P = 0.04 (總體人群的心血管死亡或首次住院時(shí)間)
Hochberg法的判定過程如下:
首先將最大的P值 (0.12) 與預(yù)設(shè)的顯著性水平0.05進(jìn)行比較。由于0.12 > 0.05,未達(dá)到顯著性。
接著,將下一個(gè)P值 (0.07) 與調(diào)整后的閾值0.025(即0.05/2)進(jìn)行比較,依然未達(dá)到顯著性。
最后,將最小的P值 (0.04) 與0.0167(即0.05/3)進(jìn)行比較,結(jié)果仍未達(dá)標(biāo)。
由于這三個(gè)觀測(cè)到的P值都沒有低于各自對(duì)應(yīng)的判定閾值,因此在統(tǒng)計(jì)學(xué)上,沒有任何一個(gè)終點(diǎn)被認(rèn)為具有統(tǒng)計(jì)學(xué)顯著性。
如何解讀該結(jié)果?
在FAIR-HF2試驗(yàn)中,3個(gè)主要終點(diǎn)在數(shù)值上顯示出獲益的趨勢(shì),但根據(jù)Hochberg 法的校正標(biāo)準(zhǔn),均未達(dá)到統(tǒng)計(jì)學(xué)顯著性。基于此,不能得出具有統(tǒng)計(jì)學(xué)意義的陽性結(jié)論。但這絕不等同于證明了該療法無效[10]。
在當(dāng)前的多重檢驗(yàn)框架下雖不顯著,但這并不能排除該療法在該人群中的真實(shí)獲益。這一點(diǎn)對(duì)于“心血管死亡或首次因心衰住院的時(shí)間”這一終點(diǎn)尤其重要,其原始P值為 0.04。如果研究在設(shè)計(jì)時(shí)將這個(gè)終點(diǎn)作為唯一的主要終點(diǎn),結(jié)果本可達(dá)到統(tǒng)計(jì)學(xué)顯著性,但代價(jià)是我們將無法對(duì)另外兩個(gè)終點(diǎn)做出獨(dú)立的統(tǒng)計(jì)推斷。
這正是多重性校正方法的典型特征:核心目標(biāo)是在得出陽性結(jié)論時(shí)確保結(jié)論的有效性(即嚴(yán)格控制假陽性風(fēng)險(xiǎn)),但代價(jià)是當(dāng)結(jié)果接近顯著性邊界時(shí),對(duì)陰性結(jié)論的解讀將變得困難。
附錄:原文獻(xiàn)的統(tǒng)計(jì)方法描述
JAMA這篇文獻(xiàn),在統(tǒng)計(jì)方法中介紹Hochberg法時(shí)表述如下,供大家參考:
The 3 primary end points were considered statistically significant if the corresponding 2-sidedP values fulfilled at least 1 of the following conditions: (1) P≤.05 for all 3 of the end point comparisons, (2) P≤.025 for 2 of the end point comparisons, or (3) P≤.0167 for any of the 3 end point comparisons (Hochberg procedure). The Hochberg procedure controls for the family-wise type I error rate and should not be confused with the Benjamini-Hochberg procedure, which controls for the false discovery rate and is a weaker criterion than the type I error rate. Further explanation of the Hochberg procedure and examples of its application in heart failure trials are provided elsewhere. The family-wise type I error rate across the 4 secondary end points, which is formally tested only if all primary hypotheses are rejected, was also controlled for using the Hochberg procedure.
參考文獻(xiàn):
1. Biometrics. 1987;43(3):487-498.
2. JAMA. 2014;312(5):543-544.
3. JAMA. 2025;333(22):1965-1976.
4. Biometrika. 1988;75(4):800-802.
5. Stat Med. 2020;39(9):1407-1413.
6. BMJ. 1995;310(6973):170.
7. Stat Med. 1997;16(22):2529-2542.
8. JAMA. 2017;318(14):1385-1386.
9. J R Stat Soc B. 1995;57(1):289-300.
10. JAMA. 2023;329(23):2023-2025.
文章整理自:JAMA. 2026 Mar 5. doi: 10.1001/jama.2026.0191.
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.