網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌把這技術(shù)藏了3年，500步訓(xùn)練讓7個(gè)模型"自動(dòng)組隊(duì)"

2026-03-25 15:47:54　來(lái)源: 野生運(yùn)營(yíng)

北京舉報(bào)

分享至

聯(lián)邦學(xué)習(xí)（Federated Learning）有個(gè)老毛病：各家公司把模型練得再精，合起來(lái)反而更差。KALAVAI團(tuán)隊(duì)用一套新機(jī)制，讓7個(gè)獨(dú)立訓(xùn)練的"專(zhuān)科醫(yī)生"自動(dòng)學(xué)會(huì)會(huì)診——全程不交換任何原始數(shù)據(jù)。

數(shù)據(jù)不出域，模型怎么"抱團(tuán)"

傳統(tǒng)思路是中央集權(quán)：把數(shù)據(jù)收上來(lái)，練一個(gè)大模型。但醫(yī)療、金融、小語(yǔ)種場(chǎng)景里，數(shù)據(jù)根本動(dòng)不了。KALAVAI反過(guò)來(lái)操作：把基礎(chǔ)模型 checkpoint（檢查點(diǎn)）分發(fā)出去，各參與方用自己的數(shù)據(jù)微調(diào)，再把模型權(quán)重交回來(lái)。

這里有個(gè)反直覺(jué)的點(diǎn)：模型 diverge（發(fā)散）得越厲害，融合后效果越好。如果各方數(shù)據(jù)太像，微調(diào)后的模型長(zhǎng)得差不多，融合就是七個(gè)克隆人開(kāi)會(huì)，毫無(wú)意義。只有數(shù)據(jù)足夠多樣，模型參數(shù)"各奔東西"，才能互補(bǔ)。

谷歌研究院 2022 年的實(shí)驗(yàn)顯示，用 KALAVAI 融合 7 個(gè)語(yǔ)言專(zhuān)家模型，在低資源語(yǔ)言任務(wù)上比單模型平均提升 23%。關(guān)鍵是，整個(gè)路由網(wǎng)絡(luò)只訓(xùn)了 500 步——相當(dāng)于讓七個(gè)專(zhuān)家在半小時(shí)內(nèi)學(xué)會(huì)互相打配合。

500步訓(xùn)練的"門(mén)控系統(tǒng)"

融合的核心是個(gè)輕量級(jí) Mixture of Experts（混合專(zhuān)家）路由。它不看原始數(shù)據(jù)，只看輸入 token 的特征，實(shí)時(shí)決定該激活哪個(gè)專(zhuān)家。門(mén)控函數(shù)的權(quán)重直接對(duì)應(yīng)"這個(gè)輸入更像誰(shuí)的專(zhuān)業(yè)領(lǐng)域"。

訓(xùn)練路由用的是混合數(shù)據(jù)——從各專(zhuān)家的訓(xùn)練集里采樣拼湊。這里容易翻車(chē)：如果路由過(guò)擬合，見(jiàn)到陌生輸入就懵；如果學(xué)歪了，把法語(yǔ)句子派給阿拉伯語(yǔ)專(zhuān)家，直接 domain mismatch（領(lǐng)域錯(cuò)配）。KALAVAI 的解法是把驗(yàn)證集誤差寫(xiě)進(jìn)損失函數(shù)，強(qiáng)制路由保持"謙虛"。

整個(gè)流程零梯度共享、零數(shù)據(jù)共享。參與方只上傳最終的模型權(quán)重，連訓(xùn)練過(guò)程中的中間狀態(tài)都不暴露。這比傳統(tǒng)的聯(lián)邦平均（FedAvg）更進(jìn)一步——后者好歹還要傳梯度。

誰(shuí)該緊張，誰(shuí)該興奮

對(duì)小語(yǔ)種研究者，這是救命稻草。斯瓦希里語(yǔ)、冰島語(yǔ)的數(shù)據(jù)持有者再也不用把語(yǔ)料交給大廠，自己訓(xùn)完模型，扔個(gè) checkpoint 進(jìn)池子就行。對(duì)醫(yī)療 AI 更關(guān)鍵：醫(yī)院 A 的腫瘤數(shù)據(jù)、醫(yī)院 B 的心電數(shù)據(jù)，這輩子不可能見(jiàn)面，但兩個(gè)專(zhuān)科模型可以融合成一個(gè)"全科醫(yī)生"。

但有個(gè)隱藏成本：路由的 inference（推理）開(kāi)銷(xiāo)。每處理一個(gè) token 都要計(jì)算 7 個(gè)專(zhuān)家的輸出再加權(quán)，延遲比單模型高 40% 左右。KALAVAI 團(tuán)隊(duì)的建議是——用稀疏激活，每次只跑 top-2 專(zhuān)家，把開(kāi)銷(xiāo)壓到 15% 以?xún)?nèi)。

2024 年 3 月，Hugging Face 社區(qū)有人復(fù)現(xiàn)了 KALAVAI 的簡(jiǎn)化版，用 4 個(gè) 7B 模型融合出一個(gè)"免費(fèi) GPT-4 替代品"。帖子底下最高贊的評(píng)論是："終于不用求爺爺告奶奶要數(shù)據(jù)了。"

如果每個(gè)醫(yī)院都能貢獻(xiàn)一個(gè)專(zhuān)科模型，卻不泄露任何病例——你覺(jué)得最先落地的會(huì)是腫瘤篩查，還是罕見(jiàn)病診斷？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.