聯(lián)邦學(xué)習(xí)(Federated Learning)有個(gè)老毛病:各家公司把模型練得再精,合起來(lái)反而更差。KALAVAI團(tuán)隊(duì)用一套新機(jī)制,讓7個(gè)獨(dú)立訓(xùn)練的"專(zhuān)科醫(yī)生"自動(dòng)學(xué)會(huì)會(huì)診——全程不交換任何原始數(shù)據(jù)。
數(shù)據(jù)不出域,模型怎么"抱團(tuán)"
傳統(tǒng)思路是中央集權(quán):把數(shù)據(jù)收上來(lái),練一個(gè)大模型。但醫(yī)療、金融、小語(yǔ)種場(chǎng)景里,數(shù)據(jù)根本動(dòng)不了。KALAVAI反過(guò)來(lái)操作:把基礎(chǔ)模型 checkpoint(檢查點(diǎn))分發(fā)出去,各參與方用自己的數(shù)據(jù)微調(diào),再把模型權(quán)重交回來(lái)。
這里有個(gè)反直覺(jué)的點(diǎn):模型 diverge(發(fā)散)得越厲害,融合后效果越好。如果各方數(shù)據(jù)太像,微調(diào)后的模型長(zhǎng)得差不多,融合就是七個(gè)克隆人開(kāi)會(huì),毫無(wú)意義。只有數(shù)據(jù)足夠多樣,模型參數(shù)"各奔東西",才能互補(bǔ)。
谷歌研究院 2022 年的實(shí)驗(yàn)顯示,用 KALAVAI 融合 7 個(gè)語(yǔ)言專(zhuān)家模型,在低資源語(yǔ)言任務(wù)上比單模型平均提升 23%。關(guān)鍵是,整個(gè)路由網(wǎng)絡(luò)只訓(xùn)了 500 步——相當(dāng)于讓七個(gè)專(zhuān)家在半小時(shí)內(nèi)學(xué)會(huì)互相打配合。
500步訓(xùn)練的"門(mén)控系統(tǒng)"
融合的核心是個(gè)輕量級(jí) Mixture of Experts(混合專(zhuān)家)路由。它不看原始數(shù)據(jù),只看輸入 token 的特征,實(shí)時(shí)決定該激活哪個(gè)專(zhuān)家。門(mén)控函數(shù)的權(quán)重直接對(duì)應(yīng)"這個(gè)輸入更像誰(shuí)的專(zhuān)業(yè)領(lǐng)域"。
訓(xùn)練路由用的是混合數(shù)據(jù)——從各專(zhuān)家的訓(xùn)練集里采樣拼湊。這里容易翻車(chē):如果路由過(guò)擬合,見(jiàn)到陌生輸入就懵;如果學(xué)歪了,把法語(yǔ)句子派給阿拉伯語(yǔ)專(zhuān)家,直接 domain mismatch(領(lǐng)域錯(cuò)配)。KALAVAI 的解法是把驗(yàn)證集誤差寫(xiě)進(jìn)損失函數(shù),強(qiáng)制路由保持"謙虛"。
整個(gè)流程零梯度共享、零數(shù)據(jù)共享。參與方只上傳最終的模型權(quán)重,連訓(xùn)練過(guò)程中的中間狀態(tài)都不暴露。這比傳統(tǒng)的聯(lián)邦平均(FedAvg)更進(jìn)一步——后者好歹還要傳梯度。
誰(shuí)該緊張,誰(shuí)該興奮
對(duì)小語(yǔ)種研究者,這是救命稻草。斯瓦希里語(yǔ)、冰島語(yǔ)的數(shù)據(jù)持有者再也不用把語(yǔ)料交給大廠,自己訓(xùn)完模型,扔個(gè) checkpoint 進(jìn)池子就行。對(duì)醫(yī)療 AI 更關(guān)鍵:醫(yī)院 A 的腫瘤數(shù)據(jù)、醫(yī)院 B 的心電數(shù)據(jù),這輩子不可能見(jiàn)面,但兩個(gè)專(zhuān)科模型可以融合成一個(gè)"全科醫(yī)生"。
但有個(gè)隱藏成本:路由的 inference(推理)開(kāi)銷(xiāo)。每處理一個(gè) token 都要計(jì)算 7 個(gè)專(zhuān)家的輸出再加權(quán),延遲比單模型高 40% 左右。KALAVAI 團(tuán)隊(duì)的建議是——用稀疏激活,每次只跑 top-2 專(zhuān)家,把開(kāi)銷(xiāo)壓到 15% 以?xún)?nèi)。
2024 年 3 月,Hugging Face 社區(qū)有人復(fù)現(xiàn)了 KALAVAI 的簡(jiǎn)化版,用 4 個(gè) 7B 模型融合出一個(gè)"免費(fèi) GPT-4 替代品"。帖子底下最高贊的評(píng)論是:"終于不用求爺爺告奶奶要數(shù)據(jù)了。"
如果每個(gè)醫(yī)院都能貢獻(xiàn)一個(gè)專(zhuān)科模型,卻不泄露任何病例——你覺(jué)得最先落地的會(huì)是腫瘤篩查,還是罕見(jiàn)病診斷?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.