337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

香港大學(xué)首創(chuàng)新方法解決AI訓(xùn)練"發(fā)瘋"問題

0
分享至


大型語言模型就像一個正在學(xué)習(xí)的學(xué)生,需要不斷接受訓(xùn)練才能變得更聰明。然而,這個訓(xùn)練過程經(jīng)常會遇到一個令人頭疼的問題——就像學(xué)生在學(xué)習(xí)過程中突然"發(fā)瘋",要么過度自信地給出錯誤答案,要么因?yàn)檫^于謹(jǐn)慎而什么都不敢說。這項(xiàng)由香港大學(xué)聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室進(jìn)行的研究發(fā)表于2026年3月14日的arXiv預(yù)印本(編號arXiv:2603.16929v1),首次提出了一種全新的解決方案來徹底解決這個困擾AI訓(xùn)練的核心問題。

當(dāng)前的AI訓(xùn)練就像是在指導(dǎo)一個學(xué)生改正錯誤。傳統(tǒng)方法采用的是"硬性約束"策略,就好比給學(xué)生制定嚴(yán)格的規(guī)則:"答案只能在這個范圍內(nèi),超出就完全不算"。這種做法雖然能防止學(xué)生給出極端錯誤的答案,但也帶來了嚴(yán)重的副作用。當(dāng)學(xué)生的回答剛好觸及邊界時,老師會突然從"很好"變成"完全錯誤",這種突然的轉(zhuǎn)變讓學(xué)生感到困惑,無法理解自己到底哪里做錯了。更糟糕的是,一旦學(xué)生的回答超出了規(guī)定范圍,系統(tǒng)就完全停止給予任何反饋,就像老師突然變成啞巴一樣。

研究團(tuán)隊(duì)發(fā)現(xiàn)了這個問題的根源。在AI訓(xùn)練中,系統(tǒng)需要比較學(xué)生當(dāng)前的表現(xiàn)和之前的表現(xiàn),這個比較結(jié)果被稱為"重要性比率"。當(dāng)AI模型處理長篇內(nèi)容時,比如解決復(fù)雜的數(shù)學(xué)問題,這些比率會出現(xiàn)極端的波動,就像學(xué)生的成績忽然從0分跳到100分,再跳回20分。這種劇烈的變化會產(chǎn)生巨大的"梯度尖峰",把整個學(xué)習(xí)過程搞得一團(tuán)糟。

更復(fù)雜的是,AI在學(xué)習(xí)過程中會遇到兩種截然不同的情況。一種是"正向調(diào)整",相當(dāng)于學(xué)生增強(qiáng)某個行為,另一種是"負(fù)向調(diào)整",相當(dāng)于學(xué)生減少某個行為。傳統(tǒng)方法對這兩種情況采用相同的處理方式,但研究團(tuán)隊(duì)認(rèn)識到,這兩種情況的風(fēng)險(xiǎn)完全不同。過度的正向調(diào)整可能讓AI變成"書呆子",只會重復(fù)少數(shù)幾個標(biāo)準(zhǔn)答案,失去創(chuàng)造性;而過度的負(fù)向調(diào)整則可能讓AI變成"啞巴",因?yàn)檫^于害怕犯錯而什么都不敢說。

為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一個叫做MHPO(模塊化危險(xiǎn)感知策略優(yōu)化)的新框架。這個框架包含兩個巧妙的組件,就像給AI安裝了兩個"智能助手"。

第一個助手叫做"對數(shù)保真調(diào)節(jié)器",它的作用就像一個溫和而堅(jiān)定的老師。與傳統(tǒng)的硬性規(guī)則不同,這個調(diào)節(jié)器使用一種叫做雙曲正切函數(shù)的數(shù)學(xué)工具,就像用一條光滑的曲線來替代生硬的直線邊界。當(dāng)學(xué)生的表現(xiàn)接近理想狀態(tài)時,這個調(diào)節(jié)器會如實(shí)反映學(xué)生的進(jìn)步;當(dāng)學(xué)生的表現(xiàn)開始偏離正軌時,調(diào)節(jié)器會溫和地引導(dǎo)學(xué)生回到正確方向,而不是突然斬?cái)嘁磺蟹答仭_@種方法確保了整個學(xué)習(xí)過程的連續(xù)性和穩(wěn)定性。

第二個助手叫做"解耦危險(xiǎn)懲罰機(jī)制",它的智慧在于能夠區(qū)分不同類型的錯誤。這個機(jī)制借鑒了工程學(xué)中的"可靠性理論",就像保險(xiǎn)公司評估不同類型風(fēng)險(xiǎn)一樣。對于正向調(diào)整和負(fù)向調(diào)整,它會分別設(shè)定不同的"警戒閾值"和"懲罰力度"。比如,如果發(fā)現(xiàn)AI有過度重復(fù)的傾向,系統(tǒng)會較為寬松地處理,鼓勵一定程度的探索;但如果發(fā)現(xiàn)AI開始抑制正常的語言表達(dá)能力,系統(tǒng)就會更加嚴(yán)厲地進(jìn)行糾正。

這種設(shè)計(jì)的巧妙之處在于,它模擬了人類學(xué)習(xí)中的"風(fēng)險(xiǎn)評估"過程。就像人們在學(xué)習(xí)新技能時,會本能地對不同類型的錯誤采取不同的謹(jǐn)慎程度。比如,在學(xué)習(xí)騎自行車時,我們可能會容忍一些小的搖擺,但對于可能導(dǎo)致摔倒的大幅傾斜會更加警惕。

研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)來驗(yàn)證這種新方法的效果。他們在多種不同類型的AI模型上進(jìn)行了測試,包括專門用于文本處理的模型、專門用于數(shù)學(xué)推理的模型,以及能夠同時處理文字和圖像的多模態(tài)模型。測試使用的都是業(yè)界公認(rèn)的高難度基準(zhǔn)測試,包括美國數(shù)學(xué)競賽、哈佛-MIT數(shù)學(xué)錦標(biāo)賽等頂級數(shù)學(xué)競賽題目。

實(shí)驗(yàn)結(jié)果令人振奮。在所有測試中,使用MHPO方法訓(xùn)練的模型都表現(xiàn)出了顯著的性能提升。以Qwen3-4B基礎(chǔ)模型為例,在五個不同的測試基準(zhǔn)上,MHPO相比傳統(tǒng)的最佳方法平均提升了約15%的準(zhǔn)確率。更令人印象深刻的是,在最具挑戰(zhàn)性的AIME25競賽題目上,MHPO將準(zhǔn)確率從23.5%提升到了35.7%,這是一個相當(dāng)可觀的進(jìn)步。

除了性能提升,新方法還顯著改善了訓(xùn)練的穩(wěn)定性。傳統(tǒng)方法在訓(xùn)練后期經(jīng)常出現(xiàn)性能急劇下降的問題,就像學(xué)生在考試前突然"掉鏈子"。而使用MHPO的模型在整個訓(xùn)練過程中都保持了穩(wěn)定的表現(xiàn),訓(xùn)練結(jié)束時的性能與最佳狀態(tài)幾乎沒有差別。這種穩(wěn)定性對于實(shí)際應(yīng)用來說極其重要,因?yàn)樗馕吨_發(fā)者不需要費(fèi)心尋找最佳的訓(xùn)練停止時機(jī)。

研究團(tuán)隊(duì)還深入分析了不同參數(shù)設(shè)置對結(jié)果的影響。他們發(fā)現(xiàn),"邊界寬度"參數(shù)控制著系統(tǒng)的容忍度,類似于老師的嚴(yán)格程度。如果設(shè)置得太嚴(yán)格,模型會過于保守;如果太寬松,又可能失去必要的約束。通過大量實(shí)驗(yàn),他們找到了一個最佳的平衡點(diǎn)。

另一個重要發(fā)現(xiàn)是關(guān)于"形狀參數(shù)"的作用。這個參數(shù)決定了懲罰力度隨偏差程度的增長速度。研究顯示,采用"加速增長"的懲罰模式效果最好,也就是說,對于小偏差給予輕微懲罰,但對于大偏差則快速加重懲罰力度。這種設(shè)計(jì)反映了一個重要的教育原理:適度的容錯空間有助于學(xué)習(xí),但必須對嚴(yán)重錯誤保持警覺。

"尺度參數(shù)"則控制著懲罰機(jī)制開始生效的時機(jī)。實(shí)驗(yàn)表明,相對較早地啟動懲罰機(jī)制效果更好,就像在問題剛剛萌芽時就加以干預(yù),而不是等到問題嚴(yán)重化后才采取行動。

研究團(tuán)隊(duì)特別關(guān)注了訓(xùn)練過程的穩(wěn)定性指標(biāo)。他們跟蹤了整個訓(xùn)練過程中的"梯度范數(shù)"變化,這個指標(biāo)可以理解為學(xué)習(xí)強(qiáng)度的波動程度。傳統(tǒng)方法經(jīng)常出現(xiàn)劇烈的波動,就像學(xué)生的學(xué)習(xí)節(jié)奏時快時慢,難以掌控。而MHPO始終保持了平穩(wěn)的學(xué)習(xí)節(jié)奏,這種穩(wěn)定性為高質(zhì)量的學(xué)習(xí)效果奠定了基礎(chǔ)。

獎勵曲線的分析也揭示了有趣的現(xiàn)象。MHPO能夠更早地達(dá)到較高的性能水平,并且能夠持續(xù)保持這種優(yōu)勢。相比之下,傳統(tǒng)方法往往在訓(xùn)練后期出現(xiàn)性能平臺期甚至倒退,這種現(xiàn)象在AI訓(xùn)練中被稱為"災(zāi)難性遺忘"。

為了更直觀地驗(yàn)證穩(wěn)定性,研究團(tuán)隊(duì)比較了訓(xùn)練過程中"最佳檢查點(diǎn)"和"最終檢查點(diǎn)"之間的性能差異。這相當(dāng)于比較學(xué)生的最好狀態(tài)和期末狀態(tài)。結(jié)果顯示,使用傳統(tǒng)方法的模型平均會損失8-12個百分點(diǎn)的性能,而MHPO的損失不到1個百分點(diǎn)。這種穩(wěn)定性對于實(shí)際應(yīng)用來說意義重大,因?yàn)樗蟠蠼档土四P筒渴鸬娘L(fēng)險(xiǎn)。

研究還涉及了多模態(tài)學(xué)習(xí)的場景。當(dāng)AI需要同時處理文字和圖像信息時,問題變得更加復(fù)雜。就像要求學(xué)生同時進(jìn)行閱讀理解和圖形分析,兩種不同類型的信息需要協(xié)調(diào)處理。MHPO在這種復(fù)雜場景下依然表現(xiàn)出色,在幾何問題求解、數(shù)學(xué)圖表分析等任務(wù)上都取得了顯著的改進(jìn)。

這項(xiàng)研究的理論貢獻(xiàn)同樣重要。研究團(tuán)隊(duì)從數(shù)學(xué)角度證明了MHPO方法的梯度穩(wěn)定性。他們證明了無論輸入數(shù)據(jù)如何變化,系統(tǒng)的學(xué)習(xí)強(qiáng)度都能保持在一個可控的范圍內(nèi)。這種理論保證為方法的可靠性提供了堅(jiān)實(shí)基礎(chǔ)。

具體來說,他們證明了"梯度乘數(shù)"(決定學(xué)習(xí)強(qiáng)度的關(guān)鍵參數(shù))有一個嚴(yán)格的上界,不會出現(xiàn)無限制的增長。這就像給汽車安裝了限速裝置,確保無論在什么路況下都不會出現(xiàn)危險(xiǎn)的超速行為。

從實(shí)際應(yīng)用的角度來看,這項(xiàng)研究的意義深遠(yuǎn)。隨著大型語言模型在教育、客服、內(nèi)容創(chuàng)作等領(lǐng)域的廣泛應(yīng)用,訓(xùn)練穩(wěn)定性變得越來越重要。MHPO提供的解決方案不僅能夠提升模型性能,更重要的是提高了訓(xùn)練過程的可預(yù)測性和可控性。

這種穩(wěn)定性對于商業(yè)應(yīng)用尤其重要。在企業(yè)環(huán)境中,AI系統(tǒng)的不穩(wěn)定性可能導(dǎo)致巨大的經(jīng)濟(jì)損失。MHPO的出現(xiàn)為企業(yè)提供了一個更可靠的AI訓(xùn)練方案,減少了因訓(xùn)練不穩(wěn)定而導(dǎo)致的重新訓(xùn)練成本。

此外,這項(xiàng)研究還為AI安全領(lǐng)域提供了新的思路。通過精確控制正向和負(fù)向調(diào)整的力度,可以更好地確保AI系統(tǒng)不會學(xué)到有害或偏激的行為模式。這種"分類制動"的思想可能會在未來的AI安全研究中發(fā)揮重要作用。

說到底,這項(xiàng)研究解決的是AI訓(xùn)練中一個非常基礎(chǔ)但至關(guān)重要的問題。就像蓋房子需要打好地基一樣,穩(wěn)定可靠的訓(xùn)練方法是開發(fā)高質(zhì)量AI系統(tǒng)的前提。MHPO的出現(xiàn)不僅為當(dāng)前的AI開發(fā)提供了更好的工具,也為未來更復(fù)雜、更強(qiáng)大的AI系統(tǒng)鋪平了道路。

對于普通人來說,這項(xiàng)研究意味著未來我們將能夠使用更可靠、更智能的AI助手。無論是學(xué)習(xí)輔導(dǎo)、工作協(xié)助還是生活服務(wù),這些AI系統(tǒng)都將變得更加穩(wěn)定和可信。同時,這也意味著AI技術(shù)的開發(fā)成本可能會降低,從而讓更多人能夠享受到AI帶來的便利。

這項(xiàng)開創(chuàng)性研究不僅在理論上取得了重要突破,也為整個AI行業(yè)提供了實(shí)用的解決方案。隨著越來越多的研究者和開發(fā)者開始采用類似的方法,我們有理由期待AI技術(shù)將迎來一個更加穩(wěn)定和高效的發(fā)展階段。有興趣深入了解的讀者可以通過論文編號arXiv:2603.16929v1查詢完整研究內(nèi)容。

Q&A

Q1:MHPO方法與傳統(tǒng)AI訓(xùn)練方法有什么根本區(qū)別?

A:傳統(tǒng)方法使用硬性邊界控制,就像給學(xué)生制定嚴(yán)格規(guī)則,超出范圍就完全停止反饋。MHPO則使用溫和的曲線邊界,能夠平滑地引導(dǎo)而非突然切斷,同時針對不同類型的調(diào)整采用不同的策略,更像一個智慧的老師。

Q2:MHPO在實(shí)際測試中的表現(xiàn)如何?

A:在所有測試基準(zhǔn)上,MHPO都實(shí)現(xiàn)了顯著提升,平均準(zhǔn)確率提升約15%。在最具挑戰(zhàn)性的AIME25競賽中,準(zhǔn)確率從23.5%提升到35.7%。更重要的是,訓(xùn)練穩(wěn)定性大幅改善,性能損失從傳統(tǒng)方法的8-12%降低到不足1%。

Q3:這項(xiàng)研究對普通用戶有什么實(shí)際意義?

A:這意味著未來的AI助手將更加可靠和穩(wěn)定。無論用于學(xué)習(xí)輔導(dǎo)、工作協(xié)助還是生活服務(wù),AI系統(tǒng)都不容易出現(xiàn)突然"發(fā)瘋"或性能急劇下降的問題。同時,開發(fā)成本的降低也意味著更多人能夠享受到高質(zhì)量的AI服務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人老了,搞垮自己最快的方式就是:胡思亂想、過度操心、情緒失控

人老了,搞垮自己最快的方式就是:胡思亂想、過度操心、情緒失控

風(fēng)起見你
2026-03-16 11:07:25
郴州小伙清明一天內(nèi)爬多座山祭祀16位先祖:根在這里,年年都會來,祈求祖先保佑

郴州小伙清明一天內(nèi)爬多座山祭祀16位先祖:根在這里,年年都會來,祈求祖先保佑

瀟湘晨報(bào)
2026-04-05 21:40:18
國務(wù)院831號令:6月1日起統(tǒng)一執(zhí)行!家家戶戶用水將迎7大變化

國務(wù)院831號令:6月1日起統(tǒng)一執(zhí)行!家家戶戶用水將迎7大變化

吃貨的分享
2026-04-06 01:12:11
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-31 15:11:31
湖人輸獨(dú)行俠1喜3憂!老詹體能不支,艾頓無態(tài)度,雷迪克死草主力

湖人輸獨(dú)行俠1喜3憂!老詹體能不支,艾頓無態(tài)度,雷迪克死草主力

籃球資訊達(dá)人
2026-04-06 10:18:56
4月起,私家車后備箱新規(guī)實(shí)施,這3樣?xùn)|西千萬別放,查到直接重罰

4月起,私家車后備箱新規(guī)實(shí)施,這3樣?xùn)|西千萬別放,查到直接重罰

復(fù)轉(zhuǎn)這些年
2026-04-05 17:43:48
鄭麗文高鐵往返南京,清晨拜謁中山陵,392級臺階藏滿深意

鄭麗文高鐵往返南京,清晨拜謁中山陵,392級臺階藏滿深意

劉襈說體壇
2026-04-03 15:23:26
25歲還是處女,找對象有優(yōu)勢嗎?網(wǎng)友:絕對王炸,38萬彩禮不過分

25歲還是處女,找對象有優(yōu)勢嗎?網(wǎng)友:絕對王炸,38萬彩禮不過分

火山詩話
2026-04-05 06:20:25
完敗!老詹30+9+15肯納德三雙,狀元43+9創(chuàng)兩紀(jì)錄,艾頓難堪大任

完敗!老詹30+9+15肯納德三雙,狀元43+9創(chuàng)兩紀(jì)錄,艾頓難堪大任

魚崖大話籃球
2026-04-06 10:19:57
特朗普掛了?

特朗普掛了?

羅恩財(cái)經(jīng)
2026-04-05 23:44:27
特朗普宣布:美軍完成史上最大膽搜救行動,一名飛行員安全獲救

特朗普宣布:美軍完成史上最大膽搜救行動,一名飛行員安全獲救

可達(dá)鴨面面觀
2026-04-05 12:53:09
從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

興史興談
2026-04-06 03:33:35
118噸!這家央行,大幅拋售黃金!

118噸!這家央行,大幅拋售黃金!

米筐投資
2026-04-06 07:08:28
美媒稱美軍炸毀兩架執(zhí)行救援任務(wù)的故障運(yùn)輸機(jī)

美媒稱美軍炸毀兩架執(zhí)行救援任務(wù)的故障運(yùn)輸機(jī)

界面新聞
2026-04-05 13:30:49
震驚!裸車僅4.3萬的張雪820機(jī)車,上海落地要53萬,差價近乎十倍

震驚!裸車僅4.3萬的張雪820機(jī)車,上海落地要53萬,差價近乎十倍

火山詩話
2026-04-05 08:07:32
美方“最后期限” 推遲1天 韓國KOSPI漲超2% 日經(jīng)225大漲450點(diǎn)

美方“最后期限” 推遲1天 韓國KOSPI漲超2% 日經(jīng)225大漲450點(diǎn)

每日經(jīng)濟(jì)新聞
2026-04-06 08:37:00
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

共工之錨
2026-03-31 00:27:37
14年前索尼PS廣告太炸裂!女模特長出“兩對胸部”

14年前索尼PS廣告太炸裂!女模特長出“兩對胸部”

游民星空
2026-04-05 15:28:45
垃圾分類為何突然消失了?不是大家不配合,而是垃圾真的不夠用了

垃圾分類為何突然消失了?不是大家不配合,而是垃圾真的不夠用了

觀察者海風(fēng)
2026-04-03 22:35:55
美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時定勝負(fù)

美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時定勝負(fù)

嘆知
2026-04-05 05:22:04
2026-04-06 11:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7875文章數(shù) 558關(guān)注度
往期回顧 全部

科技要聞

前同事被蒸餾成Token,AI能否偷走職場經(jīng)驗(yàn)

頭條要聞

牛彈琴:特朗普兩個舉動很反常 美國上下都很震驚

頭條要聞

牛彈琴:特朗普兩個舉動很反常 美國上下都很震驚

體育要聞

CBA最老球員,身價7500萬美元

娛樂要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財(cái)經(jīng)要聞

118噸!這家央行,大幅拋售黃金!

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態(tài)度原創(chuàng)

旅游
教育
親子
游戲
手機(jī)

旅游要聞

全民“追花地圖”!原來有這么多“花樣”玩法

教育要聞

新工科專業(yè)開始洗牌,報(bào)考的新思路決定孩子未來就業(yè)出路!

親子要聞

40+媽媽產(chǎn)后,不焦慮不內(nèi)卷、真實(shí)做法

FC名作《飛龍之拳合集》Steam復(fù)活 經(jīng)典橫版ACT

手機(jī)要聞

iPhone18Pro模具偷跑,深紅配色測試中

無障礙瀏覽 進(jìn)入關(guān)懷版