337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

提速4.6倍!NVIDIA×港大×MIT聯(lián)手重新定義擴(kuò)散模型訓(xùn)練速度上限

0
分享至



當(dāng)強(qiáng)化學(xué)習(xí)后訓(xùn)練的大規(guī)模 rollout 已經(jīng)被證明能夠提升圖像生成模型的偏好對(duì)齊能力,推理負(fù)擔(dān)就成了制約訓(xùn)練速度的核心瓶頸。來自 NVIDIA、港大和 MIT 的團(tuán)隊(duì)提出的 Sol-RL,通過「FP4 先探索、BF16 再訓(xùn)練」的后訓(xùn)練框架,將達(dá)到等效 reward 水平的收斂速度最高提升到 4.64x,在訓(xùn)練速度與對(duì)齊效果之間給出了一條更具工程可行性的解法。



Sol-RL(Speed-of-light RL)是一種將 NVFP4 推理融合進(jìn) Diffusion 強(qiáng)化學(xué)習(xí)微調(diào)的高效訓(xùn)練框架。該方法并不是用量化推理結(jié)果直接訓(xùn)練,而是讓 NVFP4 rollout 承擔(dān)高吞吐的大規(guī)模探索任務(wù),先在海量候選中篩出最有對(duì)比性的樣本的初始噪聲集合,再讓 BF16 對(duì)這些關(guān)鍵初始噪聲進(jìn)行高保真再生成并完成策略優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該設(shè)計(jì)在 SANA、FLUX.1 和 SD3.5-L 模型上都帶來了明顯收益:在相同 GPU-hour 預(yù)算下,達(dá)到等效 reward 水平的收斂速度最高提升 4.64x,同時(shí)基本保持了 BF16 高精度 pipeline 的訓(xùn)練保真度。本文將深入探討 Sol-RL 的核心思路、方法設(shè)計(jì)、實(shí)驗(yàn)結(jié)果與實(shí)際意義。



  • 論文名稱:FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
  • 論文地址:https://arxiv.org/abs/2604.06916
  • 項(xiàng)目主頁:https://nvlabs.github.io/Sana/Sol-RL/
  • 代碼鏈接:https://github.com/NVlabs/Sana/

效果展示

Sol-RL 在速度和性能上表現(xiàn)出色,下圖展示了經(jīng)過 Sol-RL 優(yōu)化后 SANA 模型的整體效果,以及與基礎(chǔ)模型相比在復(fù)雜細(xì)節(jié)、語義一致性和整體審美上的改善。



研究背景


在文生圖模型的后訓(xùn)練階段,強(qiáng)化學(xué)習(xí)正在成為提升人類偏好對(duì)齊能力的重要路徑。現(xiàn)有研究不斷表明,擴(kuò)大 rollout,也就是為同一個(gè) prompt 生成更多候選圖像,再從中篩選高對(duì)比樣本(例如其中表現(xiàn)最好的 n 個(gè)和最差的 n 個(gè)構(gòu)成的 2n 個(gè)圖像)進(jìn)行優(yōu)化,能夠顯著提升模型的對(duì)齊效果。對(duì)于基于 GRPO 的 Diffusion RL 來說,更多候選意味著更強(qiáng)的對(duì)比信號(hào),也意味著更可靠的梯度更新。

但問題在于:rollout 一旦增大,訓(xùn)練瓶頸很快就會(huì)從參數(shù)更新轉(zhuǎn)移到海量候選樣本生成。尤其在 FLUX.1、SD3.5-L 這類參數(shù)量較大、需要多次迭代推理的文生圖 Diffusion 模型上,想真正把 rollout scaling 做起來,rollout 階段生成候選樣本的計(jì)算成本會(huì)迅速上升。為了提高海量 rollout 效率,團(tuán)隊(duì)引入 nvfp4 量化推理,但論文進(jìn)一步指出,如果直接把低比特 rollout 樣本當(dāng)作訓(xùn)練目標(biāo),訓(xùn)練穩(wěn)定性和最終效果都會(huì)受到明顯影響。因此,關(guān)鍵并不只是「能不能用 FP4」,而是「FP4 應(yīng)該在訓(xùn)練流程里扮演什么角色」。

核心創(chuàng)新

Sol-RL 的核心創(chuàng)新在于其雙階段解耦框架。與直接把低精度計(jì)算貫穿整個(gè)訓(xùn)練流程不同,Sol-RL 把 rollout 樣本的「探索」和「生成」拆開處理,讓不同精度承擔(dān)不同職責(zé)。

量化 rollout 不適合直接訓(xùn)練:論文首先指出,直接將 FP4 量化推理樣本用作優(yōu)化目標(biāo),會(huì)帶來訓(xùn)練退化和不穩(wěn)定性的隱患,如下圖實(shí)驗(yàn)中紅色曲線所示。



FP4 適合作為探索代理:盡管 FP4 樣本在像素層面會(huì)引入偏差,但研究發(fā)現(xiàn),給定相同的初始噪聲,在同組候選樣本的相對(duì) reward 排序上,NVFP4 推理樣本依然保持了和 BF16 推理樣本足夠高的一致性。因此,它非常適合用來承擔(dān)「大規(guī)模探索」和「候選篩選」的任務(wù),也就是在大量初始噪聲中快速識(shí)別出哪些會(huì)產(chǎn)生「最好」或者「最壞」的最終圖像。




方法概述

Sol-RL 的整體流程可以概括為兩個(gè)階段。第一階段,框架使用 NVFP4 rollout 和更少的采樣步數(shù)快速生成一個(gè)大規(guī)模候選池,并根據(jù) reward 對(duì)候選樣本做排序,篩選出對(duì)應(yīng)圖像得分最高 / 最低的初始噪聲種子集合。第二階段,框架并不會(huì)直接拿這些低精度樣本做訓(xùn)練,而是只保留第一階段篩出的關(guān)鍵種子,再用 BF16 精度重新生成高保真樣本,并僅基于這些高保真樣本完成策略優(yōu)化。這樣一來,F(xiàn)P4 負(fù)責(zé)快速找方向,BF16 負(fù)責(zé)對(duì)其中一小部分高對(duì)比度樣本做高質(zhì)量生成用于訓(xùn)練,效率和穩(wěn)定性被重新組織到同一個(gè)框架中。這樣的流程讓高成本 BF16 計(jì)算只集中在真正會(huì)影響梯度更新的部分,而不是平均浪費(fèi)在大量最終不會(huì)參與訓(xùn)練的候選圖像上。



實(shí)驗(yàn)結(jié)果


實(shí)驗(yàn)結(jié)果表明,Sol-RL 在多個(gè)基礎(chǔ)模型和多個(gè) reward 指標(biāo)上都展現(xiàn)出明顯優(yōu)勢(shì)。在相同 GPU-hour 預(yù)算下,Sol-RL 在 SANA、FLUX.1 和 SD3.5-L 上持續(xù)優(yōu)于基線方法,并將達(dá)到等效 reward 水平的收斂速度最高提升至 4.64x。如下圖所示,Sol-RL 在相同 wall-clock 預(yù)算下能夠更快達(dá)到基線性能,在有限時(shí)間內(nèi)達(dá)到更高對(duì)齊質(zhì)量。



進(jìn)一步做時(shí)間拆解,相對(duì)于直接使用高精度進(jìn)行 rollout scaling,Sol-RL 在 rollout 階段的加速最高達(dá)到 2.41x,訓(xùn)練迭代時(shí)間最高提升 1.62x。Sol-RL 通過探索 - 重生成的兩階段設(shè)計(jì),顯著緩解了完全使用 BF16 rollout scaling 帶來的計(jì)算瓶頸,并且避免了直接使用低精度樣本進(jìn)行訓(xùn)練帶來的不穩(wěn)定性,相對(duì)于全程 NVFP4 低精度推理版本僅帶來約為 2% 的額外開銷。



結(jié)論與展望

當(dāng)大規(guī)模 rollout 已經(jīng)被證明能夠持續(xù)提升生成模型偏好對(duì)齊能力,接下來的關(guān)鍵問題就是如何以更低成本釋放這種擴(kuò)展帶來的收益。Sol-RL 給出的答案是:讓低精度負(fù)責(zé)探索,讓高精度負(fù)責(zé)優(yōu)化。這也意味著,F(xiàn)P4 在生成式模型后訓(xùn)練中的角色被重新定義了。它不再只是一個(gè)推理加速工具,而是開始成為強(qiáng)化學(xué)習(xí)探索階段的有效代理。對(duì)于文生圖后訓(xùn)練、偏好對(duì)齊、低比特量化以及系統(tǒng)級(jí)優(yōu)化方向的研究者和工程團(tuán)隊(duì)來說,這個(gè)方案為生成模型后訓(xùn)練提供了一條更現(xiàn)實(shí)的落地路徑,具備持續(xù)關(guān)注的價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
問政四川丨青城山觀光車站公廁提示語,被游客評(píng)“極其不雅”,回應(yīng):立即拆除!

問政四川丨青城山觀光車站公廁提示語,被游客評(píng)“極其不雅”,回應(yīng):立即拆除!

小影的娛樂
2026-04-21 00:10:22
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
恒大足校組建廣東晨星聚力俱樂部征戰(zhàn)中冠,目標(biāo)沖擊中乙資格

恒大足校組建廣東晨星聚力俱樂部征戰(zhàn)中冠,目標(biāo)沖擊中乙資格

懂球帝
2026-04-20 20:22:11
美國也被封鎖了?中國這一技術(shù)全球領(lǐng)先,美追趕多年也難以超越

美國也被封鎖了?中國這一技術(shù)全球領(lǐng)先,美追趕多年也難以超越

領(lǐng)悟看世界
2026-04-21 00:41:33
驗(yàn)資3000萬每日預(yù)約名單仍排滿,高凈值人群“排隊(duì)”看房,4月的杭州樓市是高端局

驗(yàn)資3000萬每日預(yù)約名單仍排滿,高凈值人群“排隊(duì)”看房,4月的杭州樓市是高端局

都市快報(bào)橙柿互動(dòng)
2026-04-20 14:35:53
女子酒窩大被網(wǎng)友質(zhì)疑是AI特效 本人:是真的 一直都被人說大

女子酒窩大被網(wǎng)友質(zhì)疑是AI特效 本人:是真的 一直都被人說大

快科技
2026-04-20 16:40:42
90年至今五大聯(lián)賽主帥奪冠榜:弗格森13次第一,瓜帥12次第二

90年至今五大聯(lián)賽主帥奪冠榜:弗格森13次第一,瓜帥12次第二

懂球帝
2026-04-20 20:22:11
從0開始,在國內(nèi)用上Claude Code的終極保姆教程來了。

從0開始,在國內(nèi)用上Claude Code的終極保姆教程來了。

數(shù)字生命卡茲克
2026-04-20 10:11:26
季后賽G1總結(jié):僅活塞遭下克上+湖人贏9分最少 分差創(chuàng)歷史第四高

季后賽G1總結(jié):僅活塞遭下克上+湖人贏9分最少 分差創(chuàng)歷史第四高

醉臥浮生
2026-04-20 12:05:52
愛奇藝今日四部劇定檔,一部民國,三部古裝,風(fēng)格迥異看點(diǎn)十足!

愛奇藝今日四部劇定檔,一部民國,三部古裝,風(fēng)格迥異看點(diǎn)十足!

小椰的奶奶
2026-04-21 00:46:14
軍事 | 與自衛(wèi)隊(duì)有關(guān)的一系列事情,他們不是普通地刷存在感!

軍事 | 與自衛(wèi)隊(duì)有關(guān)的一系列事情,他們不是普通地刷存在感!

新民周刊
2026-04-20 09:08:09
特朗普:美代表團(tuán)將抵達(dá)伊斯蘭堡,若談判有突破進(jìn)展,愿同伊朗領(lǐng)導(dǎo)人會(huì)面,“我和他們見面沒問題”

特朗普:美代表團(tuán)將抵達(dá)伊斯蘭堡,若談判有突破進(jìn)展,愿同伊朗領(lǐng)導(dǎo)人會(huì)面,“我和他們見面沒問題”

大象新聞
2026-04-20 23:47:07
官宣,國行 eSIM 新功能來了

官宣,國行 eSIM 新功能來了

果粉俱樂部
2026-04-20 13:55:03
多名院士研究發(fā)現(xiàn):吃一把花生,就等于吃了兩勺黃油,真的假的?

多名院士研究發(fā)現(xiàn):吃一把花生,就等于吃了兩勺黃油,真的假的?

蜉蝣說
2026-04-20 10:18:20
美國若敢玩火,中方就敢動(dòng)手!外交部這次的一個(gè)表態(tài),極不尋常

美國若敢玩火,中方就敢動(dòng)手!外交部這次的一個(gè)表態(tài),極不尋常

天氣觀察站
2026-04-20 11:33:49
我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

草莓解說體育
2026-04-12 17:05:01
大數(shù)據(jù)分析,在中國,找個(gè)身高1米7年入20萬的老公,到底有多難?

大數(shù)據(jù)分析,在中國,找個(gè)身高1米7年入20萬的老公,到底有多難?

深度報(bào)
2026-04-18 23:37:27
越南大額轉(zhuǎn)賬“剎車”了!從4月21日起,5億越南盾以上秒到賬將成為過去式

越南大額轉(zhuǎn)賬“剎車”了!從4月21日起,5億越南盾以上秒到賬將成為過去式

越南語學(xué)習(xí)平臺(tái)
2026-04-20 09:55:42
機(jī)關(guān)事業(yè)單位“緊日子”來臨,2026年起,這些費(fèi)用一律不再報(bào)銷

機(jī)關(guān)事業(yè)單位“緊日子”來臨,2026年起,這些費(fèi)用一律不再報(bào)銷

復(fù)轉(zhuǎn)這些年
2026-04-19 19:13:36
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
2026-04-21 03:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

手機(jī)
教育
藝術(shù)
本地
公開課

手機(jī)要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

教育要聞

大降溫:來澳洲留學(xué)的中國學(xué)生,創(chuàng)近12年新低!

藝術(shù)要聞

沙特官宣:全球最大單體建筑,延期十年!網(wǎng)友:又是畫餅?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版