337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

AI 時(shí)代,智能體對短期對話的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架在幾十步內(nèi)尚能應(yīng)付,但一旦任務(wù)延展至數(shù)百步,獎(jiǎng)勵(lì)稀疏、歷史冗長、策略崩塌便接踵而至。

為了應(yīng)對這些挑戰(zhàn),來自卡內(nèi)基梅隆大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究者提出了 Verlog ,試圖打破這一困境。

具體而言,Verlog 是一個(gè)多輪強(qiáng)化學(xué)習(xí)框架,專為具有高度可變回合(episode)長度的長時(shí)程(long-horizon) LLM-Agent 任務(wù)而設(shè)計(jì)。

它在繼承 VeRL 和 BALROG 的基礎(chǔ)上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設(shè)計(jì)原則,引入了一系列專門優(yōu)化手段,從而在任務(wù)跨度從短暫交互到數(shù)百回合時(shí),依然能夠?qū)崿F(xiàn)穩(wěn)定而高效的訓(xùn)練。

以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務(wù),verl-agent 則可擴(kuò)展至 50 回合。而 Verlog 則被設(shè)計(jì)用于超過 400 回合的環(huán)境,使其在復(fù)雜的長期決策任務(wù)中具備獨(dú)特優(yōu)勢。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領(lǐng)域得到驗(yàn)證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰(zhàn)的環(huán)境中,Verlog 都能夠開箱即用地展現(xiàn)出強(qiáng)勁的性能。



  • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
  • 項(xiàng)目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



方法介紹

基礎(chǔ)模型

在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構(gòu)建。

這樣做主要有兩個(gè)原因:

一是,它可以與 BALROG 無縫集成(BALROG 是一個(gè)旨在評估 Instruct 模型在一系列基準(zhǔn)測試中零樣本性能的框架);

其次,它允許研究者可以直接使用基準(zhǔn)測試提示,而無需太多修改。



BabyAI 使用的提示模板

記憶機(jī)制

本文不是將整個(gè)軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個(gè)回合。

這樣做帶來的影響是,對于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時(shí)達(dá)到峰值,而當(dāng) n 增加到 4 或 8 時(shí)性能下降。

作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當(dāng) n = 8 時(shí),提示詞長度約為 4600 個(gè) token。

不過,這一趨勢是否適用于更大規(guī)模的模型,仍待研究。

Dual Discounting GAE 算法





此外,本文 GAE 是遞歸計(jì)算的:



其中,



遞歸從最后一輪的最后一個(gè) token 開始,向后進(jìn)行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個(gè) token,并繼續(xù)遞歸執(zhí)行此過程。在此過程中,所有狀態(tài) token 都會被跳過。

實(shí)驗(yàn)結(jié)果

該研究在三個(gè)頗具挑戰(zhàn)性的基準(zhǔn)上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實(shí)驗(yàn)?zāi)P桶?Qwen2.5-Instruct 。



在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓(xùn)練了大約 36 小時(shí)。此外,針對 BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓(xùn)練約 24 小時(shí)。

三個(gè)實(shí)驗(yàn)環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓(xùn)練能力,不管是在長周期、稀疏獎(jiǎng)勵(lì),還是在可變 episode 長度條件下。這也證明了該框架能自然適應(yīng)從短周期到超長周期多回合任務(wù)的規(guī)模化訓(xùn)練。

總結(jié)

Verlog 針對在構(gòu)建長時(shí)程、多回合任務(wù)的 LLM Agent 時(shí)面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

  • 長交互歷史的處理:通過記憶機(jī)制和回合級抽象來管理歷史信息。
  • 稀疏獎(jiǎng)勵(lì)下的訓(xùn)練穩(wěn)定性:結(jié)合 dual-discounting GAE 和價(jià)值函數(shù)預(yù)訓(xùn)練來增強(qiáng)穩(wěn)定性。
  • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價(jià)值估計(jì)來處理變長軌跡。
  • 提升動作有效性:利用針對性的提示工程和默認(rèn)動作替換,使訓(xùn)練過程中 >95% 的動作均為有效動作。

作者表示,Verlog 的定位是一個(gè)靈活的研究平臺,目的是推動長時(shí)程 LLM-Agent 強(qiáng)化學(xué)習(xí)的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重溫1999:西方媒體報(bào)道的炸館“另一面”,17名軍事顧問遇難?

重溫1999:西方媒體報(bào)道的炸館“另一面”,17名軍事顧問遇難?

干史人
2026-02-27 11:00:05
多位院士共識:低密度脂蛋白在安全值,無需用藥降脂

多位院士共識:低密度脂蛋白在安全值,無需用藥降脂

醫(yī)學(xué)科普匯
2026-03-28 22:55:03
3月1日起全國已統(tǒng)一執(zhí)行!公職人員被戴緊箍咒,老百姓迎來大便利

3月1日起全國已統(tǒng)一執(zhí)行!公職人員被戴緊箍咒,老百姓迎來大便利

阿器談史
2026-03-28 19:10:13
4天3場大三雙!79+53+48,這數(shù)據(jù)找不出第二個(gè)了.....

4天3場大三雙!79+53+48,這數(shù)據(jù)找不出第二個(gè)了.....

柚子說球
2026-03-28 21:17:59
為什么中國不軍事援助伊朗?看完發(fā)現(xiàn),印度三哥才是最牛逼的

為什么中國不軍事援助伊朗?看完發(fā)現(xiàn),印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
真是U23?朝鮮3天2場首發(fā)不變?nèi)辕偱苋珗?壓制國足 8塊腹肌引熱議

真是U23?朝鮮3天2場首發(fā)不變?nèi)辕偱苋珗?壓制國足 8塊腹肌引熱議

我愛英超
2026-03-28 22:57:12
上萬民眾送別張雪峰,汪涵李陽現(xiàn)身追悼會,女兒缺席母親悲痛欲絕

上萬民眾送別張雪峰,汪涵李陽現(xiàn)身追悼會,女兒缺席母親悲痛欲絕

壹月情感
2026-03-28 18:00:23
54歲瞿穎已婚實(shí)錘!丈夫身份曝光超意外

54歲瞿穎已婚實(shí)錘!丈夫身份曝光超意外

眼底星碎
2026-03-26 13:47:18
32分慘案!馬刺7人上雙打崩對手:全場鴉雀無聲,文班轟23+15+6

32分慘案!馬刺7人上雙打崩對手:全場鴉雀無聲,文班轟23+15+6

體壇小李
2026-03-29 07:09:39
馬筱梅深夜曬孩子,汪寶在她懷里呼呼大睡,又萌又可愛畫面好溫馨

馬筱梅深夜曬孩子,汪寶在她懷里呼呼大睡,又萌又可愛畫面好溫馨

老吳教育課堂
2026-03-28 17:11:22
伊朗威脅要對海灣地區(qū)的美國大學(xué)進(jìn)行報(bào)復(fù)性襲擊

伊朗威脅要對海灣地區(qū)的美國大學(xué)進(jìn)行報(bào)復(fù)性襲擊

一種觀點(diǎn)
2026-03-29 09:05:51
萊卡,破產(chǎn)了

萊卡,破產(chǎn)了

放毒
2026-03-28 23:42:18
委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來了報(bào)應(yīng)

委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來了報(bào)應(yīng)

松林侃世界
2026-03-28 15:09:14
張雪峰追悼會:家屬痛哭,遺容黑眼圈遮不住,送別人群排隊(duì)數(shù)公里

張雪峰追悼會:家屬痛哭,遺容黑眼圈遮不住,送別人群排隊(duì)數(shù)公里

叨嘮
2026-03-29 01:34:16
合肥野生動物園泉山新址“泡湯”?社區(qū):去年7月已暫停,暫無新消息

合肥野生動物園泉山新址“泡湯”?社區(qū):去年7月已暫停,暫無新消息

極目新聞
2026-03-28 17:17:59
張雪峰員工:他走了,留下一堆很難接手的攤子...

張雪峰員工:他走了,留下一堆很難接手的攤子...

芳華青年
2026-03-28 22:19:24
比賴清德更狂的人出現(xiàn)了,只要她當(dāng)上臺灣領(lǐng)導(dǎo)人,我軍必定收臺

比賴清德更狂的人出現(xiàn)了,只要她當(dāng)上臺灣領(lǐng)導(dǎo)人,我軍必定收臺

懵面女漢
2026-03-29 06:11:43
別再自欺欺人了,護(hù)工說出實(shí)話:進(jìn)養(yǎng)老院的老人,很少能再回家

別再自欺欺人了,護(hù)工說出實(shí)話:進(jìn)養(yǎng)老院的老人,很少能再回家

文青大叔說
2026-02-23 09:22:42
2026嚴(yán)查違規(guī)雙薪!機(jī)關(guān)退休人員兼職務(wù)必守紅線

2026嚴(yán)查違規(guī)雙薪!機(jī)關(guān)退休人員兼職務(wù)必守紅線

小鹿姐姐情感說
2026-03-27 00:20:23
4月去醫(yī)院看病!必帶3樣?xùn)|西,少帶一樣報(bào)銷都虧,別不當(dāng)回事兒

4月去醫(yī)院看病!必帶3樣?xùn)|西,少帶一樣報(bào)銷都虧,別不當(dāng)回事兒

我不叫阿哏
2026-03-29 07:01:00
2026-03-29 09:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

健康
親子
本地
藝術(shù)
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

醫(yī)院設(shè)兒童智能輸液椅,看動畫9元/小時(shí)引家長不滿投訴

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國拍賣會,滿紙崢嶸往事......

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版