南京大學(xué)聯(lián)合騰訊團(tuán)隊(duì)破解大語言模型智能體難題

2026-03-20 19:04:15　來源: 至頂AI實(shí)驗(yàn)室

天津舉報(bào)

分享至

這項(xiàng)由南京大學(xué)人工智能學(xué)院聯(lián)合騰訊FiT團(tuán)隊(duì)、香港城市大學(xué)等機(jī)構(gòu)合作完成的研究發(fā)表于2026年3月的預(yù)印本論文平臺(tái)，論文編號為arXiv:2603.08754v1。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為HCAPO（Hindsight Credit Assignment Policy Optimization）的新框架，專門解決大語言模型智能體在復(fù)雜任務(wù)中的信用分配問題。有興趣深入了解的讀者可以通過該論文編號查詢完整技術(shù)文檔。

想象你正在教一個(gè)孩子下象棋。當(dāng)這個(gè)孩子最終贏得比賽時(shí)，你需要告訴他哪些步驟是明智的，哪些是無關(guān)緊要的，甚至是錯(cuò)誤的。這正是當(dāng)前人工智能面臨的一個(gè)核心挑戰(zhàn)：當(dāng)AI智能體完成復(fù)雜任務(wù)時(shí)，如何準(zhǔn)確判斷過程中每一步行動(dòng)的價(jià)值？

目前的大語言模型智能體就像一個(gè)只知道最終結(jié)果的學(xué)生——它們知道任務(wù)成功了，但不清楚成功路徑上哪些步驟真正重要。這種盲目性導(dǎo)致AI在學(xué)習(xí)過程中無法區(qū)分關(guān)鍵決策和冗余動(dòng)作，就好比一個(gè)學(xué)生不知道考試成功是因?yàn)檎J(rèn)真復(fù)習(xí)還是因?yàn)檫\(yùn)氣好，下次就無法重現(xiàn)成功。

這個(gè)問題在需要多步推理和決策的復(fù)雜任務(wù)中尤為突出。比如在網(wǎng)上購物時(shí)，AI需要搜索商品、比較價(jià)格、篩選條件、最終下單，這個(gè)過程可能涉及十幾個(gè)步驟。傳統(tǒng)的訓(xùn)練方法只能告訴AI最終是否成功購買到合適商品，但無法指出具體哪一步搜索最關(guān)鍵，哪次篩選最有效。這種粗糙的反饋機(jī)制嚴(yán)重限制了AI的學(xué)習(xí)效率。

研究團(tuán)隊(duì)提出的HCAPO框架巧妙地解決了這個(gè)難題，它的核心思想是讓AI學(xué)會(huì)"事后諸葛亮"——當(dāng)任務(wù)完成后，AI會(huì)重新審視整個(gè)決策過程，結(jié)合最終成功的結(jié)果來重新評估每個(gè)步驟的價(jià)值。這種后見之明的分析能夠幫助AI準(zhǔn)確識別哪些行動(dòng)真正推動(dòng)了任務(wù)成功，哪些只是無關(guān)的噪音。

一、傳統(tǒng)方法的局限性：盲人摸象般的學(xué)習(xí)困境

當(dāng)前主流的AI訓(xùn)練方法面臨著類似"盲人摸象"的困境。現(xiàn)有的GRPO（Group Relative Policy Optimization）等方法就像一個(gè)只能看到故事結(jié)尾的讀者，雖然知道故事是喜劇還是悲劇，但完全不清楚情節(jié)發(fā)展的起伏轉(zhuǎn)折。

具體來說，傳統(tǒng)方法存在兩個(gè)根本性缺陷。第一個(gè)問題是步驟級評估的不準(zhǔn)確性。當(dāng)AI完成一個(gè)包含多個(gè)步驟的任務(wù)時(shí)，傳統(tǒng)方法會(huì)將最終的成功獎(jiǎng)勵(lì)平均分配給所有步驟，就像給一個(gè)足球隊(duì)的每個(gè)隊(duì)員發(fā)相同的獎(jiǎng)金，不管他們在比賽中的實(shí)際貢獻(xiàn)如何。這種做法顯然無法體現(xiàn)不同行動(dòng)的真實(shí)價(jià)值。

第二個(gè)問題是價(jià)值基線的錯(cuò)位。傳統(tǒng)方法使用全局的平均值作為評判標(biāo)準(zhǔn)，這就像用全校學(xué)生的平均成績來評價(jià)每個(gè)年級的表現(xiàn)一樣不合理。在復(fù)雜任務(wù)中，任務(wù)的不同階段具有完全不同的難度和重要性，用統(tǒng)一標(biāo)準(zhǔn)來衡量必然會(huì)產(chǎn)生偏差。

這些局限性在實(shí)際應(yīng)用中造成了嚴(yán)重后果。AI智能體往往會(huì)學(xué)到錯(cuò)誤的經(jīng)驗(yàn)，比如認(rèn)為某些無關(guān)緊要的步驟很重要，或者忽視了真正的關(guān)鍵決策點(diǎn)。更糟糕的是，這種混亂的學(xué)習(xí)信號會(huì)讓AI的行為變得冗長和低效，就像一個(gè)不會(huì)抓重點(diǎn)的學(xué)生，總是在次要問題上花費(fèi)大量時(shí)間。

二、HCAPO的創(chuàng)新思路：讓AI學(xué)會(huì)"復(fù)盤"

HCAPO框架的核心創(chuàng)新在于引入了"后見之明"的概念，讓AI能夠像優(yōu)秀的棋手那樣進(jìn)行復(fù)盤分析。當(dāng)一局棋結(jié)束后，高手總是會(huì)回過頭來分析：如果當(dāng)時(shí)沒有走那步關(guān)鍵的棋，結(jié)果會(huì)如何？哪些看似平常的走法實(shí)際上為最終勝利奠定了基礎(chǔ)？

研究團(tuán)隊(duì)巧妙地讓大語言模型本身充當(dāng)這個(gè)"復(fù)盤分析師"的角色。具體方法是在任務(wù)完成后，將成功的結(jié)果信息重新輸入給模型，然后讓模型重新評估之前每一步行動(dòng)的概率。這種方法被稱為"生成式驗(yàn)證"，它不需要額外的外部模型，而是充分利用了大語言模型本身的推理能力。

這個(gè)過程可以用一個(gè)生動(dòng)的比喻來理解。假設(shè)你在玩一個(gè)解謎游戲，最終成功找到了寶藏。現(xiàn)在，如果有人告訴你寶藏的具體位置，你重新審視之前的每個(gè)選擇時(shí)，就能清晰地判斷出哪些決定真正指向了正確方向，哪些只是碰運(yùn)氣的隨機(jī)嘗試。

HCAPO通過計(jì)算"后見重要性比率"來量化每個(gè)步驟的真實(shí)價(jià)值。如果某個(gè)行動(dòng)在知道最終結(jié)果后看起來更加合理，它的重要性就會(huì)被放大；相反，那些看起來不太相關(guān)的行動(dòng)就會(huì)被抑制。這種機(jī)制能夠自動(dòng)識別出任務(wù)中的關(guān)鍵轉(zhuǎn)折點(diǎn)和決定性行動(dòng)。

三、多尺度優(yōu)化策略：既見樹木又見森林

HCAPO的另一個(gè)重要?jiǎng)?chuàng)新是采用了"多尺度優(yōu)化"策略，這就像同時(shí)用顯微鏡和望遠(yuǎn)鏡來觀察問題一樣。在保持宏觀視野的同時(shí)，也能捕捉到微觀細(xì)節(jié)的重要信息。

宏觀層面的信號來自傳統(tǒng)的軌跡級評估方法，它提供了整體任務(wù)成敗的大方向指導(dǎo)，就像GPS導(dǎo)航中的主要路線規(guī)劃。這個(gè)信號雖然粗糙，但非常穩(wěn)定可靠，確保AI不會(huì)在優(yōu)化過程中偏離正確的大方向。

微觀層面的信號則來自HCAPO的后見分析，它提供了精確的步驟級指導(dǎo)，就像GPS導(dǎo)航中的實(shí)時(shí)路況調(diào)整。這個(gè)信號能夠幫助AI識別出具體哪個(gè)路口轉(zhuǎn)彎最關(guān)鍵，哪段路程可以優(yōu)化。

兩種信號的巧妙融合產(chǎn)生了令人驚喜的協(xié)同效應(yīng)。研究團(tuán)隊(duì)發(fā)現(xiàn)，全局平均值自然地成為了一個(gè)理想的"適應(yīng)性閾值"。對于任務(wù)中的關(guān)鍵突破點(diǎn)，后見分析會(huì)給出高于平均值的評分，從而獲得正向強(qiáng)化；而對于那些無關(guān)緊要的步驟，評分會(huì)低于平均值，從而被適當(dāng)抑制。

這種設(shè)計(jì)的巧妙之處在于它的自適應(yīng)性。隨著任務(wù)的進(jìn)展，系統(tǒng)會(huì)自動(dòng)調(diào)整對不同類型行動(dòng)的關(guān)注度，就像一個(gè)經(jīng)驗(yàn)豐富的教練能夠根據(jù)比賽情況實(shí)時(shí)調(diào)整戰(zhàn)術(shù)重點(diǎn)一樣。

四、實(shí)驗(yàn)驗(yàn)證：三大benchmark全面超越

為了驗(yàn)證HCAPO的有效性，研究團(tuán)隊(duì)在三個(gè)具有挑戰(zhàn)性的測試環(huán)境中進(jìn)行了全面比較。這些測試就像為AI安排的"綜合素質(zhì)考試"，涵蓋了不同類型的復(fù)雜決策任務(wù)。

在ALFWorld環(huán)境中，AI需要在虛擬家庭中完成各種日常任務(wù)，比如清潔物品、烹飪食物、整理房間等。這個(gè)環(huán)境特別考驗(yàn)AI的多步推理和空間導(dǎo)航能力。測試結(jié)果顯示，使用Qwen2.5-7B模型時(shí)，HCAPO將成功率從77.6%提升到91.4%，相當(dāng)于提高了13.8個(gè)百分點(diǎn)。更令人印象深刻的是，在應(yīng)用了時(shí)間平滑技術(shù)后，同樣的模型達(dá)到了96.9%的近乎完美表現(xiàn)。

WebShop環(huán)境模擬了真實(shí)的電商購物場景，AI需要在HTML網(wǎng)頁中搜索商品、比較價(jià)格、篩選屬性，最終找到符合要求的商品。在這個(gè)更接近真實(shí)應(yīng)用的環(huán)境中，HCAPO同樣表現(xiàn)出色，將7B模型的成功率從66.1%提升到73.8%，平均得分從79.3提高到85.1。

在搜索增強(qiáng)的問答任務(wù)中，AI需要通過多輪搜索來收集信息并回答復(fù)雜問題。這個(gè)任務(wù)特別考驗(yàn)AI的信息整合和推理能力。HCAPO在7B模型上達(dá)到了48.3%的平均成功率，在多個(gè)數(shù)據(jù)集上都超過了現(xiàn)有的強(qiáng)基線方法。

更有趣的是，研究團(tuán)隊(duì)還觀察到了AI行為的質(zhì)量改善。在訓(xùn)練過程中，HCAPO能夠逐漸減少冗余行動(dòng)的比例，讓AI的決策變得更加簡潔高效。平均軌跡長度從7.8步縮短到5.8步，這意味著AI學(xué)會(huì)了更直接地解決問題，避免了不必要的繞路。

五、技術(shù)突破的深層機(jī)制：自適應(yīng)信用分配

HCAPO之所以能夠取得如此顯著的改進(jìn)，關(guān)鍵在于它解決了一個(gè)基礎(chǔ)性的技術(shù)難題：如何在不依賴外部模型的情況下，準(zhǔn)確估計(jì)每個(gè)行動(dòng)的后見重要性。

傳統(tǒng)的后見信用分配方法需要訓(xùn)練專門的模型來預(yù)測"如果知道最終結(jié)果，每個(gè)行動(dòng)的合理性如何"。這種方法不僅計(jì)算代價(jià)高昂，還容易產(chǎn)生預(yù)測偏差。HCAPO巧妙地繞過了這個(gè)困難，直接利用大語言模型本身的推理能力。

具體操作方式是這樣的：當(dāng)任務(wù)成功完成后，系統(tǒng)會(huì)將成功結(jié)果作為額外信息加入到原始的決策上下文中，然后讓模型重新計(jì)算每個(gè)已執(zhí)行行動(dòng)的概率。這就像讓一個(gè)象棋大師在知道最終獲勝后，重新評估每一步棋的質(zhì)量。

為了解決概率計(jì)算的技術(shù)難題，研究團(tuán)隊(duì)引入了"自歸一化重要性比率估計(jì)"方法。由于語言的組合空間過于龐大，直接計(jì)算所有可能行動(dòng)的概率分布是不現(xiàn)實(shí)的。HCAPO通過在軌跡內(nèi)部進(jìn)行歸一化來近似這個(gè)分布，就像用樣本均值來估計(jì)總體均值一樣。

這種設(shè)計(jì)還帶來了一個(gè)意想不到的好處：計(jì)算效率的顯著提升。與需要逐步生成文本的傳統(tǒng)方法不同，后見評估只需要計(jì)算已有文本的概率，這個(gè)過程可以并行化處理，大大減少了計(jì)算時(shí)間。實(shí)驗(yàn)數(shù)據(jù)顯示，后見分析僅占總訓(xùn)練時(shí)間的8.3%，這個(gè)開銷是完全可以接受的。

六、理論基礎(chǔ)的創(chuàng)新洞察：跨狀態(tài)歸一化的智慧

HCAPO的一個(gè)重要理論創(chuàng)新是"跨狀態(tài)歸一化"機(jī)制的合理性證明。乍一看，用來自不同狀態(tài)的數(shù)據(jù)來計(jì)算統(tǒng)一的歸一化基線似乎是不合理的，就像用不同地區(qū)的房價(jià)平均值來評估某個(gè)特定小區(qū)的房價(jià)一樣。

然而，研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)分析證明，在多步?jīng)Q策任務(wù)中，這種看似粗糙的方法實(shí)際上具有深刻的理論合理性。關(guān)鍵洞察在于：全局平均值自然地反映了任務(wù)中"瓶頸狀態(tài)"和"普通狀態(tài)"之間的價(jià)值差異。

具體來說，在復(fù)雜任務(wù)中通常存在一些關(guān)鍵的"突破點(diǎn)"，一旦成功通過這些點(diǎn)，任務(wù)成功的概率會(huì)大幅提升。全局平均值恰好落在突破前的"低價(jià)值區(qū)間"和突破后的"高價(jià)值區(qū)間"之間，從而成為一個(gè)天然的分界線。

這個(gè)發(fā)現(xiàn)頗有哲學(xué)意味：看似簡單粗暴的全局平均值，實(shí)際上蘊(yùn)含著任務(wù)結(jié)構(gòu)的深層信息。它自動(dòng)適應(yīng)了任務(wù)的內(nèi)在復(fù)雜度，無需人工設(shè)計(jì)復(fù)雜的狀態(tài)分類規(guī)則。

更進(jìn)一步，研究團(tuán)隊(duì)證明了HCAPO的復(fù)合優(yōu)勢機(jī)制能夠在保持全局穩(wěn)定性的同時(shí)，為關(guān)鍵決策點(diǎn)提供精確的學(xué)習(xí)信號。這就像在保持整體戰(zhàn)略方向不變的前提下，對具體戰(zhàn)術(shù)細(xì)節(jié)進(jìn)行精細(xì)調(diào)優(yōu)。

七、實(shí)用價(jià)值與計(jì)算效率：理想與現(xiàn)實(shí)的平衡

HCAPO不僅在理論上令人信服，在實(shí)際應(yīng)用中也展現(xiàn)出了良好的實(shí)用性。計(jì)算效率分析顯示，新增的后見分析步驟在整個(gè)訓(xùn)練流程中占比很小，這意味著用戶可以在不顯著增加計(jì)算成本的前提下獲得性能提升。

更重要的是，HCAPO的設(shè)計(jì)考慮了現(xiàn)實(shí)部署的需要。它不需要額外的標(biāo)注數(shù)據(jù)，不依賴外部模型，也不需要針對特定任務(wù)進(jìn)行復(fù)雜的超參數(shù)調(diào)優(yōu)。這種"開箱即用"的特性對于實(shí)際應(yīng)用具有重要意義。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：HCAPO的效果隨著模型規(guī)模的增大而提升。從1.5B到7B參數(shù)的測試結(jié)果顯示，更大的模型能夠更好地利用后見信息進(jìn)行準(zhǔn)確的價(jià)值評估。這暗示著隨著大語言模型能力的不斷提升，HCAPO的優(yōu)勢可能會(huì)變得更加明顯。

為了進(jìn)一步提升在復(fù)雜任務(wù)中的表現(xiàn)，研究團(tuán)隊(duì)還提出了"時(shí)間平滑"機(jī)制。這個(gè)技術(shù)解決了一個(gè)微妙但重要的問題：在嚴(yán)格的因果鏈任務(wù)中，最終的成功行動(dòng)往往容易被識別，但早期的準(zhǔn)備性行動(dòng)可能被低估。時(shí)間平滑通過讓成功信號向前傳播，確保那些為最終突破奠定基礎(chǔ)的早期決策也能得到應(yīng)有的認(rèn)可。

八、未來展望：智能代理的新篇章

HCAPO的成功不僅僅是一個(gè)技術(shù)突破，更重要的是它為智能代理的發(fā)展指出了新方向。這項(xiàng)研究表明，我們不需要復(fù)雜的外部監(jiān)督機(jī)制，也不需要昂貴的人工標(biāo)注，就能顯著提升AI在復(fù)雜任務(wù)中的學(xué)習(xí)效率。

這種"自我反思"的學(xué)習(xí)機(jī)制與人類的認(rèn)知過程有著驚人的相似性。優(yōu)秀的人類學(xué)習(xí)者總是善于在完成任務(wù)后進(jìn)行復(fù)盤，分析哪些決策是關(guān)鍵的，哪些經(jīng)驗(yàn)值得保留。HCAPO將這種元認(rèn)知能力引入到了人工智能系統(tǒng)中。

從更廣闊的視角來看，HCAPO代表了一種新的AI訓(xùn)練范式：從依賴外部指導(dǎo)轉(zhuǎn)向內(nèi)在自省，從粗糙的全局獎(jiǎng)勵(lì)轉(zhuǎn)向精細(xì)的步驟分析，從被動(dòng)學(xué)習(xí)轉(zhuǎn)向主動(dòng)思考。這種轉(zhuǎn)變可能會(huì)推動(dòng)整個(gè)人工智能領(lǐng)域朝著更加自主、高效的方向發(fā)展。

當(dāng)然，這項(xiàng)研究也還存在一些局限性。HCAPO的效果在一定程度上依賴于基礎(chǔ)模型的推理能力，對于較小的模型，后見分析的準(zhǔn)確性可能有限。此外，在某些對抗性環(huán)境中，后見信息可能會(huì)引入一定的偏差，這需要在未來的研究中進(jìn)一步探索和完善。

說到底，HCAPO為我們展示了人工智能領(lǐng)域的一個(gè)重要趨勢：通過更好地利用模型本身的能力，而不是依賴外部的復(fù)雜工程，我們可以實(shí)現(xiàn)更優(yōu)雅、更高效的解決方案。這種思路不僅在技術(shù)上更加簡潔，在實(shí)用性上也更加可行。隨著大語言模型能力的不斷提升，基于內(nèi)在推理的優(yōu)化方法很可能會(huì)成為未來AI發(fā)展的主要方向之一。對于那些希望在復(fù)雜決策任務(wù)中部署AI系統(tǒng)的開發(fā)者和研究者來說，HCAPO提供了一個(gè)強(qiáng)有力的工具，讓AI不僅能夠完成任務(wù)，更能夠理解完成任務(wù)的真正原因。

Q&A

Q1：HCAPO與傳統(tǒng)的GRPO方法有什么根本區(qū)別？

A：HCAPO的核心區(qū)別是引入了"事后諸葛亮"機(jī)制。傳統(tǒng)GRPO方法只能告訴AI最終成功或失敗，無法區(qū)分過程中每步的重要性，就像給足球隊(duì)員平均分配獎(jiǎng)金。而HCAPO讓AI在任務(wù)完成后重新審視每個(gè)決策，結(jié)合成功結(jié)果來判斷哪些步驟真正關(guān)鍵，哪些只是無關(guān)噪音，從而實(shí)現(xiàn)精準(zhǔn)的價(jià)值分配。

Q2：為什么HCAPO能在不增加太多計(jì)算成本的情況下提升性能？

A：HCAPO的巧妙之處在于復(fù)用了大語言模型本身的推理能力，不需要訓(xùn)練額外的外部模型。后見分析只需要計(jì)算已有文本的概率而不用重新生成，這個(gè)過程可以并行處理，效率很高。實(shí)驗(yàn)顯示后見分析僅占總訓(xùn)練時(shí)間的8.3%，這個(gè)開銷完全可以接受，但帶來的性能提升卻非常顯著。

Q3：HCAPO適用于哪些類型的AI任務(wù)？

A：HCAPO特別適合需要多步推理和決策的復(fù)雜任務(wù)，比如網(wǎng)購搜索、家務(wù)機(jī)器人、問答系統(tǒng)等。這些任務(wù)的共同特點(diǎn)是有明確的成功標(biāo)準(zhǔn)，但成功路徑包含多個(gè)步驟，而傳統(tǒng)方法難以判斷哪些步驟真正重要。只要任務(wù)有清晰的最終結(jié)果反饋，HCAPO就能幫助AI學(xué)會(huì)區(qū)分關(guān)鍵決策和冗余動(dòng)作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.