![]()
AI正在走向“為了采取正確行動而思考”。
編譯整理|莘歆
來源 | 盒飯財經(ID:daxiongfan)
頭圖及封面來源 | 網絡及即夢制作
在X(推特)上宣布離職后的22天,林俊旸發(fā)了一篇長文。
3月26日晚,作為前阿里通義千問 Qwen 負責人,林俊旸這篇題為《從“推理式思考”到“智能體式思考”》(From "Reasoning" Thinking to "Agentic" Thinking)的文章,是他從阿里離職后首次公開發(fā)表的長文。
![]()
圖片來源:X 截圖
長文中提到,過去兩年,OpenAI o1和DeepSeek R1證明了AI能夠在“回答之前先思考”,而不是“脫口而出”。但在林俊旸看來,這種范式目前正在發(fā)生轉移,AI的重心正在從“推理式思考”走向“智能體式思考”。
簡單來說就是,AI從最初的“簡單回答問題”到“為了給出正確答案,先思考再回答問題”,到如今正在走向“為了采取正確行動而思考”,即目標發(fā)生了轉移。
在阿里任職期間,林俊旸主導了從 Qwen-7B 到 Qwen-2.5 這一系列模型的研發(fā),是阿里云大模型“通義千問(Qwen)”的技術總指揮。3月4日,林俊旸在X上發(fā)文稱“me stepping down. bye my beloved qwen.”(我卸任了。再見了,我深愛的千問。)林俊旸正式從阿里離職。
林俊旸此次發(fā)布的這篇長文約4500字,主要探討了人工智能從“推理思考”(Reasoning Thinking)向“智能體思考”(Agentic Thinking)的演進趨勢,并分析了這一轉變背后的技術挑戰(zhàn)與未來方向。
截止發(fā)稿前,該文章已經獲得將近40萬的瀏覽量和兩千多的點贊收藏。評論區(qū)的討論也很火爆,一位LLM研究人員表示“只有通過人為干預/協(xié)調智能體和工具,而不是讓LLM完全掌控整個流程,這樣自動化才會成為可能。”另外一位生物學專業(yè)出身的人工智能研究者同樣也表示“模型存在掌握了信息,卻不愿采取行動”的情況。
![]()
圖片來源:X 截圖
林俊旸的這一思考與論點獲得了Grok研發(fā)工程師Ethan He等諸多專業(yè)人士的認同和支持。
以下是原文,有編譯:
過去兩年來,徹底重塑了我們評估模型的方式,也改變了我們對模型的期望。
OpenAI 的 o1 表明,“思考”可以成為一流的能力,一種你可以為之訓練并向用戶展示的能力。DeepSeek R1 證明,推理式的后訓練(post-training)可以在原始實驗室之外被復現和擴展。OpenAI 將 o1 描述為一個通過強化學習訓練的模型,它會在“回答之前先思考”。DeepSeek則將 R1 定位為一個與 o1 具有競爭力的開源推理模型。
那個階段很重要。但2025年上半年主要圍繞的是推理式思考:如何讓模型消耗更多的推理期算力,如何用更強的獎勵來訓練它們,以及如何展示或控制這些額外的推理投入。現在的問題是接下來會怎樣。
我相信答案是智能體式思考:為了行動而思考,在與環(huán)境交互的同時進行思考,并根據來自現實世界的反饋不斷更新計劃。
![]()
o1與R1的興起真正教會了我們什么
第一波推理模型教會了我們:如果我們想在語言模型中擴展強化學習,我們需要確定性、穩(wěn)定且可擴展的反饋信號。數學、代碼、邏輯和其他可驗證的領域變得至關重要,因為在這些場景中的獎勵比通用的偏好監(jiān)督要強得多。
它們讓強化學習能夠針對正確性而非表面合理性進行優(yōu)化。基礎設施變得至關重要。
一旦一個模型被訓練成能夠通過更長的軌跡進行推理,強化學習就不再是監(jiān)督微調(SFT)的一個輕量級附加組件了。它變成了一個系統(tǒng)問題:你需要大規(guī)模的推演(rollouts)、高吞吐量的驗證、穩(wěn)定的策略更新和高效的采樣。
推理模型的出現,既是一個建模領域的故事,也是一個基礎設施領域的故事。
OpenAI將o1描述為一條用強化學習訓練的推理產品線,而DeepSeek R1隨后通過展示基于推理的強化學習需要多少專門的算法和基礎設施工作,進一步鞏固了這一方向。第一次大轉變是:從擴展預訓練走向為推理擴展后訓練。
![]()
真正的問題,從來不只是“合并思考與指令”
2025 年初,我們Qwen團隊的許多人都懷揣著一個宏大的構想:理想的系統(tǒng),將統(tǒng)一思考(thinking)和指令(instruct)模式。它會支持可調節(jié)的推理投入,類似于低/中/高推理設置。
更理想的情況是,它會從提示詞和上下文中自動推斷出合適的推理量,這樣模型就能決定何時立即回答,何時思考更長時間,以及何時在真正困難的問題上投入多得多的計算量。
從概念上講,這是正確的方向。
Qwen3是最清晰的公開嘗試之一。它引入了“混合思考模式”,在同一個模型家族中支持思考和非思考行為,強調可控的思考預算,并描述了一個四階段的后訓練流程:該流程在長鏈式思維(long-CoT)冷啟動和推理強化學習之后,明確包含了“思維模式融合”這一步。
但融合說起來容易,做起來難。難點在于數據。
當人們談論合并思考和指令時,他們通常首先考慮的是模型側的兼容性:一個檢查點(checkpoint)能否同時支持兩種模式,一個對話模板能否在兩者間切換,一套推理服務架構能否提供正確的切換開關。更深層次的問題是,這兩種模式的數據分布和行為目標有著本質的區(qū)別。
在試圖平衡模型合并與提升后訓練數據的質量和多樣性時,我們并沒有做對所有事情。修正過程中,我們也密切關注了用戶實際上是如何使用思考和指令模式的。一個強指令模型通常因其直接、簡潔、符合格式要求、在處理重復性、高并發(fā)的企業(yè)任務(如重寫、標注、模板化支持、結構化提取和運營QA)時低延遲而受到青睞。一個強思考模型則因其在難題上花更多Token、保持連貫的中間推理結構、探索替代路徑、并保留足夠的內部計算以切實提升最終正確率而受到青睞。
這兩種行為特征是相互沖突的。
如果合并的數據沒有經過精心篩選,結果通常是在兩方面都表現平庸:“思考”行為變得嘈雜、臃腫或不夠果斷,而“指令”行為則變得不夠干脆與可靠,并且比商業(yè)用戶實際想要的成本更高。
實踐中,分離仍然具有吸引力。2025年下半年,繼Qwen3最初的混合架構之后,2507產品線發(fā)布了區(qū)分明確的Instruct(指令)和Thinking(思考)更新,包括各自獨立的30B和235B版本。
在商業(yè)部署中,大量客戶仍然希望為批量操作提供高吞吐量、低成本、高度可控的指令行為。這些場景中,合并并沒有明顯的好處。將產品線分離使得團隊能夠更純粹地專注于解決每種模式的數據和訓練問題。
其他實驗室選擇了相反的路徑。
Anthropic 公開主張一種集成的模型理念:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API用戶可以設置思維預算。Anthropic 明確表示,他們認為推理應該是一種整合能力,而不是一個單獨的模型。GLM-4.5 也公開定位為一個混合推理模型,兼具思考和非思考模式,統(tǒng)一了推理、編碼和代理能力;DeepSeek后來在V3.1的“思考與非思考”(Think & Non-Think)混合推理中也走向了類似的發(fā)展方向。
關鍵問題在于合并是否是“有機”。
如果思考模式和指令模式僅僅是共存于同一個檢查點內,但行為上仍然像兩個生硬拼湊的人格,那么產品體驗仍然不自然。一個真正成功的合并需要推理投入的平滑過渡。模型應該能夠表達多個級別的投入度,并且最好能夠自適應地在它們之間做出選擇。GPT風格的投入控制指向了這一點:一種對計算量的策略控制,而不是一個二元開關。
![]()
為什么Anthropic的方向是一次有用的糾偏
Anthropic 圍繞 Claude 3.7 和 Claude 4 的公開表述是克制的。他們強調集成推理、用戶控制的思考預算、現實世界任務、代碼質量,以及后來在擴展思考期間使用工具的能力。Claude 3.7 被呈現為一個具有可控預算的混合推理模型;Claude 4擴展了這一點,允許推理與工具使用交替進行,同時Anthropic強調將編程、長時間運行的任務和智能體工作流作為主要目標。
生成更長的推理軌跡并不會自動讓模型變得更聰明。在很多情況下,過度可見的推理表明資源分配薄弱。如果模型試圖以同樣冗長的方式對所有事情進行推理,它可能是在優(yōu)先級排序上失敗、在壓縮上失敗,或在采取行動上失敗。
Anthropic的發(fā)展軌跡暗示了一種更嚴謹的觀點:思考應該由目標工作負載來塑造。如果目標是編程,那么思考應該有助于代碼庫導航、規(guī)劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流,那么思考的價值應當體現在提升長跨度任務的執(zhí)行質量上,而非生成那些看似驚艷、實則冗余的中間文字。
這種對針對性效用(Targeted Utility)的強調,實際上指向了一個更宏大的命題:我們正在從訓練模型的時代走向訓練智能體的時代。我們在Qwen3的博客中明確了這一點,當時寫的是“我們正在從一個專注于訓練模型的時代過渡到一個以訓練智能體為中心的時代”。同時,為了實現長鏈路推理,我們將未來強化學習的進步和環(huán)境反饋聯系在了一起。
智能體是一個在長時間周期內持續(xù)運作的系統(tǒng),它能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋和修正策略。它的這個定義是由與世界的閉環(huán)交互決定的。
![]()
“智能體式思考”到底意味著什么
智能體式思考與推理式思考是兩個不同的優(yōu)化目標。
推理式思考通常由給出最終答案前的內部推理質量來判斷,比如模型能解出定理、寫出證明、生成正確的代碼或通過基準測試嗎?智能體式思考關乎的則是模型在與環(huán)境交互時能否不斷取得進展。
核心問題從“模型能思考足夠久嗎?” 轉變?yōu)椤澳P湍芊褚砸环N維持有效行動的方式進行思考?”
智能體式思考必須處理幾件純推理模型大多可以避免的事情:
(1)決定何時停止思考并采取行動。
(2)選擇調用哪個工具以及以何種順序調用。
(3)引入來自環(huán)境的帶噪(Noisy)或部分(Partial)觀測。
(4)在失敗后修正計劃。
(5)在多輪對話和多次工具調用中保持連貫性。
(6)智能體式思考是一個模型通過行動進行推理的過程。
![]()
為什么智能體強化學習的基礎設施更難
這是因為一旦目標從解決基準測試問題轉向解決交互式任務,強化學習技術棧(整套技術方案)就會發(fā)生改變。
用于傳統(tǒng)推理強化學習的基礎架構已經不夠用了。在推理強化學習中,采樣往往是一條條獨立的路徑,而且判斷好壞的標準非常直接、不含糊。
但在智能體強化學習中,策略(智能體的“決策大腦”)被嵌入在一個更大的框架(harness)中,這個框架包括工具服務器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和編排框架。環(huán)境不再是一個靜態(tài)的驗證器,它是訓練系統(tǒng)的一部分。
這帶來了一個新的系統(tǒng)要求:訓練和推理必須更加徹底地解耦。
如果沒有這種解耦,推演的吞吐量就會崩潰。以一個需要在實時測試環(huán)境下運行代碼的代碼智能體為例,推理端會因為等待執(zhí)行反饋而陷入停滯,訓練端則因拿不到完整的軌跡數據而處于“饑餓”狀態(tài),導致整個流水線的GPU利用率遠低于傳統(tǒng)推理強化學習的預期水平。加上工具延遲、部分可觀測性和復雜多變的環(huán)境,會進一步放大這些低效問題。結果就是,在遠未達到預定的能力水平之前,實驗進程就已經放緩,且變得步履維艱。
在智能體強化學習中,環(huán)境本身也成為了一個一流的研究對象。
在監(jiān)督微調(SFT)時代,我們癡迷于數據多樣性。在智能體時代,我們應該癡迷于環(huán)境質量,如穩(wěn)定性、真實性、覆蓋率、難度、狀態(tài)的多樣性、反饋的豐富性、抗作弊(漏洞利用)能力等,以及推理的可擴展性。環(huán)境構建已經開始成為一個真正的創(chuàng)業(yè)賽道,而不僅僅是一個副業(yè)項目。如果訓練智能體的目的是為了讓它在類生產環(huán)境中運行,那么環(huán)境(構建)本身就是其核心能力棧的一部分。
![]()
下一個前沿是關于更具實用性的思考
我的預期是,智能體式思考將成為主流的思考形式。
我認為它最終可能會取代大部分舊式的靜態(tài)獨白版推理思考,即試圖通過輸出越來越多的文本來彌補缺乏交互的、冗長的、孤立的內部推理。即使是在非常困難的數學或編程任務上,一個真正先進的系統(tǒng)也應該有權搜索、模擬、執(zhí)行、檢查、驗證和修正。只要最終目標是穩(wěn)健且高效地解決問題。
但訓練這類系統(tǒng)面臨著一個最艱巨的挑戰(zhàn)——獎勵作弊(reward hacking)。一旦模型獲得了有意義的工具訪問權限,獎勵作弊就會變得更加危險。一個帶有搜索功能的模型可能會學會在強化學習過程中直接查找答案。一個編程智能體可能會利用代碼庫中的“未來信息”、違規(guī)調取日志,或是通過尋找“邏輯捷徑”,從而導致整個測試任務失效。
一個存在隱藏漏洞的環(huán)境可能使策略看起來像超人,但實際上只是在訓練它去作弊。這正是智能體時代變得比推理時代微妙得多的地方。更好的工具使模型更加有用,但它們也擴大了虛假優(yōu)化的攻擊面。
我們應該預料到,下一個嚴重的研究瓶頸將來自環(huán)境設計、評估器的魯棒性(系統(tǒng)抗折騰的能力)、反作弊協(xié)議,以及策略與現實世界之間更具原則性的接口。盡管如此,方向是明確的。基于工具的思考絕對比孤立的思考更有用,且更有可能提高實際生產力。
智能體式思考(Agentic Thinking)也意味著“Harness 工程”(系統(tǒng)駕馭工程)的興起。核心智能將越來越多地源自于多個智能體的組織方式:由一個統(tǒng)籌者負責規(guī)劃與分發(fā)工作;由專業(yè)智能體充當領域專家;而子智能體則執(zhí)行更細分的操作,同時協(xié)助控制上下文、避免信息污染,并保持不同推理層次間的獨立性。未來的趨勢是從“訓練模型”轉向“訓練智能體”,再從“訓練智能體”轉向“訓練系統(tǒng)”。
![]()
結論
推理浪潮的第一階段確立了一個重要事實:在反饋信號可靠且基礎設施支撐到位的條件下,于語言模型之上引入強化學習(RL),能夠催生出在本質上(質性)更強的認知能力。
更深層次的轉變是從“推理式思考”向“智能體式思考”跨越,即從“思考得更久”轉向了“為行動而思考”。
訓練的核心對象已經發(fā)生了轉移。
現在是“模型+環(huán)境”的綜合系統(tǒng),或者更具體地說,是智能體以及圍繞它的測試框架。這意味著研究的重心,除了模型架構和訓練數據之外,還包括環(huán)境設計、采樣(rollout)基礎設施、評估器的魯棒性,以及多個智能體協(xié)調所依托的接口。它重新定義了什么是“好的思考”:在現實世界的約束下,最能支撐持續(xù)行動的軌跡才是最有用的,而非那些最長或最顯眼的思考過程。
這也改變了核心競爭力的來源。
在推理時代,優(yōu)勢來自于更好的強化學習算法、更強的反饋信號和更具擴展性的訓練流水線。在智能體時代,競爭優(yōu)勢將來自于更好的環(huán)境、更緊密的“訓推一體化(Train-Serve Integration)”、更強的“架構工程(Harness Engineering)”,以及在模型的決策與其產生的結果之間閉環(huán)的能力。
歡迎在評論區(qū)留言~如需開白請加微信:YPYP01234567
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.