夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
林俊旸,離職阿里千問后首次發聲。
他沒有回應離職風波或宣告去向,而是發長文探討從“推理模型時代的思考”到“智能體時代的思考”的轉變。
![]()
整篇文章談的是技術和AI的未來方向,但字里行間對千問技術路線的反思藏不住。
他在文中坦白承認“我們沒有全做對”(We did not get everything right),
![]()
千問團隊曾有一個雄心勃勃的構想:把thinking和instruct兩種模式合并到一個模型里。
Qwen3就是這個方向上“最清晰的公開嘗試之一”,它引入了混合思維模式。
但在今天的林俊旸仍不夠滿意,他覺得最終thinking變得啰嗦且猶豫不決,instruct變得不夠干脆、不夠可靠,還更貴了。
在他看來,真正成功的合并,不是把兩種人格硬塞進一個checkpoint,而是讓模型擁有一個連續的推理努力光譜。
![]()
面對未來,他還給出這樣的判斷:過去兩年Reasoning Thinking時代的使命已經完成了。
OpenAI的o1和DeepSeek-R1證明了推理能力可以被訓練和復現,這教會了整個行業一個關鍵認知:
- 要在語言模型上做強化學習,需要確定性強、可規模化的反饋信號。
2025年上半年開始,大家幾乎都在研究同一件事:怎么讓模型花更多推理時間、怎么訓練更強的獎勵、怎么控制推理的力度。
現在最關鍵的問題是,下一步是什么?
林俊旸的答案是Agentic Thinking,智能體式思維,在與環境的交互中不斷修正計劃。
他列出了Agentic Thinking和Reasoning Thinking的關鍵區別:
- 判斷何時停止思考、開始行動。推理模型輸出完答案就結束了,智能體要在思考和行動之間不斷切換。
- 選擇調用哪個工具、以什么順序。不是簡單的function call,是動態規劃問題。
- 消化來自環境的噪聲和部分觀測。真實世界不會給你完美反饋。
- 失敗后修正計劃,而不是推倒重來。
- 跨越多輪對話和多次工具調用保持連貫。
他用一句話做出總結:
- 從“想更久”到“為了行動而想”。
在林俊旸看來,未來的競爭力不只來自更好的模型,還來自更好的環境設計、更強的harness工程、以及多個智能體之間的編排。
從訓練模型,到訓練智能體,再到訓練系統。
(以下為林俊旸原文翻譯。)
從“推理式思考”到“智能體式思考”
過去兩年,重新定義了我們評估模型的方式和我們對模型的期待。
OpenAI的o1表明,“思考”可以成為一種一等公民級別的能力——一種你專門去訓練、并向用戶開放的能力。
DeepSeek-R1,證明了推理式后訓練可以在原始實驗室之外被復現和規模化。
OpenAI將o1描述為通過強化學習訓練出“先想后答”能力的模型,DeepSeek則將R1定位為與o1具有競爭力的開源推理模型。
![]()
那個階段很重要。
但2025年上半年,行業把大部分精力花在了推理式思考上:怎么讓模型在推理時花更多算力,怎么用更強的獎勵來訓練,怎么暴露或控制這些額外的推理力度。
現在的問題是:下一步是什么?
我認為答案是智能體思考(agentic thinking)——為了行動而思考,在與環境的交互中思考,并根據來自真實世界的反饋持續更新計劃。
1. o1和R1的崛起真正教會了我們什么
第一波推理模型教會了我們:
如果想在語言模型上規模化強化學習,我們需要確定性強、穩定且可擴展的反饋信號。
數學、代碼、邏輯以及其他可驗證領域變得至關重要,因為這些場景中的獎勵信號遠強于通用的偏好監督。
它們讓RL能夠針對正確性進行優化,而非僅追求“看起來合理”。基礎設施變得至關重要。
一旦模型被訓練出在更長軌跡上進行推理的能力,RL就不再是監督微調(SFT)的輕量附加模塊,它變成了一個系統工程問題。
你需要大規模的軌跡采樣(rollout)、高吞吐量的驗證、穩定的策略更新、高效的采樣。
推理模型的崛起,既是一個建模的故事,也同樣是一個基礎設施的故事。
OpenAI將o1描述為一條用RL訓練的推理產品線,DeepSeek R1隨后進一步驗證了這個方向——它展示了基于推理的RL需要多么專門化的算法和基礎設施工作。
第一次重大轉變:從擴展預訓練,到擴展面向推理的后訓練。
2. 真正的問題從來不只是“合并思考和指令”
2025年初,千問團隊中的我們很多人心中都有一幅宏大的藍圖。
理想的系統應當統一思考模式和指令模式。它應支持可調節的推理力度,類似低/中/高推理檔位的設定。
更理想的狀態是,它能從提示和上下文中自動推斷合適的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量計算。
從概念上看,這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。
它引入了“混合思維模式”,在一個模型家族中同時支持思考和非思考行為,強調可控的思維預算,并設計了一條四階段后訓練流水線——在長CoT冷啟動和推理RL之后,明確包含了“思維模式融合”這一步。
![]()
但合并說起來容易做好難,真正的難點是數據。
人們談到合并思考和指令時,往往首先想到的是模型側的兼容性:一個checkpoint能不能同時支持兩種模式,一個對話模板能不能在它們之間切換,一套推理服務架構能不能暴露正確的開關。
更深層的問題是,兩種模式的數據分布和行為目標有本質差異。
在試圖平衡模型合并與提升后訓練數據的質量和多樣性時,我們沒有全做對。
在迭代過程中,我們也密切關注了用戶實際使用思考和指令模式的方式。一個強指令模型通常因簡潔直接、格式規范、低延遲而受到獎勵——尤其是在改寫、標注、模板化支持、結構化提取、運營QA等重復性高、批量大的企業任務上。
一個強思考模型則因在難題上花更多token、保持連貫的中間推理結構、探索替代路徑、并保留足夠的內部計算以切實提升最終正確率而受到獎勵。
這兩種行為模式互相拉扯。
如果合并數據未經精心策劃,結果通常兩邊都做得平庸:“思考”行為變得嘈雜、臃腫或不夠果斷,“指令”行為則變得不夠干脆、不夠可靠,而且比商業用戶實際需要的更貴。
在實踐中,將兩者分離仍然更有吸引力。
2025年下半年,在Qwen3最初的混合框架之后,2507版本發布了獨立的Instruct和Thinking更新,包括分開的30B和235B版本。
在商業部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對這些場景來說,合并的好處并不明顯。分離產品線讓團隊可以更專注地解決每種模式各自的數據和訓練問題。
其他實驗室選擇了相反的路線。
Anthropic公開主張整合模型的理念:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API用戶可以設置思維預算。Anthropic明確表示,他們認為推理應該是一種整合的能力,而非獨立的模型。
GLM-4.5也公開將自身定位為同時具備思考和非思考模式的混合推理模型,統一了推理、編程和智能體能力。
DeepSeek后來也在V3.1的“Think & Non-Think”混合推理中走向了類似方向。
關鍵問題是,這種合并是否是有機的。
如果思考和指令只是被塞進同一個checkpoint,卻仍然像兩個別扭拼接的人格那樣運作,產品體驗仍然是不自然的。
真正成功的合并,需要的是一個流暢的推理力度連續光譜。模型應該能表達多個層級的推理力度,理想情況下還能自適應地做出選擇。
GPT式的力度控制指向了這個方向:一種關于算力分配的策略,而非一個非此即彼的開關。
3. 為什么Anthropic的方向是一次有用的糾偏
Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。
他們強調整合推理、用戶可控的思維預算、真實世界任務、編程質量,以及后來在擴展思考過程中使用工具的能力。Claude 3.7被呈現為一個具有可控預算的混合推理模型;Claude 4在此基礎上更進一步,允許推理與工具使用交替進行,同時Anthropic將編程、長時間運行的任務和智能體工作流強調為首要目標。
產出更長的推理軌跡并不會自動讓模型更聰明。
在很多情況下,過多的可見推理恰恰是算力分配低效的信號。如果模型試圖用同樣啰嗦的方式對所有事情進行推理,它可能是在失敗地確定優先級、失敗地壓縮信息,或者失敗地采取行動。
Anthropic的發展軌跡暗示了一種更有紀律的視角:思考應當由目標工作負載來塑造。
如果目標是編程,那么思考應當幫助代碼庫導航、規劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流,那么思考應當提升長周期內的執行質量,而非產出華麗的中間文字。
這種對目標化效用的強調,指向了更大的圖景:
我們正在從訓練模型的時代走向訓練智能體的時代。
我們在Qwen3博客中明確寫下了這一點——“我們正在從專注于訓練模型的時代,走向以訓練智能體為核心的時代”,并將未來的RL進展與面向長周期推理的環境反饋聯系在一起。
![]()
一個智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長周期內持續運行的系統。它的定義特征是與世界的閉環交互。
4. “智能體式思考”到底意味著什么
智能體式思考是一個不同的優化目標。
推理式思考通常以最終答案之前的內部推理質量來衡量:模型能不能解出定理、寫出證明、生成正確代碼、通過基準測試。智能體式思考則關注的是:模型能不能在與環境交互的過程中持續取得進展。
核心問題從“模型能不能想得足夠久?”轉變為“模型能不能以一種維持有效行動的方式來思考?”智能體式思考必須處理幾件純推理模型大多可以回避的事:
- 決定何時停止思考、采取行動
- 選擇調用哪個工具、以什么順序
- 消化來自環境的噪聲或部分觀測
- 失敗后修正計劃
- 跨越多輪交互和多次工具調用保持連貫
智能體式思考,是通過行動來進行推理的模型。
5. 為什么智能體RL的基礎設施更難
一旦優化目標從解決基準測試問題轉向解決交互式任務,RL技術棧就要跟著變,經典推理RL的基礎設施不夠用了。
在推理RL中,你通常可以將采樣軌跡視為基本自包含的序列,配以相對干凈的評估器。
在智能體RL中,策略被嵌入到一個更大的編排框架(harness)中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API層、記憶系統和調度框架。
環境不再是一個靜態的驗證器,它本身就是訓練系統的一部分。
這帶來了一個新的系統需求:訓練和推理必須更徹底地解耦。
沒有這種解耦,采樣吞吐量就會崩潰。
想象一個編程智能體需要在實時測試框架上執行生成的代碼:推理側因等待執行反饋而停滯,訓練側因缺少已完成軌跡而“饑餓”,整個流水線的GPU利用率遠低于你對經典推理RL的預期。
加上工具延遲、部分可觀測性和有狀態環境,這些低效會被進一步放大。結果就是,在你達到目標能力水平之前很久,實驗就已經慢得令人痛苦了。
環境本身也變成了一等公民級別的研究對象。
在SFT時代,我們癡迷于數據多樣性。在智能體時代,我們應該癡迷于環境質量:穩定性、真實性、覆蓋度、難度、狀態多樣性、反饋豐富度、防作弊能力,以及軌跡生成的可擴展性。
構建環境已經開始變成一個真正的創業賽道,而非副業。如果智能體是為了在類生產環境中運行而訓練的,那么環境就是核心能力棧的一部分。
6. 下一個前沿是更可用的思考
我的預期是,智能體式思考將成為主流的思維形式。
我認為它最終可能取代大部分舊式的“靜態獨白”推理式思考——那些過長的、孤立的內部推理軌跡,試圖通過輸出越來越多的文字來彌補缺乏交互的不足。
即使面對非常困難的數學或編程任務,一個真正先進的系統也應該有權去搜索、模擬、執行、檢查、驗證和修正。目標是穩健且高效地解決問題。
訓練此類系統最大的挑戰是reward hacking(獎勵作弊)。
一旦模型獲得了有意義的工具訪問權限,reward hacking就變得危險得多。
一個能搜索的模型可能學會在RL訓練中直接搜索答案。一個編程智能體可能利用代碼倉庫中的未來信息、濫用日志,或發現讓任務失效的捷徑。一個有隱藏泄漏的環境可能讓策略看起來超越人類水平,實際上卻是在訓練它作弊。
這就是智能體時代變得比推理時代微妙得多的地方。
更好的工具讓模型更有用,但也擴大了虛假優化的攻擊面。
我們應該預期,下一批嚴肅的研究瓶頸將來自環境設計、評估器魯棒性、防作弊協議,以及策略與世界之間更有原則的接口。盡管如此,方向是明確的。工具賦能的思維就是比孤立的思維更有用,也更有可能真正提升生產力。
智能體式思考還意味著編排工程(harness engineering)的興起。核心智能將越來越多地來自多個智能體的組織方式:
一個負責規劃和分發任務的編排者,多個像領域專家一樣行動的專業智能體,以及執行更窄任務的子智能體——它們幫助控制上下文、避免信息污染、并維護不同層級推理之間的隔離。
未來的方向是:從訓練模型到訓練智能體,從訓練智能體到訓練系統。
結語
推理浪潮的第一階段確立了一件重要的事:
當反饋信號可靠且基礎設施能夠支撐時,語言模型之上的RL可以產出質的飛躍式的認知能力。
更深層的轉變是從推理式思考到智能體式思考:
從想得更久,到為了行動而想。訓練的核心對象已經改變了——它變成了模型+環境的系統,或者更具體地說,是智能體和圍繞它的編排框架。
這改變了哪些研究要素最重要:
模型架構和訓練數據當然仍然重要,但環境設計、軌跡采樣基礎設施、評估器魯棒性、以及多智能體之間的協調接口同樣關鍵。
這也改變了“好的思考”的定義:
最有用的軌跡,是能在真實世界約束下維持有效行動的那個——而非最長或最醒目的那個。
這也改變了競爭優勢的來源:
在推理時代,優勢來自更好的RL算法、更強的反饋信號和更可擴展的訓練流水線。
在智能體時代,優勢將來自更好的環境、更緊密的訓練-推理耦合、更強的編排工程,以及在模型的決策與這些決策產生的后果之間實現閉環的能力。
原文地址:
https://x.com/JustinLin610/status/2037116325210829168?s=20
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.