網易首頁 > 網易號 > 正文申請入駐

林俊旸離職后首發長文，智能體式思考將成主流

林俊旸從阿里離職后首發長文

2026-03-26 21:45:10　來源: 第一財經資訊

上海舉報

分享至

3月26日晚間，前千問大模型技術負責人林俊旸在社交平臺發文，在從阿里離職后，他首度發布長文詳談自己對大模型發展路線的理解及對AI下一階段的預判。

林俊旸表示，過去兩年重塑了行業對大模型的評估方式與核心期待。OpenAI的o1表明，"思考"可以成為一種被訓練出來的能力。DeepSeek-R1緊隨其后，證明推理式的后訓練可以在原始實驗室之外被復現、被擴展。這一階段至關重要。但2025年上半年，行業焦點主要停留在"推理式思考"本身：如何讓模型在推理的時候多想一會兒。現在該問下一步了。他的判斷是智能體式思考：為了行動而思考，在與環境交互的過程中，并根據來自世界的反饋持續更新計劃。

前千問大模型技術負責人林俊旸

他提到，2025年初，千問團隊有一個很大的野心：做一個統一的系統，讓思考模式和指令模式合二為一，支持可調節的推理努力程度（類似于低/中/高推理設置），甚至能根據提示詞和上下文自動推斷合適的推理量，讓模型自主決定何時直接回答、何時稍作思考、何時為真正困難的問題投入大量計算。概念上，這是正確的方向。但"合并"說起來容易，做好卻極難。

真正的難點在于數據。當人們談論合并思考與指令時，往往首先想到模型側的兼容性，更深層的問題是，兩種模式的數據分布和行為目標存在顯著差異。在嘗試平衡模型合并與提升后訓練數據質量和多樣性的過程中，團隊并未把所有事情都做對，結果往往是在兩個方向上都表現平庸："思考"行為變得嘈雜、冗余或不夠果斷，而"指令"行為則變得不夠清晰、不夠可靠，且比商業用戶實際想要的成本更高。

分開做在實踐中仍然有吸引力。2025年下半年，Qwen 的2507版本就發了獨立的 Instruct 和 Thinking 版本，30B 和235B 各一套。而他的最終思考是，真正成功的合并需要一個平滑的推理力度光譜，模型能自己判斷該花多少力氣去想。

“推理鏈更長，不等于模型更聰明。很多時候，推理鏈越長，反而說明模型在亂花算力。”林俊旸在文中表示，他提到，千問團隊意識到，行業正在從訓練模型的時代，走向訓練智能體的時代，它的定義特征是跟真實世界的閉環交互。

智能體式思考和推理式思考，意味著不同的優化目標，推理式思考通常以最終答案前的內部思辨質量來評判：模型能否解出定理、寫出證明、生成正確代碼或通過基準測試。而智能體思維關注的是：模型能否在與環境交互的過程中持續取得進展。

這意味著，核心問題從“模型能否思考得足夠久？”轉變為“模型能不能用一種撐得起有效行動的方式來思考？”模型訓練的核心對象也隨之變了，變成了模型加環境的整個系統。

在這之中，模型架構和訓練數據當然還重要，但環境設計、rollout 基礎設施、評估器的穩健程度、多個 Agent 之間怎么協調，這些都進了核心圈。“好的思考”的定義也變了：在真實約束下最能撐起行動的那條軌跡，而非最長或最顯眼的那條。

林俊旸預測，智能體式思考會成為主流。

責任編輯：李超_NB12814

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.