網易首頁 > 網易號 > 正文申請入駐

Yuan 3.0 Flash避免“過度思考”，大幅壓縮推理成本

2026-01-08 18:23:17　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區，始終堅持“中立、開放、共建、共創、合作”五項基本原則，歡迎加入共同成長。

YuanLab.ai 團隊正式開源發布源Yuan3.0 Flash 多模態基礎大模型。Yuan3.0 Flash 是一款 40B 參數規模的多模態基礎大模型，采用稀疏混合專家（MoE）架構，單次推理僅激活約 3.7B 參數。Yuan3.0 Flash創新性地提出和采用了強化學習訓練方法（RAPO），通過反思抑制獎勵機制（RIRM），從訓練層面引導模型減少無效反思，在提升推理準確性的同時，大幅壓縮了推理過程的 token 消耗，顯著降低算力成本，在 “更少算力、更高智能” 的大模型優化路徑上更進一步。Yuan3.0 Flash已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由視覺編碼器、語言主干網絡以及多模態對齊模塊組成。語言主干網絡采用局部過濾增強的Attention結構（LFA）和混合專家（MoE）結構，在提升注意力精度的同時，顯著降低訓練與推理的算力開銷。多模態方面，采用視覺編碼器，將視覺信號轉化為token，與語言token一起輸入到語言主干網絡，通過多模態對齊模塊實現高效、穩定的跨模態特征對齊。同時，引入自適應圖像分割機制，在支持高分辨率圖像理解的同時，有效降低顯存需求及算力開銷（如圖1）。

圖1：Yuan 3.0整體架構和基于MoE的語言主干

左側為Yuan 3.0架構，含三個組件：(1) ViT編碼器處理圖像；(2) 輕量級MLP投影器對齊視覺與文本特征；(3) 基于MoE的語言模型。右側為采用局部過濾注意力(LFA) 的源3.0語言主干網絡。

更值得關注的是，在企業場景的 RAG（ChatRAG）、多模態檢索（Docmatix）、多模態表格理解（MMTab）、摘要生成（SummEval）等任務中, Yuan3.0 Flash 的表現已優于 GPT-5.1，體現出其在企業應用場景中的明顯能力優勢。在多模態推理與語言推理評測中，Yuan3.0 Flash（40B）精度接近Qwen3-VL235B-A22B（235B）與DeepSeek-R1-0528（671B），但 token 消耗僅約為其 1/4 ~ 1/2，顯著降低了企業大模型應用成本（如圖2）。

圖2：Yuan3.0 Flash在企業級、多模態和語言模態上的基準測試表現

01.

避免想得太多，而是“更有效思考”

近年來，長思維鏈（Chain-of-Thought）成為提升大模型推理能力的主流范式，但在實際應用中也帶來了新的問題：推理過程冗長、算力消耗大、部署成本高，甚至在得到正確答案后仍持續大量生成冗長的內容（如圖3）。

圖3： DeepSeek-R1的重復反思行為示例

針對推理模型普遍存在的 “過度思考（Overthinking）”問題，Yuan3.0 Flash 創新Reflection-aware Adaptive Policy Optimization（RAPO）強化學習算法，提出反思抑制獎勵機制（RIRM），從訓練層面引導模型減少無效反思，專注于必要推理步驟（如圖4）。

RIRM：通過獎勵“思考過程”優化模型訓練

RIRM（Reflection Inhibition Reward Mechanism，反思抑制獎勵機制）的核心思想并不復雜，卻極具突破性：模型不僅要為“答對”負責，也要為“什么時候停止思考”負責。

在傳統訓練中，只要最終答案正確，模型在中途經歷了多少次自我否定、重復驗證，幾乎不會被區分對待。而RIRM首次明確引入了一條新的判斷標準——當模型已經形成可靠結論后，繼續反思是否還具有信息價值。

圖4：反思抑制獎勵機制（RIRM）

該機制能夠識別模型首次得到正確答案的關鍵節點，并對后續冗余推理行為進行抑制，使模型在保證答案正確性的前提下，大幅壓縮輸出長度。實驗結果表明，在數學、科學與復雜推理任務中，Yuan3.0 Flash 在準確率提升的同時，推理 token 數量最高可減少約 75%，顯著降低推理成本。

表1：Yuan3.0 Flash采用RIRM的強化學習訓練與DAPO+長度懲罰的精度與輸出token數量對比

RAPO：反思感知的自適應策略優化算法

然而，僅靠對推理行為的抑制，并不足以支撐一個穩定、高效的企業級模型訓練。Yuan 3.0 Flash所引入的RAPO（Reflection-aware Adaptive Policy Optimization，反思感知自適應策略優化）并非一次局部技巧的優化，而是對強化學習訓練框架的一次系統性改進：從數據采樣效率、到學習目標、到推理過程評估（RIRM），同時兼顧訓練效率、訓練穩定性及推理效率，使模型能夠在多任務、異構場景中形成更具實用價值的策略。

RAPO通過自適應采樣、梯度穩定性控制等機制，顯著減少了強化學習階段的過度數據采樣，有效抑制了訓練過程的梯度波動。在大規模MoE模型上，這種改進尤為關鍵——實驗顯示，RAPO可使整體訓練效率提升超過 50%，在保證模型能力提升的同時，大幅縮短訓練周期。

更重要的是，RAPO與RIRM在設計上是協同的。RAPO決定模型“如何學習”，而 RIRM 明確模型“學到什么程度該停”。前者提供穩定高效的學習框架，后者則為推理行為劃定邊界，兩者疊加，才使“想對就停”真正成為模型的默認行為，而非例外情況。

02.

企業場景下模型能力的提升，

離不開高質量數據支撐

Yuan3.0 Flash的優秀表現，并非僅依賴算法本身，而是建立在面向企業真實場景的數據準備工作之上。與通用對話或互聯網語料不同，模型在訓練階段重點引入了大量貼近企業生產環境的數據形態，包括：

長篇技術文檔、解決方案材料、操作手冊、投標文件等復雜文本
財務與業務報表、多級表頭表格、嵌套表格與圖文混排頁面

跨頁面、多模態信息聯合理解的真實業務場景

圍繞這些輸入形態，訓練數據重點覆蓋多模態信息檢索、對比分析、摘要生成、表格分析與理解等企業高頻任務。同時，在數據構建階段，團隊顯式區分了無需深度推理即可完成的任務與確需多步推理的復雜任務，為后續強化學習階段優化推理效率提供了明確的數據基礎。

03.

面向企業場景的多模態基礎能力

在能力層面，Yuan3.0 Flash 并非圍繞單一 Benchmark 優化，而是針對企業真實業務需求進行了系統設計。在多項企業級評測中，模型在以下能力上表現突出：

■檢索增強生成（RAG）：在 ChatRAG、Docmatix 等評測中取得領先成績

■復雜表格與文檔理解：在 MMTab 等多任務基準中展現領先能力

■高質量總結生成：在 SummEval 上兼顧語義一致性與事實準確性

■多模態推理效率：在 ChartQA、DocVQA 等任務中，以更少token 達到比肩前沿大模型的精度

結合對128K長上下文的穩定支持，Yuan3.0 Flash 能夠勝任企業級長文檔分析、跨頁面信息檢索與多源知識融合任務（如圖5）。

圖5：Yuan3.0 Flash在"大海撈針"測試中實現100%精度召回

04.

“更少算力、更高智能”

如何落地企業真實場景中

在架構層面，Yuan3.0 Flash采用稀疏MoE設計，在推理時僅激活少量專家，降低單次推理的計算開銷；而在行為層面，RAPO與RIRM進一步確保這些算力被用于真正有價值的判斷，而非冗余反思。

這種組合效應，在企業高頻場景中表現尤為明顯。在RAG場景下，模型能夠更快聚焦于檢索到的關鍵信息，而不是圍繞同一內容反復展開解釋；在復雜表格理解中，推理路徑更加直接，不再被冗余驗證拖慢；在長文檔分析中，模型避免了層層遞歸式總結，顯著提升了響應效率。

對企業而言，這意味著一個非常關鍵的變化：默認推理模式本身就已經足夠可靠。無需額外開啟高成本的“深度思考模式”，模型就能在大多數業務任務中保持穩定、可控的表現，也就是更快、更準、更省。

Yuan3.0 Flash的技術實踐表明：當大模型已經具備足夠的推理能力后，真正稀缺的，不再是“讓它想得更多”，而是“讓它知道什么時候該停”。

RIRM通過獎勵機制約束無效反思，解決了“想得太多”的問題；RAPO通過高效、穩定的強化學習策略，解決了“學得太慢、學得不實用”的問題。兩者共同構成了一條面向企業級落地的現實路徑——在不犧牲能力的前提下，實現更低成本、更高效率的智能系統。

Yuan3.0 Flash大模型全面開源，不僅包括模型權重（16bit與4bit模型）、技術報告，也涵蓋完整的訓練方法與評測結果，支持社區在此基礎上進行二次訓練與行業定制。YuanLab.ai團隊希望通過這一開源基礎模型，推動大模型從“能力展示”走向“規模化落地”，為企業提供可控成本、可預測性能、可持續演進的多模態智能底座。

“更少算力，并不意味著更弱能力；更高智能，也不一定依賴更大模型。” Yuan3.0 Flash 正是在這一理念下，對下一代基礎大模型形態的一次探索與實踐。

源Yuan 3.0基礎大模型將包含Flash、Pro和Ultra等版本，模型參數量為40B、200B和1T等，我們將陸續發布相關工作。

編輯：成蘊年

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.