![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。
YuanLab.ai團隊正式開源發布 源Yuan3.0 Ultra 多模態基礎大模型。作為源3.0系列面向萬億參數規模打造的旗艦模型,Yuan3.0 Ultra的發布使全球萬億級開源大模型生態進一步豐富,成為當前業界僅有的三個萬億級開源多模態大模型之一。
Yuan3.0 Ultra將MoE大模型的訓練效率優化系統性引入模型結構設計之中,并圍繞企業應用及智能體工具調用等方面開展了深度優化,在多模態文檔理解、檢索增強生成(RAG)、表格數據分析、內容摘要與工具調用等企業級任務中表現突出。這些能力使源Yuan大模型能夠高質量處理企業環境中的復雜信息形態,如圖文混排文檔、多級結構表格以及跨文檔知識檢索,為基于OpenClaw等智能體框架構建多模態數據驅動的企業Agent AI提供核心能力支撐。
Yuan3.0 Ultra采用統一多模態模型架構,由視覺編碼器、語言主干網絡與多模態對齊模塊組成,實現視覺與語言信息的協同建模。其中,語言主干網絡基于混合專家(MoE)架構構建,包含103層Transformer,訓練初始階段參數規模1515B,通過LAEP方法創新,團隊在預訓練過程中將模型參數優化至1010B,預訓練算力效率提升49%。Yuan3.0 Ultra的激活參數為68.8B。此外,模型還引入了Localized Filtering Attention(LFA)機制,有效強化對語義關系的建模能力,相比經典Attention結構可獲得更高的模型精度表現。Yuan3.0 Ultra在持續提升模型能力的同時,為大模型發展提供了一條“更高效率、更強智能”的新路徑。
![]()
△圖1:Yuan3.0 Ultra在面向企業應用的多模態檢索、文本檢索、摘要生成、表格理解、工具調用評測中表現出色
Yuan3.0 Ultra全面開源,模型參數和代碼均可免費下載使用:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
![]()
模型地址
https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra
https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4
01.
面向企業復雜業務場景的多模態能力
企業級Agent通常需要同時處理文檔、表格與數據庫等多種信息形態,并通過多步驟推理與工具調用完成任務。Yuan3.0 Ultra在設計階段即圍繞企業真實業務流程中的信息處理與任務執行需求進行能力構建。
■ 復雜文檔與圖表信息理解
在企業實際業務中,大量關鍵信息存在于技術方案、財報報告、行業研究材料等文檔中,這些內容通常包含圖文混排結構、復雜表格以及跨頁面信息關聯,是企業構建知識體系過程的難點。
Yuan3.0 Ultra在DocMatix、MMTab等多模態文檔理解評測中領先于Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型,體現出模型在圖文結構解析與表格語義理解方面的領先能力。基于這一能力,模型能夠準確解析圖文混排文檔結構并提取關鍵數據指標,有力支撐智能體系統高質量完成文檔理解、數據提取與報告總結等任務,使企業能夠從容構建面向文檔處理的Agent系統,例如財報分析、合同審閱以及技術文檔解析等場景,從而顯著提升信息處理質量。
■ 多源信息檢索與整合
企業內部知識通常分散在文檔庫、知識庫系統以及業務數據庫中,信息來源復雜且結構不統一。要在這樣的環境中獲取有效信息,不僅需要檢索能力,還需要對多源內容進行語義整合與綜合分析,而傳統檢索系統往往只能返回零散結果,難以形成完整結論。
Yuan3.0 Ultra在ChatRAG、SummEval等檢索增強生成評測中表現領先于 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型,體現出模型在檢索結果基礎上進行深度語義整合與生成回答的能力。依托這一能力,模型可以在企業知識環境中完成檢索、理解與綜合生成的完整信息處理流程,有力支持 OpenClaw 等智能體利用企業私有知識完成復雜任務。
■ 數據分析與業務決策輔助
在企業運營場景中,大量業務決策依賴數據庫查詢、報表分析以及跨系統數據整合。在這些場景下,企業往往需要將業務問題轉化為數據庫查詢,并結合數據結果進行分析與總結,而傳統流程通常需要人工編寫數據庫查詢語句(SQL)并整理分析報告,效率較低。
Yuan3.0 Ultra在Spider 與 BIRD等Text-to-SQL基準評測中表現出色,在 Spider評測中領先Kimi K2.5, DeepSeek V3.2等前沿大模型,體現出模型在自然語言理解與結構化查詢生成方面的能力。依托這一能力,模型能夠高質量支持OpenClaw等智能體的數據查詢、運營分析以及報告生成等任務,有力支撐企業基于OpenClaw等智能體構建業務分析與決策系統。
02.
LAEP方法創新,不追求更多專家,而是更有效專家
研究團隊在長期的大模型算法研究中發現,大模型預訓練過程的專家負載演化可分為兩個階段:
第一階段:初始過渡階段,發生在模型預訓練早期,此時專家負載波動劇烈,受隨機初始化影響明顯,同一專家所接收的token數量可能在數量級上存在顯著差異;
第二階段:穩定階段,此時各專家之間的token負載趨于穩定,每個專家接收的token數量僅呈現相對較小的波動;
在訓練穩定階段,專家的token負載極不均衡,少數專家承擔大量計算,而部分專家長期處于低負載狀態,導致算力資源浪費。由圖2可以看到,訓練穩定階段最高專家與最低專家負載差異近500倍。
![]()
△圖2:MoE模型訓練過程中存在專家訓練不均衡問題
從學習機制角度來看,這一現象實際上是大模型在訓練過程中形成Functional Specialization(功能專一化)的體現——不同專家在長期訓練中逐漸對特定模式、語義結構或任務類型形成穩定偏好,在模型內部自發涌現出專業化的分工結構。
這與人類大腦的認知組織方式具有一定相似性。神經科學研究表明,大腦皮層并不對所有任務平均分配神經元資源,而是逐漸形成視覺區、語言區、運動區等功能專一化區域,從而顯著提升信息處理效率。MoE模型中專家的自發分化,與這一認知機制在本質上一脈相承。
因此,對于大規模MoE模型而言,關鍵問題在于如何識別并剔除訓練后逐漸固化的冗余結構,在保持模型專業化能力的同時,實現算力資源的高效利用。
為解決這一問題,Yuan3.0 Ultra提出針對預訓練的Layer-Adaptive Expert Pruning(LAEP)算法。LAEP能夠根據預訓練過程中形成的專家負載統計信息,動態識別低貢獻專家,并對模型結構進行自適應裁剪與專家重排,使計算資源集中于真正發揮作用的專家。從神經科學視角看,這一過程類似于大腦在長期學習過程中對神經連接進行優化與重組:保留高效的信息處理通路,削弱低效連接,從而在維持功能分工的同時提升整體認知效率。
![]()
△表1:Yuan3.0 Ultra采用LAEP顯著提升預訓練效率
實驗結果顯示:
模型參數減少33.3%
整體預訓練效率提升49%
這一研究也揭示了一個重要現象:大模型結構不應只是簡單擴大參數規模,而應逐漸演化為具有結構分工與專業化能力的“認知系統”。如何利用訓練過程中自然形成的專家分化,并通過結構優化進一步提升學習及計算效率,將成為未來基礎大模型結構設計及優化的一個重要方向。
03.
不追求“更長思考”,而是“更有效思考”
Yuan3.0 Ultra的訓練策略聚焦于Fast-thinking 強化學習范式。與單純延長推理鏈條不同,模型默認采用高效的短路徑推理方式,使計算資源優先用于高信息增益的步驟,而非無約束的反思擴展。
在大規模強化學習過程中,團隊圍繞反思抑制獎勵機制(RIRM)進行了系統優化,通過對反思次數引入獎勵約束,使模型在獲得可靠答案后主動減少無效反思,同時在復雜問題中保留必要的推理深度。這一機制有效緩解了快思考模式下的“過度思考”(overthinking)現象。
![]()
△圖3:RIRM優化下的推理效率提升與 Token 消耗對比
訓練結果表明,在這一受控快思考策略下,模型精度顯著提升,同時推理過程中生成的token數量持續下降,實現了準確性與計算效率的同步優化。
04.
開源基礎模型,推動可落地的大模型智能
Yuan3.0 Ultra大模型全面開源,不僅包括模型權重(16bit 與 4bit 模型)、技術報告,也涵蓋完整的訓練方法與評測結果,支持社區在此基礎上進行二次訓練與行業定制。Yuan3.0 Ultra提出的LAEP方法是YuanLab.ai團隊對下一代基礎大模型結構的又一次探索與實踐,為業界MoE大模型結構創新、預訓練算力效率提升帶來新的路徑。
YuanLab.ai團隊希望通過Yuan3.0 Ultra的開源,推動大模型從“能力展示”走向“規模化落地”,為企業用戶提供深度優化的、面向Agent應用的多模態基礎大模型。
源Yuan3.0基礎大模型將包含Flash、Pro和Ultra等版本,模型參數量為40B、200B和1T等,相關成果將陸續發布。
「開源地址 」
代碼開源鏈接:
https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
論文鏈接:
https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra/blob/main/Docs/Yuan3.0_Ultra%20Paper.pdf
模型下載鏈接:
https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra
https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4
----- END -----
![]()
wisemodel相關:
系列模型:
![]()
關于wisemodel更多
![]()
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.