337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Yuan 3.0 Flash避免“過度思考”,大幅壓縮推理成本

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

YuanLab.ai 團隊正式開源發布源Yuan3.0 Flash 多模態基礎大模型。Yuan3.0 Flash 是一款 40B 參數規模的多模態基礎大模型,采用稀疏混合專家(MoE)架構,單次推理僅激活約 3.7B 參數。Yuan3.0 Flash創新性地提出和采用了強化學習訓練方法(RAPO),通過反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,在提升推理準確性的同時,大幅壓縮了推理過程的 token 消耗,顯著降低算力成本,在 “更少算力、更高智能” 的大模型優化路徑上更進一步。Yuan3.0 Flash已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由視覺編碼器、語言主干網絡以及多模態對齊模塊組成。語言主干網絡采用局部過濾增強的Attention結構(LFA)和混合專家(MoE)結構,在提升注意力精度的同時,顯著降低訓練與推理的算力開銷。多模態方面,采用視覺編碼器,將視覺信號轉化為token,與語言token一起輸入到語言主干網絡,通過多模態對齊模塊實現高效、穩定的跨模態特征對齊。同時,引入自適應圖像分割機制,在支持高分辨率圖像理解的同時,有效降低顯存需求及算力開銷(如圖1)。


圖1:Yuan 3.0整體架構和基于MoE的語言主干

左側為Yuan 3.0架構,含三個組件:(1) ViT編碼器處理圖像;(2) 輕量級MLP投影器對齊視覺與文本特征;(3) 基于MoE的語言模型。右側為采用局部過濾注意力(LFA) 的源3.0語言主干網絡。

更值得關注的是,在企業場景的 RAG(ChatRAG)、多模態檢索(Docmatix)、多模態表格理解(MMTab)、摘要生成(SummEval)等任務中, Yuan3.0 Flash 的表現已優于 GPT-5.1,體現出其在企業應用場景中的明顯能力優勢。在多模態推理與語言推理評測中,Yuan3.0 Flash(40B)精度接近Qwen3-VL235B-A22B(235B)與DeepSeek-R1-0528(671B),但 token 消耗僅約為其 1/4 ~ 1/2,顯著降低了企業大模型應用成本(如圖2)。


圖2:Yuan3.0 Flash在企業級、多模態和語言模態上的基準測試表現

01.

避免想得太多,而是“更有效思考”

近年來,長思維鏈(Chain-of-Thought)成為提升大模型推理能力的主流范式,但在實際應用中也帶來了新的問題:推理過程冗長、算力消耗大、部署成本高,甚至在得到正確答案后仍持續大量生成冗長的內容(如圖3)。


圖3: DeepSeek-R1的重復反思行為示例

針對推理模型普遍存在的 “過度思考(Overthinking)”問題,Yuan3.0 Flash 創新Reflection-aware Adaptive Policy Optimization(RAPO) 強化學習算法,提出反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,專注于必要推理步驟(如圖4)。

RIRM:通過獎勵“思考過程”優化模型訓練

RIRM(Reflection Inhibition Reward Mechanism,反思抑制獎勵機制)的核心思想并不復雜,卻極具突破性:模型不僅要為“答對”負責,也要為“什么時候停止思考”負責。

在傳統訓練中,只要最終答案正確,模型在中途經歷了多少次自我否定、重復驗證,幾乎不會被區分對待。而RIRM首次明確引入了一條新的判斷標準——當模型已經形成可靠結論后,繼續反思是否還具有信息價值。


圖4:反思抑制獎勵機制(RIRM)

該機制能夠識別模型首次得到正確答案的關鍵節點,并對后續冗余推理行為進行抑制,使模型在保證答案正確性的前提下,大幅壓縮輸出長度。實驗結果表明,在數學、科學與復雜推理任務中,Yuan3.0 Flash 在準確率提升的同時,推理 token 數量最高可減少約 75%,顯著降低推理成本。


表1:Yuan3.0 Flash采用RIRM的強化學習訓練與DAPO+長度懲罰的精度與輸出token數量對比

RAPO:反思感知的自適應策略優化算法

然而,僅靠對推理行為的抑制,并不足以支撐一個穩定、高效的企業級模型訓練。Yuan 3.0 Flash所引入的RAPO(Reflection-aware Adaptive Policy Optimization,反思感知自適應策略優化)并非一次局部技巧的優化,而是對強化學習訓練框架的一次系統性改進:從數據采樣效率、到學習目標、到推理過程評估(RIRM),同時兼顧訓練效率、訓練穩定性及推理效率,使模型能夠在多任務、異構場景中形成更具實用價值的策略。


RAPO通過自適應采樣、梯度穩定性控制等機制,顯著減少了強化學習階段的過度數據采樣,有效抑制了訓練過程的梯度波動。在大規模MoE模型上,這種改進尤為關鍵——實驗顯示,RAPO可使整體訓練效率提升超過 50%,在保證模型能力提升的同時,大幅縮短訓練周期。

更重要的是,RAPO與RIRM在設計上是協同的。RAPO決定模型“如何學習”,而 RIRM 明確模型“學到什么程度該停”。前者提供穩定高效的學習框架,后者則為推理行為劃定邊界,兩者疊加,才使“想對就停”真正成為模型的默認行為,而非例外情況。

02.

企業場景下模型能力的提升,

離不開高質量數據支撐

Yuan3.0 Flash的優秀表現,并非僅依賴算法本身,而是建立在面向企業真實場景的數據準備工作之上。與通用對話或互聯網語料不同,模型在訓練階段重點引入了大量貼近企業生產環境的數據形態,包括:


  • 長篇技術文檔、解決方案材料、操作手冊、投標文件等復雜文本

  • 財務與業務報表、多級表頭表格、嵌套表格與圖文混排頁面

  • 跨頁面、多模態信息聯合理解的真實業務場景


圍繞這些輸入形態,訓練數據重點覆蓋多模態信息檢索、對比分析、摘要生成、表格分析與理解等企業高頻任務。同時,在數據構建階段,團隊顯式區分了無需深度推理即可完成的任務與確需多步推理的復雜任務,為后續強化學習階段優化推理效率提供了明確的數據基礎。

03.

面向企業場景的多模態基礎能力

在能力層面,Yuan3.0 Flash 并非圍繞單一 Benchmark 優化,而是針對企業真實業務需求進行了系統設計。在多項企業級評測中,模型在以下能力上表現突出:

檢索增強生成(RAG):在 ChatRAG、Docmatix 等評測中取得領先成績

復雜表格與文檔理解:在 MMTab 等多任務基準中展現領先能力

高質量總結生成:在 SummEval 上兼顧語義一致性與事實準確性

多模態推理效率:在 ChartQA、DocVQA 等任務中,以更少token 達到比肩前沿大模型的精度

結合對128K長上下文的穩定支持,Yuan3.0 Flash 能夠勝任企業級長文檔分析、跨頁面信息檢索與多源知識融合任務(如圖5)。


圖5:Yuan3.0 Flash在"大海撈針"測試中實現100%精度召回

04.

“更少算力、更高智能”

如何落地企業真實場景中

在架構層面,Yuan3.0 Flash采用稀疏MoE設計,在推理時僅激活少量專家,降低單次推理的計算開銷;而在行為層面,RAPO與RIRM進一步確保這些算力被用于真正有價值的判斷,而非冗余反思。

這種組合效應,在企業高頻場景中表現尤為明顯。在RAG場景下,模型能夠更快聚焦于檢索到的關鍵信息,而不是圍繞同一內容反復展開解釋;在復雜表格理解中,推理路徑更加直接,不再被冗余驗證拖慢;在長文檔分析中,模型避免了層層遞歸式總結,顯著提升了響應效率。

對企業而言,這意味著一個非常關鍵的變化:默認推理模式本身就已經足夠可靠。無需額外開啟高成本的“深度思考模式”,模型就能在大多數業務任務中保持穩定、可控的表現,也就是更快、更準、更省。

Yuan3.0 Flash的技術實踐表明:當大模型已經具備足夠的推理能力后,真正稀缺的,不再是“讓它想得更多”,而是“讓它知道什么時候該停”。

RIRM通過獎勵機制約束無效反思,解決了“想得太多”的問題;RAPO通過高效、穩定的強化學習策略,解決了“學得太慢、學得不實用”的問題。兩者共同構成了一條面向企業級落地的現實路徑——在不犧牲能力的前提下,實現更低成本、更高效率的智能系統。

Yuan3.0 Flash大模型全面開源,不僅包括模型權重(16bit與4bit模型)、技術報告,也涵蓋完整的訓練方法與評測結果,支持社區在此基礎上進行二次訓練與行業定制。YuanLab.ai團隊希望通過這一開源基礎模型,推動大模型從“能力展示”走向“規模化落地”,為企業提供可控成本、可預測性能、可持續演進的多模態智能底座。

更少算力,并不意味著更弱能力;更高智能,也不一定依賴更大模型。” Yuan3.0 Flash 正是在這一理念下,對下一代基礎大模型形態的一次探索與實踐。

源Yuan 3.0基礎大模型將包含Flash、Pro和Ultra等版本,模型參數量為40B、200B和1T等,我們將陸續發布相關工作。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

火山詩話
2026-03-26 06:16:11
真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

吃瓜局
2025-11-11 16:23:49
人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

掠影后有感
2026-03-26 10:39:36
參數全贏,銷量沒贏:尚界Z7銷量輸給小米SU7!差哪呢?

參數全贏,銷量沒贏:尚界Z7銷量輸給小米SU7!差哪呢?

生活魔術專家
2026-03-26 18:07:46
美伊沖突,已經出現了3個贏家,10個輸家,都是誰?

美伊沖突,已經出現了3個贏家,10個輸家,都是誰?

七號說三國
2026-03-25 21:11:29
陰跌兩個月后放量跌停,今日最慘股,開板后又把博反包的套了進去

陰跌兩個月后放量跌停,今日最慘股,開板后又把博反包的套了進去

有范又有料
2026-03-26 17:22:20
中央紅軍御林軍,長征中戴鋼盔配沖鋒槍,一個團2名大將3名上將

中央紅軍御林軍,長征中戴鋼盔配沖鋒槍,一個團2名大將3名上將

云霄紀史觀
2026-03-26 17:16:00
新郎婚禮遲到2個小時,婆婆大方宣布:彩禮全退,新娘竟當場退婚

新郎婚禮遲到2個小時,婆婆大方宣布:彩禮全退,新娘竟當場退婚

白云故事
2025-03-21 17:50:07
NBA西部:前10確定了,馬刺有望爭第1,快船搶7,湖人首輪遇火箭

NBA西部:前10確定了,馬刺有望爭第1,快船搶7,湖人首輪遇火箭

鐵甲西奇
2026-03-26 16:43:09
袁家軍會見王興興

袁家軍會見王興興

新京報政事兒
2026-03-26 16:45:34
為什么中國要發射東風-41,必須要提前告知俄羅斯,這是咋回事?

為什么中國要發射東風-41,必須要提前告知俄羅斯,這是咋回事?

阿器談史
2026-03-19 18:11:39
燒了18.6萬美元讓AI連軸肝了17天,它產出了166篇論文

燒了18.6萬美元讓AI連軸肝了17天,它產出了166篇論文

酷玩實驗室
2026-03-25 18:25:49
卡爾森:壞了!原來小丑不是特朗普,而是我自己

卡爾森:壞了!原來小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

譚松韻本人跟銀幕上差距很大,個子好矮小小一只,真人并不年輕

庭小娛
2026-03-24 11:53:09
電飯鍋哪個牌子質量好?2026電飯煲排名前十盤點!大眾主流精選

電飯鍋哪個牌子質量好?2026電飯煲排名前十盤點!大眾主流精選

小柱解說游戲
2026-03-25 17:56:15
為何美國敢打伊朗,卻不敢打朝鮮?因為朝鮮成功學到了中國精髓

為何美國敢打伊朗,卻不敢打朝鮮?因為朝鮮成功學到了中國精髓

鑒史錄
2026-03-25 18:19:06
退休不褪色:浸潤在莎莎舞里的中年男人堅守與百態

退休不褪色:浸潤在莎莎舞里的中年男人堅守與百態

成都人的故事
2026-03-26 23:40:03
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
哈佛研究:吃一個西紅柿,就等于喝了一大口可樂,真的還是假的?

哈佛研究:吃一個西紅柿,就等于喝了一大口可樂,真的還是假的?

泠泠說史
2025-11-10 14:17:05
搞笑,步行者主帥在被湖人隊東契奇狂砍43分后,說也有積極的一面

搞笑,步行者主帥在被湖人隊東契奇狂砍43分后,說也有積極的一面

好火子
2026-03-26 23:59:41
2026-03-27 00:39:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

藝術
游戲
房產
數碼
公開課

藝術要聞

都說烏克蘭美女多,看完攝影師貝格瑪 的作品我信了!

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

房產要聞

突發,三亞又有大批征遷補償方案出爐!

數碼要聞

英特爾發Q1.26版Arc Pro專業顯卡驅動,支持B70 / B65顯卡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版