337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

尺寸差了一個量級,如何較量?DeepSeek R1與阿里QwQ-32B

0
分享至



原創:親愛的數據

2025年3月6日,

阿里通義千問團隊推出推理模型

QwQ-32B大語言模型。

看似普通的一則新聞,

發布了一個模型這么件事。

阿里尚未發布詳細的技術報告來解釋QwQ是如何開發的,甚至新聞官網只有742個字。

《QwQ-32B:擁抱強化學習的力量》





該怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又稱密集)推理模型。

雖然只有一句話,但是信息量很大。

想讀懂的話,要很多“知識儲備”,

什么是MoE(混合專家模型)?

什么是稠密模型?

什么是推理模型?

模型參數規模怎么對比?

背后隱藏的不少問題都可展開聊,

不如,聊聊有哪些結論?





第一點,QWQ模型有一個系列,

阿里在上一版的基礎上,

用了R1也同樣用了的強化學習技術。

好消息是出效果了,不出效果不會放出來。

畢竟這個是開源模型,

只有閉源模型才愿意買廣告胡吹,

開源模型則不需要。

反觀很多大模型友商,

還停留在花錢買彩虹屁的石器時代。

在開源打得如此激烈的當下,顯得尤為又自嗨。

拋開“強不強”不聊,

要知道大模型技術人員的知識體系涇渭分明,

你是做視覺的,就是視覺;

你是自然語言處理的就是自然語言處理,

而強化學習是另外一套知識體系。

強化學習這條道路,

大模型團隊里沒有點技術儲備都發不了力。

阿里畢竟是阿里,

看到強化學習的天花板還能往上推,

就毫不猶豫地往上推。

恭喜阿里出效果,恭喜團隊奮戰有成績。

無獨有偶,一天之前,

2024年的圖靈獎頒給了一對著名的師徒:

Richard Sutton有“強化學習之父”的美名。

Andrew Barto是Sutton的博導。

自1980年代起,

兩位均對強化學習持續做出奠基性貢獻。

一邊是企業界的前沿技術突破,

另一邊則是對強化學習理論基礎的權威認可。

這兩者實際上是相輔相成的,

正是幾十年前奠定的堅實理論基礎,

才使得今天我們能夠在工業界實現如此驚人的技術突破。向強化學習開創者的致敬,向DeepSeek R1團隊,向阿里千問團隊,用強化學習推動模型技術進步的工程師致敬。





第二點,在推理模型大火之后,

大家都只做推理模型這一種類型了嗎?

當然不是。

這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。

這也是一個剛剛(2月25日)放出來的新模型,

是Claude 3.5 Sonnet的升級版。

不得不感慨一句,版本號增長得如此之快,

可見軟件版本迭代得多快,

可見其背后的技術進展有多快。

AI的競爭有多激烈。





我特別強調,Claude 3.7 Sonnet模型的技術路線,

和QwQ-32B模型大不一樣,完全不同。

QwQ-32B模型強調推理性能,

是一個獨立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude團隊把快慢思考集成在一個模型里了,

你想用哪個就選哪個。



特別注意的是,

選擇按鈕的背后是一個“二合一”的模型,

而不是一個“選項”一個模型,

技術博客上的表述是,人類使用同一個大腦,

既能靜心思考,又有快速反應。

阿里是否也在做和Claude團隊類似的事情,

不得而知。

但是你用推理模型去快問快答簡單問題,

肯定不合適,

比如,你問推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面這種肯定不行,

日后定會想辦法解決。





第三點,為什么QWQ-32B可達到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一個量級的情況下。

在MoE模型出道之后,

模型參數規模不再是名字上掛的那個數字,

比如,DeepSeek R1擁有6710億的巨大的參數量,但由于創新性地使用了MoE架構,以及MLA(多頭潛在注意力機制)的方法,每次推理僅激活370億參數(占比總量6%)。這使得DeepSeek R1雖然整體參數量很大,但干活時只需要動用極小的一部分力量。

MoE模型是稀疏模型,

也就是說,并不是每個計算步驟都會用到全部的模型參數,而是通過選取一些專家來參與計算。就好比,有一個專家庫,但是每次干活不是專家庫里的專家全體出動。

DeepSeek R1的驚人之處在于,

1個共享專家和256個專家,

實際上,歷史上,哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽,那就問負載均衡怎么辦?



當然DeepSeek處理得很好,

但是這篇文章不聊這個,按下不表。

DeepSeek每次通過路由專家,只選8個模型,

也就是說只有8個專家干活了,其他閑著。

那么問題來了,你統計工作量的時候,

是不是只算這8個(僅激活370億參數)就夠了。

于是,真正用來比較的,

是千問QWQ-32B和DeepSeek R1模型的37B。

“閑置專家”不在考慮范圍內。

比模型整個的參數規模更難理解的是真正“參與工作”的參數,這個問題確實是伴隨著MoE模型而出現的,從激活量來看,32B(320億參數)比37B(370億參數)少不了多少,這是一種進步。

激活量少了,隨之而來的是,成本降低,性價比提高。另有一個關鍵點,阿里通義千問團隊的這個模型是每個專家每次都在干活,而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的,

MoE的全量大參數對模型能力極有加成,對于每個token激活的是不同的37B(370億參數)這個時候,我想說,QWQ-32B的專家還挺能打的,畢竟DeepSeek R1模型的整體專家數量在這里擺著,長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。

看到這里,我挺激動的,再次為千問團隊高興。

而我更高興的是,DeepSeek最大的價值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

這個問題的答案得問DeepSeek,

他們將MoE技術拉到一個新高度,

又在分布式計算,通信庫等底層基礎設施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利潤率545%,

每秒輸出吞吐量約1.5萬tokens。

(官宣數據14.8k tokens/s)。

我最近聊天的口頭禪就是:

“人家DeepSeek每秒輸出吞吐一萬五,

友商吞吐原地杵。”

一萬五是一次綜合實力的大檢閱。

數字這么好看,這真是一件好事,

整個系統的吞吐量越大越好,

問題在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

問題在于怎么榨干。

一個模型在某種型號的芯片上跑起來,

這個系統的總吞吐量的理論峰值,

是由芯片性能決定的。

芯片性能是上限,

也是工程團隊竭盡全力接近的目標。

做出極高的總吞吐量,夢寐以求。

也就是說,有N個廠商,

每個都跑同樣的DeepSeek R1模型,

每個廠商都用同樣數量的芯片,

誰做到的總吞吐量最高,誰就最賺錢。

這門生意本質就是這點了。

對比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于為何是10倍,得拿另外一篇文章來講。

有興趣的讀者,請在文末留言扣數字1。

阿里千問團隊也有MoE模型的經驗。

或者這么說,DeepSeek的基礎設施是為MOE設計的,效率非常之高,給誰一時都很難超越,不如在自己擅長的技術路線上發展。那天,我和武漢人工智能研究院王金橋院長一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業務量,Dense(稠密)適合To B業務量。”

阿里選擇稠密模型的理由非常充分,

云計算廠商就是服務To B業務的。

一周之后,DeepSeek就搞了開源周,

不得不說,慷慨開源很多MoE底層技術,

商業機密肯定還有很多。

我所知道的是,

稀疏和稠密是兩種完全不同的技術路線,

榨干芯片性能的方法完全不一樣,

把稠密技術路線調為MoE稀疏技術路線談何容易。

當DeepSeek橫空出世,不只是模型,

而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專屬方案。

這時,有一個選擇題擺在大模型廠商面前,

在致敬和學習之后,也要做MoE模型嗎?

這個問題我特別想問千問團隊的人,

無奈周靖人把團隊看得太嚴了。

此時,我想,他們已經給我答案了。

我們回憶一下,在DeepSeek爆火之前,

通義千問72B橫掃企業級市場,

無論中國,還是美國,頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司(Llama)選擇同一種開源市場策略。

面對令人尊敬的挑戰者,

阿里交出了自己的答卷。

競爭還在繼續。



(完)

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

情感大頭說說
2026-04-04 09:49:49
吉林琿烏高速因暴雪致多車相撞,現場一片狼藉!

吉林琿烏高速因暴雪致多車相撞,現場一片狼藉!

吉林烏拉侯
2026-04-04 11:55:58
4-2!穆帥爭二艱難:本菲卡差前二3分,2強決戰不勝=無緣歐冠

4-2!穆帥爭二艱難:本菲卡差前二3分,2強決戰不勝=無緣歐冠

體育知多少
2026-04-04 10:15:48
隴南保安倒騰廢銅套現680萬,反詐民警進門,他指了指墻上的照片

隴南保安倒騰廢銅套現680萬,反詐民警進門,他指了指墻上的照片

白云故事
2026-04-03 20:45:06
央視曝光10大毒零食,老人愛買孩子搶著吃,家長趕緊攔住別害娃

央視曝光10大毒零食,老人愛買孩子搶著吃,家長趕緊攔住別害娃

白淺娛樂聊
2026-04-03 14:09:18
有人用代碼偽造了一臺電腦,還騙過了100多個操作系統?

有人用代碼偽造了一臺電腦,還騙過了100多個操作系統?

差評XPIN
2026-04-04 00:06:38
霍爾木茲海峽,通航大消息!深夜,全線拉升!

霍爾木茲海峽,通航大消息!深夜,全線拉升!

基斯默默
2026-04-04 03:19:07
17歲高中生肝癌晚期,從不喝酒,醫生詢問后明白:常拿1物當夜宵

17歲高中生肝癌晚期,從不喝酒,醫生詢問后明白:常拿1物當夜宵

九哥聊軍事
2026-02-08 22:40:30
為何女人首次偷情上床很難,但后面就會越來越主動呢?

為何女人首次偷情上床很難,但后面就會越來越主動呢?

思絮
2026-04-04 11:01:11
金價要重現歷史了!要有心理準備,月初金價可能將重現2015年歷史

金價要重現歷史了!要有心理準備,月初金價可能將重現2015年歷史

次元君情感
2026-04-04 00:47:52
徹底無緣世界杯?34歲內馬爾或被禁賽12場 辱罵裁判:就像來月經

徹底無緣世界杯?34歲內馬爾或被禁賽12場 辱罵裁判:就像來月經

風過鄉
2026-04-04 09:50:19
連贏英法 中國U16女足殺入決賽:遭爭議紅牌+逼平墨西哥 將戰日本

連贏英法 中國U16女足殺入決賽:遭爭議紅牌+逼平墨西哥 將戰日本

風過鄉
2026-04-04 06:13:50
利空突襲!今晚

利空突襲!今晚

新浪財經
2026-04-04 01:06:19
患者拒絕檢查死亡,構成一級甲等醫療事故

患者拒絕檢查死亡,構成一級甲等醫療事故

新浪財經
2026-04-04 12:45:13
日本LNG船通過霍爾木茲海峽!特朗普宣布“贏了”,遭美情報部門“打臉”:伊朗還有大量導彈,海軍仍有5成實力,速勝是“異想天開”

日本LNG船通過霍爾木茲海峽!特朗普宣布“贏了”,遭美情報部門“打臉”:伊朗還有大量導彈,海軍仍有5成實力,速勝是“異想天開”

每日經濟新聞
2026-04-03 23:47:05
2006年,布拉德·皮特和安吉麗娜·朱莉在越南騎摩托被拍,已20年了

2006年,布拉德·皮特和安吉麗娜·朱莉在越南騎摩托被拍,已20年了

動物奇奇怪怪
2026-04-03 19:28:15
壹點幫辦|準新娘診所輸液后休克昏迷!泰安這家診所“人間蒸發”

壹點幫辦|準新娘診所輸液后休克昏迷!泰安這家診所“人間蒸發”

齊魯壹點
2026-04-03 19:28:42
87歲李昌鈺去世,留下“巨額”遺產分配曝光,兩子女決定讓人意外

87歲李昌鈺去世,留下“巨額”遺產分配曝光,兩子女決定讓人意外

臨云史策
2026-03-30 15:26:45
愛情升溫:5大“性高潮”技巧,讓你的愛情生活更加熾熱

愛情升溫:5大“性高潮”技巧,讓你的愛情生活更加熾熱

精彩分享快樂
2026-03-25 07:05:03
足總杯曼城VS利物浦:生死戰瓜帥4141出擊 4王牌領銜 哈蘭德沖鋒

足總杯曼城VS利物浦:生死戰瓜帥4141出擊 4王牌領銜 哈蘭德沖鋒

零度眼看球
2026-04-04 08:41:42
2026-04-04 13:47:00
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

男子建了18個"5G基站"被政府叫停 發現紅頭文件為偽造

頭條要聞

男子建了18個"5G基站"被政府叫停 發現紅頭文件為偽造

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調拒絕重唱

財經要聞

劉紀鵬:只盼長慢牛,鞏固4000點是關鍵

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

親子
家居
游戲
房產
數碼

親子要聞

杰森的美國同事,自從被炸春卷征服后,對中餐念念不忘了

家居要聞

溫馨多元 愛的具象化

中國電競圈驚天大瓜!世界冠軍深陷丑聞:嗜賭詐騙家暴

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

數碼要聞

型號命名打破常規:三星神秘耳機Able曝光,預估為助聽類設備

無障礙瀏覽 進入關懷版