![]()
原創:親愛的數據
2025年3月6日,
阿里通義千問團隊推出推理模型
QwQ-32B大語言模型。
看似普通的一則新聞,
發布了一個模型這么件事。
阿里尚未發布詳細的技術報告來解釋QwQ是如何開發的,甚至新聞官網只有742個字。
《QwQ-32B:擁抱強化學習的力量》
![]()
![]()
該怎么理解呢?
我的理解,
QwQ-32B是一款稠密(又稱密集)推理模型。
雖然只有一句話,但是信息量很大。
想讀懂的話,要很多“知識儲備”,
什么是MoE(混合專家模型)?
什么是稠密模型?
什么是推理模型?
模型參數規模怎么對比?
背后隱藏的不少問題都可展開聊,
不如,聊聊有哪些結論?
![]()
![]()
第一點,QWQ模型有一個系列,
阿里在上一版的基礎上,
用了R1也同樣用了的強化學習技術。
好消息是出效果了,不出效果不會放出來。
畢竟這個是開源模型,
只有閉源模型才愿意買廣告胡吹,
開源模型則不需要。
反觀很多大模型友商,
還停留在花錢買彩虹屁的石器時代。
在開源打得如此激烈的當下,顯得尤為又自嗨。
拋開“強不強”不聊,
要知道大模型技術人員的知識體系涇渭分明,
你是做視覺的,就是視覺;
你是自然語言處理的就是自然語言處理,
而強化學習是另外一套知識體系。
強化學習這條道路,
大模型團隊里沒有點技術儲備都發不了力。
阿里畢竟是阿里,
看到強化學習的天花板還能往上推,
就毫不猶豫地往上推。
恭喜阿里出效果,恭喜團隊奮戰有成績。
無獨有偶,一天之前,
2024年的圖靈獎頒給了一對著名的師徒:
Richard Sutton有“強化學習之父”的美名。
Andrew Barto是Sutton的博導。
自1980年代起,
兩位均對強化學習持續做出奠基性貢獻。
一邊是企業界的前沿技術突破,
另一邊則是對強化學習理論基礎的權威認可。
這兩者實際上是相輔相成的,
正是幾十年前奠定的堅實理論基礎,
才使得今天我們能夠在工業界實現如此驚人的技術突破。向強化學習開創者的致敬,向DeepSeek R1團隊,向阿里千問團隊,用強化學習推動模型技術進步的工程師致敬。
![]()
![]()
第二點,在推理模型大火之后,
大家都只做推理模型這一種類型了嗎?
當然不是。
這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。
這也是一個剛剛(2月25日)放出來的新模型,
是Claude 3.5 Sonnet的升級版。
不得不感慨一句,版本號增長得如此之快,
可見軟件版本迭代得多快,
可見其背后的技術進展有多快。
AI的競爭有多激烈。
![]()
![]()
我特別強調,Claude 3.7 Sonnet模型的技術路線,
和QwQ-32B模型大不一樣,完全不同。
QwQ-32B模型強調推理性能,
是一個獨立的推理模型,
而Claude 3.7 Sonnet模型有推理能力(慢思考),
但是Claude團隊把快慢思考集成在一個模型里了,
你想用哪個就選哪個。
![]()
特別注意的是,
選擇按鈕的背后是一個“二合一”的模型,
而不是一個“選項”一個模型,
技術博客上的表述是,人類使用同一個大腦,
既能靜心思考,又有快速反應。
阿里是否也在做和Claude團隊類似的事情,
不得而知。
但是你用推理模型去快問快答簡單問題,
肯定不合適,
比如,你問推理模型“你好”,
模型推理一番回答你,
或者是啰啰嗦嗦回答一堆。
比如,下面這種肯定不行,
日后定會想辦法解決。
![]()
![]()
第三點,為什么QWQ-32B可達到DeepSeek R1的“智商”水平?
尤其是在尺寸差了一個量級的情況下。
在MoE模型出道之后,
模型參數規模不再是名字上掛的那個數字,
比如,DeepSeek R1擁有6710億的巨大的參數量,但由于創新性地使用了MoE架構,以及MLA(多頭潛在注意力機制)的方法,每次推理僅激活370億參數(占比總量6%)。這使得DeepSeek R1雖然整體參數量很大,但干活時只需要動用極小的一部分力量。
MoE模型是稀疏模型,
也就是說,并不是每個計算步驟都會用到全部的模型參數,而是通過選取一些專家來參與計算。就好比,有一個專家庫,但是每次干活不是專家庫里的專家全體出動。
DeepSeek R1的驚人之處在于,
1個共享專家和256個專家,
實際上,歷史上,哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽,那就問負載均衡怎么辦?
![]()
當然DeepSeek處理得很好,
但是這篇文章不聊這個,按下不表。
DeepSeek每次通過路由專家,只選8個模型,
也就是說只有8個專家干活了,其他閑著。
那么問題來了,你統計工作量的時候,
是不是只算這8個(僅激活370億參數)就夠了。
于是,真正用來比較的,
是千問QWQ-32B和DeepSeek R1模型的37B。
“閑置專家”不在考慮范圍內。
比模型整個的參數規模更難理解的是真正“參與工作”的參數,這個問題確實是伴隨著MoE模型而出現的,從激活量來看,32B(320億參數)比37B(370億參數)少不了多少,這是一種進步。
激活量少了,隨之而來的是,成本降低,性價比提高。另有一個關鍵點,阿里通義千問團隊的這個模型是每個專家每次都在干活,而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的,
MoE的全量大參數對模型能力極有加成,對于每個token激活的是不同的37B(370億參數)這個時候,我想說,QWQ-32B的專家還挺能打的,畢竟DeepSeek R1模型的整體專家數量在這里擺著,長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。
看到這里,我挺激動的,再次為千問團隊高興。
而我更高興的是,DeepSeek最大的價值不是被膜拜,而是被超越。
(完)
One More thing
玩MoE模型,如何榨干芯片性能?
這個問題的答案得問DeepSeek,
他們將MoE技術拉到一個新高度,
又在分布式計算,通信庫等底層基礎設施方面大大下了一番功夫,
恭喜DeepSeek,喜提成本利潤率545%,
每秒輸出吞吐量約1.5萬tokens。
(官宣數據14.8k tokens/s)。
我最近聊天的口頭禪就是:
“人家DeepSeek每秒輸出吞吐一萬五,
友商吞吐原地杵。”
一萬五是一次綜合實力的大檢閱。
數字這么好看,這真是一件好事,
整個系統的吞吐量越大越好,
問題在于怎么把吞吐做上去。
人人都知道要榨干芯片性能,
問題在于怎么榨干。
一個模型在某種型號的芯片上跑起來,
這個系統的總吞吐量的理論峰值,
是由芯片性能決定的。
芯片性能是上限,
也是工程團隊竭盡全力接近的目標。
做出極高的總吞吐量,夢寐以求。
也就是說,有N個廠商,
每個都跑同樣的DeepSeek R1模型,
每個廠商都用同樣數量的芯片,
誰做到的總吞吐量最高,誰就最賺錢。
這門生意本質就是這點了。
對比一些友商和DeepSeek的吞吐,
DeepSeek高了10倍。
至于為何是10倍,得拿另外一篇文章來講。
有興趣的讀者,請在文末留言扣數字1。
阿里千問團隊也有MoE模型的經驗。
或者這么說,DeepSeek的基礎設施是為MOE設計的,效率非常之高,給誰一時都很難超越,不如在自己擅長的技術路線上發展。那天,我和武漢人工智能研究院王金橋院長一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業務量,Dense(稠密)適合To B業務量。”
阿里選擇稠密模型的理由非常充分,
云計算廠商就是服務To B業務的。
一周之后,DeepSeek就搞了開源周,
不得不說,慷慨開源很多MoE底層技術,
商業機密肯定還有很多。
我所知道的是,
稀疏和稠密是兩種完全不同的技術路線,
榨干芯片性能的方法完全不一樣,
把稠密技術路線調為MoE稀疏技術路線談何容易。
當DeepSeek橫空出世,不只是模型,
而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專屬方案。
這時,有一個選擇題擺在大模型廠商面前,
在致敬和學習之后,也要做MoE模型嗎?
這個問題我特別想問千問團隊的人,
無奈周靖人把團隊看得太嚴了。
此時,我想,他們已經給我答案了。
我們回憶一下,在DeepSeek爆火之前,
通義千問72B橫掃企業級市場,
無論中國,還是美國,頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司(Llama)選擇同一種開源市場策略。
面對令人尊敬的挑戰者,
阿里交出了自己的答卷。
競爭還在繼續。
![]()
(完)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.