337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

21GB模型跑贏Claude:開源AI的意外勝利

0
分享至

一個21GB的量化模型,在筆記本電腦上畫出的鵜鶘騎自行車,居然打敗了Anthropic最新旗艦。Simon Willison的"鵜鶘基準測試"今天出了怪結果——Qwen3.6-35B-A3B的SVG代碼不僅更干凈,連自行車車架都沒畫歪。

這個玩笑測試,為什么突然值得認真看


Willison從去年10月開始用"鵜鶘騎自行車"當模型測試。初衷是諷刺:當所有人都在比數學推理、代碼能力、多模態理解時,找個荒謬任務反而能暴露模型的真實性格。

詭異的是,這個玩笑居然成立了。2024年10月的第一批鵜鶘"完全是垃圾"。之后每次主流模型更新,鵜鶘質量確實在提升——Gemini 3.1 Pro已經能畫出"真的能用"的插圖。

直到今天,這條規律被打破了。

Qwen3.6-35B-A3B是阿里巴巴開源的混合專家模型(Mixture-of-Experts,MoE),總參數量235B,但每次前向傳播只激活35B。Willison跑的是Unsloth團隊量化的4bit版本,文件體積壓到20.9GB,用LM Studio在MacBook Pro M5本地部署。

Claude Opus 4.7則是Anthropic當天發布的閉源旗艦,API定價遠高于Qwen的開源權重。

結果:Opus 4.7的自行車車架結構錯誤,第二輪用thinking_level: max參數重試,"也沒好多少"。Qwen的火烈鳥獨輪車測試還額外貢獻了「」的注釋彩蛋。

正方:開源量化模型的工程勝利

這件事首先說明量化技術(Quantization,將模型權重從高精度壓縮到低精度)已經成熟到不損核心能力的地步。

Unsloth的GGUF格式把235B參數的MoE模型壓進21GB,消費級筆記本能流暢運行。一年前這是不可想象的——當時70B模型量化后還會嚴重失真。

MoE架構的本地部署效率也被驗證。35B激活參數意味著推理成本可控,而總參數量保證了知識容量。Willison的測試場景恰好擊中MoE的甜點:創意生成任務對絕對精度要求不高,但需要足夠的知識廣度來組合"鵜鶘"+"自行車"這種罕見概念。

更深層看,這是開源生態的系統性優勢。Qwen權重開放后,Unsloth可以立即優化量化方案,LM Studio可以快速集成,社區能自發形成"筆記本本地跑SOTA模型"的完整工具鏈。閉源模型的迭代再快,也繞不過API延遲和成本結構。

反方:一個插圖測試說明不了什么

Willison自己承認,"非常懷疑21GB量化版本比Anthropic最新閉源版本更強大或更有用"。

鵜鶘測試的樣本量極小,且SVG生成是特定技能。Opus 4.7可能在長文本推理、復雜工具調用、多輪對話一致性等維度全面領先——這些才是企業付費的核心場景。

Anthropic的thinking_level參數設計也耐人尋味。max模式意味著模型會投入更多計算資源做內部推理,但Willison的測試顯示"沒好多少"。這可能暴露Opus 4.7在視覺-空間理解上的真實短板,也可能只是該參數對插圖任務不適用。

更關鍵的質疑:如果實驗室真的針對流行基準做訓練,為什么偏偏漏掉Willison的鵜鶘?他的"秘密備份測試"火烈鳥獨輪車,Qwen依然勝出——但這只有兩個數據點。

我的判斷:能力評估的范式正在崩潰

這件事的真正價值,不在于證明Qwen>Opus,而在于暴露了我們根本沒有可靠的模型評估體系。

當21GB本地模型能在特定任務擊敗API旗艦,"參數規模=能力"的敘事就破產了。MoE架構讓總參數和激活參數脫鉤,量化技術讓部署規模和原始性能脫鉤,開源生態讓迭代速度和發布日期脫鉤。

Willison的鵜鶘玩笑之所以有效,恰恰因為它測試的是"未經優化的原始能力"——沒有公開訓練數據、沒有針對性微調、沒有提示工程陷阱。這種"野生測試"反而可能比MMLU、HumanEval等標準基準更真實,因為后者已被過度擬合。

對從業者的直接啟示:評估模型必須回歸具體場景。如果你需要批量生成SVG插圖,本地部署的量化Qwen可能是成本最優解;如果你需要處理200頁法律文檔的跨頁引用,Opus的上下文窗口和推理深度可能不可替代。

沒有 universal 的更好,只有 contextual 的更適合。

阿里巴巴Qwen團隊的開源策略正在收獲復利。從Qwen2到Qwen3.6,他們持續釋放可商用的權重,允許社區進行二次開發。這種"基礎設施化"的定位,與Anthropic的"高端服務"定位形成差異化競爭。

最終,鵜鶘騎自行車的荒謬畫面,成了AI行業最誠實的鏡子:當技術迭代速度超過評估體系進化速度,所有排名都是臨時的,所有結論都是局部的,所有"勝利"都需要加一串限定詞才能成立。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
交配成了社交手段!倭黑猩猩已將性行為完全從繁育功能中剝離出來

交配成了社交手段!倭黑猩猩已將性行為完全從繁育功能中剝離出來

怪羅
2026-04-20 14:51:58
機器人半馬最詭異機器人出現,網友:半夜送外賣要被嚇死

機器人半馬最詭異機器人出現,網友:半夜送外賣要被嚇死

第一財經資訊
2026-04-19 11:39:06
穆里尼奧遇冰火兩重天,點球與反點球,絕殺與反絕殺,這就是足球

穆里尼奧遇冰火兩重天,點球與反點球,絕殺與反絕殺,這就是足球

穆里尼奧主義者
2026-04-20 12:48:09
趙心童沒讓眾星徹底嘆服!希金斯:他可能達到小特高度但無法更高

趙心童沒讓眾星徹底嘆服!希金斯:他可能達到小特高度但無法更高

楊華評論
2026-04-18 18:39:32
55歲大媽再婚39歲小伙,大媽:他太過分,小伙:這是你的責任

55歲大媽再婚39歲小伙,大媽:他太過分,小伙:這是你的責任

烙任情感
2026-04-20 09:35:28
日本自衛隊一訓練場發生彈藥爆炸,傷情正在確認中

日本自衛隊一訓練場發生彈藥爆炸,傷情正在確認中

新京報
2026-04-21 10:11:07
看完了伊朗,再看中國,盧卡申科做出神預測,特朗普怕的就是這個

看完了伊朗,再看中國,盧卡申科做出神預測,特朗普怕的就是這個

有范又有料
2026-04-20 17:30:12
恒大暴雷之前,許家印為什么沒有跑?

恒大暴雷之前,許家印為什么沒有跑?

擔撲
2026-04-19 13:40:25
安徽阜陽一服刑人員在監獄突然死亡,檢察院重新認定為“非正常死亡”,獄警一審因虐待被監管人員罪獲刑

安徽阜陽一服刑人員在監獄突然死亡,檢察院重新認定為“非正常死亡”,獄警一審因虐待被監管人員罪獲刑

極目新聞
2026-04-20 10:46:44
萊斯特城:從英超冠軍到三級跳降級

萊斯特城:從英超冠軍到三級跳降級

體壇觀察猿
2026-04-20 22:38:57
大結局預熱?馬英九親筆簽名通告來了,用語平和客觀,蕭旭岑回復

大結局預熱?馬英九親筆簽名通告來了,用語平和客觀,蕭旭岑回復

靚仔情感
2026-04-20 18:57:35
正式復出?杜蘭特右膝傷情曝光,本人態度堅決,是時候做出抉擇了

正式復出?杜蘭特右膝傷情曝光,本人態度堅決,是時候做出抉擇了

萌蘭聊個球
2026-04-21 08:17:13
單價飆升三倍也要毀約,表面老實巴交的馬來西亞究竟藏了多深

單價飆升三倍也要毀約,表面老實巴交的馬來西亞究竟藏了多深

寰球經緯所
2026-04-20 21:58:07
萬斯及美國代表團 將在數小時內抵達巴基斯坦

萬斯及美國代表團 將在數小時內抵達巴基斯坦

每日經濟新聞
2026-04-20 22:32:54
上海男童被虐致死案將宣判:兒子去世前曾給鄰居說愛媽媽

上海男童被虐致死案將宣判:兒子去世前曾給鄰居說愛媽媽

大象新聞
2026-04-20 22:07:05
看球24年,我終于敢說這句真話:國足踢不過日本,真不是缺天才

看球24年,我終于敢說這句真話:國足踢不過日本,真不是缺天才

圣西羅的太陽
2026-04-21 09:28:55
一句真話擊碎所有,汪小菲點破,張蘭丈夫本就不待見她

一句真話擊碎所有,汪小菲點破,張蘭丈夫本就不待見她

秋姐居
2026-04-20 11:38:11
美軍有多可怕?美專家:一旦出動全部軍力,全球聯合也沒法抗衡!

美軍有多可怕?美專家:一旦出動全部軍力,全球聯合也沒法抗衡!

健身狂人
2026-04-20 18:36:21
你見過老板是怎么把生意干黃的?網友:拿了雙一次性筷子還追出來

你見過老板是怎么把生意干黃的?網友:拿了雙一次性筷子還追出來

夜深愛雜談
2026-04-20 09:31:31
好涼薄,80后的朋友去世了葬禮上倆孩子低頭玩手機,沒一人哭!

好涼薄,80后的朋友去世了葬禮上倆孩子低頭玩手機,沒一人哭!

燈錦年
2026-04-21 06:40:09
2026-04-21 10:55:00
算力游俠
算力游俠
游走在API與報錯之間,用魔法(AI)打敗魔法的非硬核玩家。
1613文章數 18關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

“被優化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發時隔16年再賣樓,變現數億資產

財經要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

藝術
教育
旅游
健康
時尚

藝術要聞

任伯年寫竹,真帶勁

教育要聞

“學碩不讓讀,專碩21.8萬!”復旦讓普通人看清現實:沒錢別硬卷

旅游要聞

2026八達嶺夜長城4月30日起煥新開放

干細胞抗衰4大誤區,90%的人都中招

“爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

無障礙瀏覽 進入關懷版