337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

70萬獎(jiǎng)金,邀你寫算法:代碼將合入 SGLang 主線

0
分享至

前兩天,面壁智能發(fā)了 MiniCPM-SALA,一個(gè) 9B 參數(shù)的模型,用的是全新的「稀疏+線性」混合注意力架構(gòu)。同一天,他們聯(lián)合 SGLang 和 NVIDIA 發(fā)起了一場(chǎng)比賽:SOAR 2026 稀疏算子加速大獎(jiǎng)賽

總獎(jiǎng)金超過 70 萬人民幣,單支隊(duì)伍最高可得62萬
先說比賽,再聊技術(shù)


這場(chǎng)比賽在比什么

一句話:在消費(fèi)級(jí) GPU 上,把 MiniCPM-SALA 的推理速度榨到極限

參賽者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯,都可以搞。評(píng)測(cè)指標(biāo)就一個(gè):跑完所有請(qǐng)求的總墻鐘時(shí)間,越短越好

硬件方面,需采用 NVIDIA 高端 RTX GPU,與 SALA「端側(cè)跑百萬上下文」的定位是對(duì)齊的

2月25日比賽測(cè)速平臺(tái)即將開放,下面這個(gè)是賽程安排,每周都會(huì)評(píng)選出周冠軍并發(fā)獎(jiǎng)(3月4日將產(chǎn)生第一個(gè)周冠軍)


SOAR 2026 賽程時(shí)間線: https://soar.openbmb.cn/competition 獎(jiǎng)金結(jié)構(gòu)

總決賽冠軍21萬,亞軍7萬,季軍3.5


同時(shí),半決賽冠軍7萬。每周還有周冠軍拿7000塊(一共 9 個(gè)周冠軍,3月4日將產(chǎn)生第一個(gè)周冠軍)


但最值得看的是「特別懸賞獎(jiǎng)」:28 萬


特別懸賞獎(jiǎng)比冠軍獎(jiǎng)金還高

拿這個(gè)獎(jiǎng)的條件是:總榜第一 + 推理性能超越官方設(shè)定的「極速挑戰(zhàn)線」 + 代碼合入 SGLang 主線倉(cāng)庫(kù)。如果冠軍同時(shí)滿足條件,單支隊(duì)伍最高可以拿走 62 萬+

獲獎(jiǎng)還有一個(gè)前提:周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術(shù)博客,冠軍代碼要審核通過并合入 SGLang 主倉(cāng)。所有參賽代碼按 Apache 2.0 開源

也就是說,比賽產(chǎn)出的每一份優(yōu)化最終都會(huì)進(jìn)入 SGLang 開源倉(cāng)庫(kù),所有人都能用

怎么參加

3 人以內(nèi)組隊(duì),免費(fèi)報(bào)名,5 月 27 日前都能報(bào)。2 月 25 日正式開始提交,3 月 4 日榜單開啟。每個(gè)團(tuán)隊(duì)每天最多提交 3 次

比賽周期從 2 月 11 日到 5 月 29 日,中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點(diǎn)是 4 月 8 日,總決賽 5 月 29 日

官方不提供 GPU 算力,選手自行準(zhǔn)備或租用 RTX PRO(或等效)資源。有困難的可以聯(lián)系大賽合作伙伴 FCloud

溝通渠道是 GitHub Issues(技術(shù)問題)、contact@openbmb.cn(賽務(wù))、飛書和 Discord 社區(qū)。每月有一次線上 AMA,SGLang 核心開發(fā)者和 NVIDIA 技術(shù)專家參與


技術(shù)背景:SALA 到底解決什么問題

作為背景,Transformer 處理長(zhǎng)文本有兩堵墻

第一堵是計(jì)算墻。標(biāo)準(zhǔn)注意力的計(jì)算量隨序列長(zhǎng)度平方級(jí)增長(zhǎng),百萬 token 的 prefill 階段延遲會(huì)爆炸

第二堵是顯存墻。自回歸生成時(shí)要存所有歷史 token 的 KV Cache,一個(gè) 8B 模型處理百萬 token,KV Cache 就能占幾十到上百 GB 顯存

目前兩條主流路線,各解決了一半問題

稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線):每個(gè) token 只看一部分關(guān)鍵的 KV,計(jì)算量下來了。但 KV Cache 還是全量存著,顯存問題沒動(dòng)

線性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線):把復(fù)雜度從 O(N2) 降到 O(N),KV Cache 也壓縮了。但這是有損壓縮,長(zhǎng)距離信息的召回精度會(huì)掉

SALA 的做法是把兩條線混在一起用
75% 的層用 Lightning Attention(線性),25% 的層用 InfLLM-V2(稀疏)


MiniCPM-SALA 模型架構(gòu) 兩篇論文支撐這個(gè)架構(gòu)

SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文,分別解決稀疏和線性兩個(gè)模塊的問題

InfLLM-V2:稀疏注意力怎么做

先說行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數(shù)、3 個(gè)注意力模塊(壓縮注意力、選擇注意力、滑窗注意力)、外加一個(gè)門控 MLP 來融合三路輸出。能用,但問題也明顯:參數(shù)多、計(jì)算重、跟標(biāo)準(zhǔn)的「短文本預(yù)訓(xùn)練 → 長(zhǎng)文本微調(diào)」流程不兼容

InfLLM-V2 的思路是零額外參數(shù)。直接復(fù)用 dense attention 的 KV 投影權(quán)重,把選擇注意力和滑窗注意力合并成一個(gè)統(tǒng)一的稀疏模塊,去掉壓縮注意力的輸出(只保留它的 score 用來做塊選擇)

實(shí)際效果:訓(xùn)練時(shí)從 dense 切到 sparse 幾乎沒有 loss 跳變(NSA 切換時(shí) loss 會(huì)飆),短文本直接用 dense 模式不掉速,長(zhǎng)文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

這些加速數(shù)據(jù)是在 kernel 層面的對(duì)比。在端到端推理上,128K 序列長(zhǎng)度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

對(duì)參賽選手來說,這里面的塊選擇機(jī)制(Block Selection)和 LSE Approximation 是關(guān)鍵優(yōu)化點(diǎn)。論文里也寫了,max-pooling 和 top-k 操作還沒有 fuse 進(jìn) kernel,留給了「future work」

HypeNet + HALO:線性注意力怎么接進(jìn)來

從頭訓(xùn)練一個(gè)混合架構(gòu)模型成本很高。HALO 是一個(gè)蒸餾流程,把已經(jīng)訓(xùn)練好的 Transformer 模型轉(zhuǎn)換成 RNN-Attention 混合模型

之前的轉(zhuǎn)換方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的訓(xùn)練數(shù)據(jù)

HALO 只要 2.3B tokens,不到預(yù)訓(xùn)練數(shù)據(jù)的 0.01%

流程分三步:先做隱狀態(tài)對(duì)齊(讓 RNN 層的輸出逼近對(duì)應(yīng)的 attention 層),然后做注意力層選擇(決定哪些層保留為 attention、哪些轉(zhuǎn)成 RNN),最后做知識(shí)蒸餾和微調(diào)

注意力層選擇的策略也值得一看。HALO 的判斷標(biāo)準(zhǔn)是:替換某一層后,召回能力(NIAH 類任務(wù))掉得多、通用能力(常識(shí)推理)掉得少的層,優(yōu)先保留為 attention 層。最終 25% 的層保持 attention,75% 轉(zhuǎn)成 RNN

RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇,Lightning Attention 的長(zhǎng)度泛化能力最好。一個(gè)可能的原因是它用的是數(shù)據(jù)無關(guān)的遺忘門(data-independent forget gate),反而比數(shù)據(jù)依賴的遺忘門泛化更穩(wěn)

HyPE 位置編碼:一個(gè)巧妙的細(xì)節(jié)

HyPE 的做法是:RNN 層用 RoPE,Attention 層用 NoPE(不加位置編碼)

直覺上會(huì)覺得 attention 不加位置編碼信息會(huì)丟失。但邏輯是這樣的:RNN 層天然有位置感知(通過狀態(tài)轉(zhuǎn)移),但感受野有限,主要處理局部依賴。Attention 層負(fù)責(zé)長(zhǎng)距離依賴。去掉 attention 層的 RoPE 之后,歷史 KV Cache 不再綁定位置信息,避免了 RoPE 在超長(zhǎng)序列上的數(shù)值衰減問題

再加一個(gè)位置相關(guān)的 attention logits scaling(推理時(shí)根據(jù)位置動(dòng)態(tài)調(diào)整注意力分?jǐn)?shù)),長(zhǎng)度泛化能力就上來了。不用 YaRN 之類的額外技術(shù),MiniCPM-SALA 可以外推到 2048K


長(zhǎng)度泛化測(cè)試結(jié)果 性能數(shù)據(jù)

短文本能力(知識(shí)問答、數(shù)學(xué)、代碼)跟 Qwen3-8B 等同尺寸 full attention 模型持平

長(zhǎng)文本是優(yōu)勢(shì)所在。256K 序列長(zhǎng)度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成時(shí)間)從 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

Qwen3-8B 在 512K 和 1M 長(zhǎng)度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百萬 token


A6000D 上的推理延遲對(duì)比RTX 5090 上的推理延遲對(duì)比 訓(xùn)練成本

MiniCPM-SALA 的訓(xùn)練路徑是先用 HALO 做架構(gòu)轉(zhuǎn)換(1.3B tokens,序列長(zhǎng)度 512),然后在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)上做持續(xù)訓(xùn)練(314.6B tokens,4K 長(zhǎng)度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步擴(kuò)到 520K),最后 SFT


面壁在技術(shù)報(bào)告里提到,這個(gè)路徑的總訓(xùn)練量是從零訓(xùn)練同水平模型的 25%

幾個(gè)提示

從論文和賽制里能看到幾個(gè)明確的優(yōu)化方向:

InfLLM-V2 論文里寫了,塊選擇階段的 max-pooling 和 top-k 操作還沒做 kernel fusion,留在了 future work。這是一個(gè)確定的優(yōu)化入口

稀疏注意力只加速了 attention 層,F(xiàn)FN 層沒動(dòng)。論文原話:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比賽評(píng)測(cè)關(guān)了 prefix cache,所以 prefill 路徑的優(yōu)化權(quán)重很大(單請(qǐng)求場(chǎng)景占 40% 權(quán)重),這個(gè)場(chǎng)景下稀疏注意力的塊選擇效率直接影響總延遲

允許用官方提供的量化模型,量化策略本身也是優(yōu)化維度

比賽從 2 月 25 日開始提交,5 月 27 日前都能報(bào)名,免費(fèi)參賽,歡迎來玩


以及,有興趣的可以先看看 InfLLM-V2 論文里那幾個(gè)留給 future work 的優(yōu)化點(diǎn),塊選擇的 kernel fusion 和 FFN 層加速,都是實(shí)打?qū)嵉男阅芸臻g。寫出來的代碼最終會(huì)合進(jìn) SGLang 主線,這活兒值得干

比賽官網(wǎng)
https://soar.openbmb.cn/competition

HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA

技術(shù)報(bào)告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 論文:
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 論文:
https://arxiv.org/pdf/2601.22156

SOAR 2026 比賽報(bào)名:
contact@openbmb.cn

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯基拉:烏迪內(nèi)斯很滿意扎尼奧洛,準(zhǔn)備1000萬歐元買斷

斯基拉:烏迪內(nèi)斯很滿意扎尼奧洛,準(zhǔn)備1000萬歐元買斷

懂球帝
2026-03-21 17:01:09
油價(jià)大漲超1.8元/升,2026年5連漲2天后調(diào)價(jià),95汽油普超10元/升

油價(jià)大漲超1.8元/升,2026年5連漲2天后調(diào)價(jià),95汽油普超10元/升

豬友巴巴
2026-03-21 15:40:03
眼看一艘又一艘油輪,加緊運(yùn)進(jìn)中國(guó),美國(guó)決定取消1億桶石油制裁

眼看一艘又一艘油輪,加緊運(yùn)進(jìn)中國(guó),美國(guó)決定取消1億桶石油制裁

戶外釣魚哥阿旱
2026-03-21 15:47:17
得物,從炒鞋到渡劫

得物,從炒鞋到渡劫

于見專欄
2026-03-21 08:21:41
A股最慘股票!43個(gè)跌停從106元跌到0.07元,股民被連根拔起

A股最慘股票!43個(gè)跌停從106元跌到0.07元,股民被連根拔起

財(cái)經(jīng)市界
2026-03-10 08:42:16
武契奇吐槽中國(guó)導(dǎo)彈太貴,150萬歐元一枚,能把北約嚇傻眼

武契奇吐槽中國(guó)導(dǎo)彈太貴,150萬歐元一枚,能把北約嚇傻眼

利刃號(hào)
2026-03-19 17:29:06
赫魯曉夫勸告毛主席:提高人民的生活水平,比搞原子彈好

赫魯曉夫勸告毛主席:提高人民的生活水平,比搞原子彈好

【歷史客棧】
2026-01-25 09:22:53
等我們老了,最扎心的從不是病與死,而是這無聲的“潰敗”

等我們老了,最扎心的從不是病與死,而是這無聲的“潰敗”

青蘋果sht
2026-03-18 05:35:16
在成都,普通人掙錢真的太難了!

在成都,普通人掙錢真的太難了!

重慶地產(chǎn)視野
2026-03-21 11:58:17
實(shí)話確實(shí)很難聽,但這就是阿富汗的真實(shí)情況,和網(wǎng)上說的完全不同

實(shí)話確實(shí)很難聽,但這就是阿富汗的真實(shí)情況,和網(wǎng)上說的完全不同

番外行
2026-03-21 13:50:19
拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠(yuǎn)超世人想象

拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠(yuǎn)超世人想象

半身Naked
2026-03-21 14:55:29
楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

手工制作阿殲
2026-02-22 13:25:34
寵粉天花板!歌迷晚上要回家,深圳鐵路:加開專列

寵粉天花板!歌迷晚上要回家,深圳鐵路:加開專列

南方都市報(bào)
2026-03-21 13:31:05
長(zhǎng)春路虎別車案三大疑團(tuán)待解:誰在施壓?誰在敲門?誰在包庇?

長(zhǎng)春路虎別車案三大疑團(tuán)待解:誰在施壓?誰在敲門?誰在包庇?

聽心堂
2026-03-20 10:43:20
內(nèi)塔尼亞胡失算了,擊中俄羅斯人后,普京一聲令下,以色列恐遭殃

內(nèi)塔尼亞胡失算了,擊中俄羅斯人后,普京一聲令下,以色列恐遭殃

觸摸史跡
2026-03-21 03:58:23
美媒:一旦中國(guó)收復(fù)臺(tái)灣,美軍將全面空襲中國(guó),解放軍會(huì)迎戰(zhàn)嗎?

美媒:一旦中國(guó)收復(fù)臺(tái)灣,美軍將全面空襲中國(guó),解放軍會(huì)迎戰(zhàn)嗎?

混沌錄
2026-03-20 21:10:08
科爾:波爾津吉斯傷退對(duì)我們有一定影響,下半場(chǎng)球隊(duì)徹底失控

科爾:波爾津吉斯傷退對(duì)我們有一定影響,下半場(chǎng)球隊(duì)徹底失控

懂球帝
2026-03-21 14:00:16
等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

冒泡泡的魚兒
2026-03-18 14:40:23
毒性是氰化鉀的11倍,3克就能致人死亡!卻被農(nóng)民當(dāng)寶大量種植?

毒性是氰化鉀的11倍,3克就能致人死亡!卻被農(nóng)民當(dāng)寶大量種植?

鯨探所長(zhǎng)
2026-03-20 14:28:02
廣東省退休人員迎來3個(gè)好消息:事關(guān)養(yǎng)老金、醫(yī)保、喪葬費(fèi)!

廣東省退休人員迎來3個(gè)好消息:事關(guān)養(yǎng)老金、醫(yī)保、喪葬費(fèi)!

云鵬敘事
2026-03-21 16:16:05
2026-03-21 17:20:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

CMG盛典獲獎(jiǎng)名單:章子怡高葉同獲影后

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
手機(jī)
公開課

教育要聞

男子分享:一定告訴孩子花錢要看能力

藝術(shù)要聞

貴州山里的“小香港”,曾經(jīng)上萬人熱火朝天,現(xiàn)在只剩一片荒涼

親子要聞

這味道不對(duì)啊

手機(jī)要聞

OPPO新機(jī)、平板齊曝光,還有一加15T詳細(xì)參數(shù)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版