337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek與字節跳動踏進同一條河

0
分享至

本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議


新年前夕,DeepSeek發表了一篇聚焦神經網絡架構創新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構,直指大規模模型訓練中的穩定性難題。

這一工作為硬件受限的中國 AI 企業開辟了一條兼顧性能與效率的路徑,也與字節跳動早前在殘差流優化上的探索形成關鍵呼應,二者均瞄準殘差連接這一模型基礎架構進行改造。

DeepSeek的研究,恰恰是對字節跳動“超連接”技術短板的系統性補位。這一成果不僅為大模型底層架構的工業化落地提供了新方案,再度印證了硬件約束可轉化為創新動力的產業演進邏輯。

自2016年ResNet 提出以來,殘差連接已成為深度學習的骨架式設計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結構。

長期以來,業界創新多集中于注意力機制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩定”中,直至2024 年字節跳動以超連接(HyperConnection)技術打破這一局面。

字節跳動的超連接通過拓寬殘差流寬度、構建多路并行信號流,并讓模型學習流間的交互模式,顯著提升了模型表達能力。然而,該技術在規模化訓練中暴露出致命短板:信號發散

DeepSeek的測試顯示,在270億參數模型的訓練中,約12000步后梯度范數劇烈波動,訓練崩潰;更嚴重的是,信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達力,放棄了殘差連接原有的恒等映射約束——小規模下尚可調參掩蓋,但在大規模訓練中,這一缺陷被急劇放大。

mHC的核心創新,是將可學習的變換矩陣約束在雙重隨機矩陣(doubly stochastic matrix)構成的流形上。這相當于為信號傳播設立“剛性預算”:矩陣每行、每列元素之和均為1且非負,確保輸出信號強度嚴格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

更關鍵的是,雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩定。實驗表明,在超連接出現3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進行投影,僅需20輪迭代即可收斂,額外訓練成本被壓制在6.7%

硬件約束倒逼的不只是算法創新,更是全鏈路的系統級優化。超連接拓寬殘差流后,每層數據讀寫量倍增,在A800/A100的有限互聯帶寬下,芯片極易陷入“等待數據遠多于計算”的效率陷阱。DeepSeek通過三項關鍵技術破局:

1.算子融合:將內存訪問模式相近的操作合并為單一GPU內核,減少數據搬運;

2.反向傳播重計算:不存儲中間激活值,改為實時重算,以計算換內存;

3.流水線并行優化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

這些優化將原本隨層數線性增長的內存開銷,轉化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內核(bfloat16 為主,float32 保關鍵精度),實現了全參數規模下的穩定性能提升。測試中,30億至270 億參數模型搭載mHC后均表現優異,270億模型在BIG-Bench Hard復雜推理任務上提升 2..1%,在 DROP閱讀理解任務上提升2.3%

此前,V3架構論文對應V3模型,R1推理論文對應R1模型;本次mHC論文在 2026 年春節前三周發布,外界普遍預期下一代旗艦模型(R2)即將亮相。

這種“論文先行”的策略,既通過同行評議建立技術公信力,又在復雜地緣環境中為原創性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業的核心競爭力,并非依賴尖端算力芯片

DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統期刊發布成果,雖犧牲部分學術聲望,卻換來了技術傳播的速度與可達性。這種開放模式加速了知識擴散,也對同行構成直接競爭壓力:當 mHC 的性能增益可量化、實現可復現時,西方實驗室要么跟進類似技術,要么必須論證自身路徑的優越性。

此前R1 型已觸發推理模型研發熱潮,mHC架構很可能推動殘差流優化進入新一輪迭代。更重要的是,這一模式向技術管制者傳遞了清晰信號:硬件限制并未扼殺創新,反而迫使中國 AI 企業走向“從數學根源解決問題”的最本質路徑。

字節跳動與 DeepSeek,先后踏入同一條“突破傳統殘差流”的創新之河。前者率先探路,卻止步于規模化瓶頸;后者在硬件約束的倒逼下,憑借數學約束與系統級優化,架起了一座可通航的技術之橋

距離2026年春節僅剩六周,R2模型的發布將檢驗mHC架構的工業化成色。無論最終基準測試結果如何,這條“在約束中創新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創新的絆腳石,而是催生真正核心突破的催化劑。

轉載開白 | 商務合作 | 內容交流
請添加微信:jinduan008
添加微信請備注姓名公司與來意

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
千萬不要小看F-35,雖然打不過殲-20,卻是東風快遞、紅旗導彈的巨大威脅

千萬不要小看F-35,雖然打不過殲-20,卻是東風快遞、紅旗導彈的巨大威脅

利刃號
2026-02-02 19:07:20
去世老師公司被二代惦記上了

去世老師公司被二代惦記上了

毒舌扒姨太
2026-03-27 22:45:40
金庸把最難聽的名字給了他,小時候覺得霸氣,長大后讀出來都臉紅

金庸把最難聽的名字給了他,小時候覺得霸氣,長大后讀出來都臉紅

耳東文史
2026-03-28 00:03:04
原來她是張雪峰前妻,90后歷史學博士?,兩人離婚后曾一起上節目

原來她是張雪峰前妻,90后歷史學博士?,兩人離婚后曾一起上節目

大鐵貓娛樂
2026-03-25 13:03:57
遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發現

遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發現

奇思妙想草葉君
2026-03-26 02:36:58
大外交|美國“帶著炸彈談判”,中方密集外交促和:斡旋伊朗局勢的關鍵變量

大外交|美國“帶著炸彈談判”,中方密集外交促和:斡旋伊朗局勢的關鍵變量

澎湃新聞
2026-03-27 22:10:26
城投集團,當地“少爺,少奶奶”的專屬崗位?

城投集團,當地“少爺,少奶奶”的專屬崗位?

奇葩游戲醬
2026-03-27 01:17:17
西方航運集體裝死,中國甩出王炸逆勢復航?這回老美怕是要氣瘋了

西方航運集體裝死,中國甩出王炸逆勢復航?這回老美怕是要氣瘋了

云舟史策
2026-03-28 07:23:54
為什么中國不軍事援助伊朗?看完發現,印度三哥才是最牛逼的

為什么中國不軍事援助伊朗?看完發現,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

星星沒有你亮
2026-03-22 08:48:35
美伊一戰,“打醒”3個亞洲國家,中國已經不用再多說啥了!

美伊一戰,“打醒”3個亞洲國家,中國已經不用再多說啥了!

曉徙娛樂
2026-03-27 19:05:00
“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內存條幾十塊錢,漲到了五六百

“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內存條幾十塊錢,漲到了五六百

觀威海
2026-03-28 18:47:03
張雪峰突然離世,生前他這樣評價書法專業,至今發人深思!

張雪峰突然離世,生前他這樣評價書法專業,至今發人深思!

書法網
2026-03-26 17:35:11
超越東契奇!約老師56次轟下30+三雙 升至歷史第二位

超越東契奇!約老師56次轟下30+三雙 升至歷史第二位

北青網-北京青年報
2026-03-28 20:50:14
增漲60%!房價將報復性暴漲!

增漲60%!房價將報復性暴漲!

童童聊娛樂啊
2026-03-28 12:22:22
1299 元!剛發布 10100mAh新機,把我看呆了

1299 元!剛發布 10100mAh新機,把我看呆了

科技堡壘
2026-03-27 12:35:52
西媒:皇馬現金流緊張僅剩340萬歐元,總負債約為17.8億歐元

西媒:皇馬現金流緊張僅剩340萬歐元,總負債約為17.8億歐元

懂球帝
2026-03-28 21:40:23
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
醫生:心梗最危險信號,不是胸痛,而是頻繁出現這4種異常

醫生:心梗最危險信號,不是胸痛,而是頻繁出現這4種異常

蜉蝣說
2026-03-28 18:17:02
豐田把電動車打到10萬以內,合資廠終于學會掀桌了

豐田把電動車打到10萬以內,合資廠終于學會掀桌了

薛定諤的BUG
2026-03-26 03:31:01
2026-03-29 00:03:00
錦緞研究院 incentive-icons
錦緞研究院
專注上市公司價值發現與傳播
2486文章數 10824關注度
往期回顧 全部

科技要聞

華為盤古大模型負責人王云鶴確認離職

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經要聞

臥底"科技與狠活"培訓:化工調味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

教育
本地
健康
家居
公開課

教育要聞

為什么中國學生會被QS排名牽著鼻子走?

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

干細胞抗衰4大誤區,90%的人都中招

家居要聞

曲線華爾茲 現代簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版