網易首頁 > 網易號 > 正文申請入駐

訓練效率翻倍，快手拿下開源編程模型第一

2025-11-20 20:55:29　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

近日，快手Kwaipilot團隊開源最新一代編程模型KAT-Dev-72B-Exp，這一模型在軟件開發能力評測基準SWE-Bench Verified上取得74.6%的成績，超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型。

KAT-Dev-72B-Exp是KAT-Coder模型強化學習的實驗版本，由快手自研的SeamlessFlow強化學習框架提供技術支撐。KAT-Dev-72B-Exp已上線始智AI-wisemodel開源社區，并且支持一鍵部署成在線體驗或API服務，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/Kwaipilot/KAT-Dev-72B-Exp

KAT-Dev-72B-Exp的框架實現了訓練邏輯與智能體的完全解耦，能夠靈活支持多智能體和在線強化學習等復雜場景。針對復雜Agent場景，Kwaipilot團隊引入了Trie Packing機制，并對訓練引擎進行了重構優化，使模型能夠高效地在共享前綴軌跡上開展訓練，還通過難度感知的策略優化，實現了探索與利用的平衡。值得注意的是，快手發布KAT-Dev-72B-Exp模型開源消息的賬號歸屬為溪流湖科技，企查查信息顯示這是一家快手的關聯企業。在溪流湖科技的官網上，還能看到一款名為“CodeFlicker”AI IDE產品已經進入預約階段，其產品界面與Cursor類似。

01.

雙管齊下給強化學習提效

在KAT-Dev-72B-Exp的強化學習訓練中，Kwaipilot推出了一套融合樹形軌跡訓練優化（Trie Packing）與熵感知優勢縮放的新方法，顯著提升了強化學習訓練的吞吐量與策略探索能力。

在傳統的大模型Agent訓練中，由于模型在執行任務時會產生包含分支與回溯的樹狀token軌跡，業界普遍采用拆分為多條線性序列的簡化訓練方案。然而，這種方法忽略了軌跡之間的共享結構，容易造成計算冗余。

Kwaipilot的工程團隊重新設計了訓練引擎與注意力內核（attention kernel），并通過樹形梯度修復權重機制，將共享前綴的正反向計算合并，實現了在樹形軌跡上的高效訓練。

實測數據顯示，這一技術方案令整體訓練速度平均提升至原來的2.5倍，大幅提高了強化學習訓練階段的吞吐效率。

強化學習的優化核心在于策略梯度，而優勢函數（Advantage Function）直接決定了每個樣本在參數更新中的影響力。傳統的GRPO算法僅基于組內收益計算優勢值，忽視了策略的探索性，容易使模型過早收斂到局部最優。

針對這一問題，Kwaipilot團隊提出了基于熵的優勢縮放方法。該方法在每個rollout樣本中引入策略熵（Policy Entropy）作為權重調節因子，對高熵樣本（探索性強）放大優勢，對低熵樣本（確定性強）適度抑制。

通過這一機制，模型在保持收斂效率的同時，顯著增強了探索能力，實現了更優的探索—利用平衡。

02.

自研工業級強化學習框架

在訓練KAT-Dev-72B-Exp的過程中，快手還使用了自研的SeamlessFlow工業級強化學習框架，以支持復雜的強化學習場景。快手Kwaipilot團隊曾于今年8月發布SeamlessFlow的技術報告。具體來看，SeamlessFlow共有兩大創新點。

首先，SeamlessFlow引入了獨立的數據平面層，徹底解耦了RL訓練和智能體實現。數據平面的核心是軌跡管理器（Trajectory Manager）。軌跡管理器在智能體與語言模型服務之間靜默記錄所有交互細節，包括輸入輸出及多輪對話的分支結構，從而構建完整的軌跡樹。

這一設計不僅避免重復計算、提升存儲效率，還支持精確的在線與離線策略區分。SeamlessFlow的另一組件是推理管理器（Rollout Manager），它實現了對模型更新與資源調度的無感控制，使得智能體無需適配訓練框架即可實現任務的無縫暫停與恢復，大幅提升了系統靈活性與訓練效率。

▲數據平面的序列圖（圖源：Kwaipilot）

SeamlessFlow的另一關鍵創新是標簽驅動的資源調度范式，通過為計算資源賦予如“訓練”或“推理”等能力標簽，統一了集中式（Colocated）與分布式架構（Disaggregated）的資源管理模式。

該系統支持時空復用機制，使得具備多標簽的機器可根據任務需求動態切換角色，從而將GPU閑置率降至5%以下，徹底緩解了傳統架構中的流水線空閑問題。

在實際工業場景的驗證中，SeamlessFlow在多項任務中實現了顯著的吞吐量提升與擴展性優勢。

使用32張H800 GPU進行的對比測試顯示，相比主流的VERL框架，SeamlessFlow在單輪RL任務（8k token上下文）中實現了100%的吞吐量提升，整體訓練時間減少62%。這個提升主要來自于數據平面的流式設計和計算資源空閑期的消除。

在更復雜的智能體RL場景中，SeamlessFlow的優勢更加明顯。在最大生成長度64K token的代碼任務中，SeamlessFlow的吞吐量提升平均提升至原來的1.55倍。

特別值得注意的是，當集群規模從32塊GPU擴展到64塊時，SeamlessFlow的性能優勢進一步擴大，展現出了可擴展性。

03.

快手持續加碼開源模型

在快手今年的多場財報電話會議中，AI已經成為了繞不開的話題。過去數月內，除了不斷更新視頻生成模型可靈之外，快手還開源了多款覆蓋推理、編程、Embedding等領域的模型，并打造了能根據問題難度自動切換思考模式的KAT-V1自動思考（AutoThink）大模型。

Kwaipilot團隊透露，除了算法與架構優化，Kwaipilot還在構建一套大規模數據環境管理系統，徹底解耦訓練數據、訓練沙盒與訓練框架。這樣的模塊化設計，有望實現數據源的獨立擴展、沙盒環境的安全隔離和訓練框架的靈活切換。未來，這一團隊或將交付更多值得期待的項目。

編輯：成蘊年

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.