![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!
近日,快手Kwaipilot團隊開源最新一代編程模型KAT-Dev-72B-Exp,這一模型在軟件開發能力評測基準SWE-Bench Verified上取得74.6%的成績,超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型。
KAT-Dev-72B-Exp是KAT-Coder模型強化學習的實驗版本,由快手自研的SeamlessFlow強化學習框架提供技術支撐。KAT-Dev-72B-Exp已上線始智AI-wisemodel開源社區,并且支持一鍵部署成在線體驗或API服務,歡迎大家前去體驗。
![]()
模型地址
https://www.wisemodel.cn/models/Kwaipilot/KAT-Dev-72B-Exp
![]()
KAT-Dev-72B-Exp的框架實現了訓練邏輯與智能體的完全解耦,能夠靈活支持多智能體和在線強化學習等復雜場景。針對復雜Agent場景,Kwaipilot團隊引入了Trie Packing機制,并對訓練引擎進行了重構優化,使模型能夠高效地在共享前綴軌跡上開展訓練,還通過難度感知的策略優化,實現了探索與利用的平衡。值得注意的是,快手發布KAT-Dev-72B-Exp模型開源消息的賬號歸屬為溪流湖科技,企查查信息顯示這是一家快手的關聯企業。在溪流湖科技的官網上,還能看到一款名為“CodeFlicker”AI IDE產品已經進入預約階段,其產品界面與Cursor類似。
![]()
01.
雙管齊下給強化學習提效
在KAT-Dev-72B-Exp的強化學習訓練中,Kwaipilot推出了一套融合樹形軌跡訓練優化(Trie Packing)與熵感知優勢縮放的新方法,顯著提升了強化學習訓練的吞吐量與策略探索能力。
在傳統的大模型Agent訓練中,由于模型在執行任務時會產生包含分支與回溯的樹狀token軌跡,業界普遍采用拆分為多條線性序列的簡化訓練方案。然而,這種方法忽略了軌跡之間的共享結構,容易造成計算冗余。
Kwaipilot的工程團隊重新設計了訓練引擎與注意力內核(attention kernel),并通過樹形梯度修復權重機制,將共享前綴的正反向計算合并,實現了在樹形軌跡上的高效訓練。
實測數據顯示,這一技術方案令整體訓練速度平均提升至原來的2.5倍,大幅提高了強化學習訓練階段的吞吐效率。
強化學習的優化核心在于策略梯度,而優勢函數(Advantage Function)直接決定了每個樣本在參數更新中的影響力。傳統的GRPO算法僅基于組內收益計算優勢值,忽視了策略的探索性,容易使模型過早收斂到局部最優。
針對這一問題,Kwaipilot團隊提出了基于熵的優勢縮放方法。該方法在每個rollout樣本中引入策略熵(Policy Entropy)作為權重調節因子,對高熵樣本(探索性強)放大優勢,對低熵樣本(確定性強)適度抑制。
通過這一機制,模型在保持收斂效率的同時,顯著增強了探索能力,實現了更優的探索—利用平衡。
02.
自研工業級強化學習框架
在訓練KAT-Dev-72B-Exp的過程中,快手還使用了自研的SeamlessFlow工業級強化學習框架,以支持復雜的強化學習場景。快手Kwaipilot團隊曾于今年8月發布SeamlessFlow的技術報告。具體來看,SeamlessFlow共有兩大創新點。
首先,SeamlessFlow引入了獨立的數據平面層,徹底解耦了RL訓練和智能體實現。數據平面的核心是軌跡管理器(Trajectory Manager)。軌跡管理器在智能體與語言模型服務之間靜默記錄所有交互細節,包括輸入輸出及多輪對話的分支結構,從而構建完整的軌跡樹。
這一設計不僅避免重復計算、提升存儲效率,還支持精確的在線與離線策略區分。SeamlessFlow的另一組件是推理管理器(Rollout Manager),它實現了對模型更新與資源調度的無感控制,使得智能體無需適配訓練框架即可實現任務的無縫暫停與恢復,大幅提升了系統靈活性與訓練效率。
![]()
▲數據平面的序列圖(圖源:Kwaipilot)
SeamlessFlow的另一關鍵創新是標簽驅動的資源調度范式,通過為計算資源賦予如“訓練”或“推理”等能力標簽,統一了集中式(Colocated)與分布式架構(Disaggregated)的資源管理模式。
該系統支持時空復用機制,使得具備多標簽的機器可根據任務需求動態切換角色,從而將GPU閑置率降至5%以下,徹底緩解了傳統架構中的流水線空閑問題。
在實際工業場景的驗證中,SeamlessFlow在多項任務中實現了顯著的吞吐量提升與擴展性優勢。
使用32張H800 GPU進行的對比測試顯示,相比主流的VERL框架,SeamlessFlow在單輪RL任務(8k token上下文)中實現了100%的吞吐量提升,整體訓練時間減少62%。這個提升主要來自于數據平面的流式設計和計算資源空閑期的消除。
![]()
在更復雜的智能體RL場景中,SeamlessFlow的優勢更加明顯。在最大生成長度64K token的代碼任務中,SeamlessFlow的吞吐量提升平均提升至原來的1.55倍。
![]()
特別值得注意的是,當集群規模從32塊GPU擴展到64塊時,SeamlessFlow的性能優勢進一步擴大,展現出了可擴展性。
03.
快手持續加碼開源模型
在快手今年的多場財報電話會議中,AI已經成為了繞不開的話題。過去數月內,除了不斷更新視頻生成模型可靈之外,快手還開源了多款覆蓋推理、編程、Embedding等領域的模型,并打造了能根據問題難度自動切換思考模式的KAT-V1自動思考(AutoThink)大模型。
Kwaipilot團隊透露,除了算法與架構優化,Kwaipilot還在構建一套大規模數據環境管理系統,徹底解耦訓練數據、訓練沙盒與訓練框架。這樣的模塊化設計,有望實現數據源的獨立擴展、沙盒環境的安全隔離和訓練框架的靈活切換。未來,這一團隊或將交付更多值得期待的項目。
編輯:成蘊年
----- END -----
![]()
wisemodel相關:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.