![]()
今天你「養蝦」了嗎?
開源Agent工具OpenClaw,上線4個月迅速斬獲26.2萬星標,超越Linux登頂GitHub星標榜首。「養蝦」浪潮更是熱到破圈,連上門代裝這種段子都來了:
![]()
這波OpenClaw的破圈,其實正在悄悄改變大家對LLM的使用方式:過去兩年,大多數人對AI產品的認知都停留在一個形態上:對話框。用戶問問題,模型回答問題。
而OpenClaw的出現,把這個模式往前推了一步。它讓AI不再只是“聊天”,而是變成了一個可以調用工具、跨應用執行任務的Agent。但也因此,OpenClaw完成任務的性能表現,會受到“后端”基座模型,和Skill技能文件的極大影響。
所以,如何「科學喂蝦」?
賽博養蝦指南
在OpenClaw的生態里,Agent的能力主要由兩部分決定:Skill(技能)和基座模型。因此這波潑天的流量,首先砸在了OpenClaw的核心Skill平臺ClawHub上。超過5000個社區貢獻的Agent Skills匯集于此,從自動寫代碼、網頁操作,到數據抓取、系統管理,應有盡有,瞬間成為全球AI開發者的「技能批發市場」。
![]()
國內也有一個類似的平臺「水產市場」嶄露頭角。安裝甚至更為簡易:不需要你掌握命令行操作,只要復制prompt,讓已部署的OpenClaw實例自己執行即可。
![]()
AI時代,「水產市場」又何嘗不是一種App Store呢?
![]()
誰是最受歡迎的「蝦腦」?
如果說Skill是OpenClaw的「觸手」,那作為后端基座的模型,就是它的「大腦」。
由于Agent任務往往擁有超長的上下文和執行時間,這類任務對模型性能的考驗,也就尤為重度而特殊。并且用過的人都知道,它對token量的消耗,也是相當巨大的。
Agent 和普通聊天模型最大的不同,是任務通常具備幾個特點:
- 上下文很長
- 執行時間很長
- 需要頻繁tool call
- token消耗巨大
![]()
作為全球最大的模型聚合平臺,OpenRouter匯集了大量真實API調用數據,某種程度上反映了開發者在真實任務中的模型選擇。而其中的OpenClaw作為最受歡迎的Agent,其調用排行榜更是全球龍蝦用戶在真實世界任務里,真刀真槍投票出來的「靠譜度排行」。在這個榜單里,一個來自中國的大模型團隊——階躍星辰,用新發布的Step 3.5 Flash,穩穩接住了這一波又一波的「逮蝦戶」。
OpenRouter平臺數據顯示,3月4日-3月5日 ,Step 3.5 Flash持續登頂全球 OpenClaw用戶調用日榜,霸榜 “小龍蝦”全球第一!
![]()
階躍星辰 CTO朱亦博在Reddit上交了個底:這個結果并不是官方合作推動的,更沒出現在OpenClaw默認預裝的推薦模型list里——換句話說,這個成績,完全是一個個用戶手動配置,一個個token「喂」出來的結果,是無投流動作下用戶的自然選擇。
![]()
蝦農老哥,在線PK
這場發生在reddit的對話,其實是階躍CEO、CTO、首席科學家等11人核心團隊,在r/LocalLLaMA板塊做的一次技術社區實時AMA(有問必答)。如果用國內互聯網語境類比,大概相當于:公司核心團隊直接下場,和開源社區直播連麥。沒有PR稿,沒有準備好的問題。開發者想問什么,就問什么。
![]()
因此,這場溝通的尺度相當之大:有不少用戶進來上演「大型真香現場」:128G內存Mac可做本地部署,速度、性能都令人滿意。
![]()
但也有不少“尖銳的問題”。面對用戶在tool call方面遇到的問題,CTO朱亦博直接回復:是我們的內部測試用例覆蓋不足,推理框架支持方面的經驗也不夠,態度相當誠懇。
![]()
在「如何讓模型保持世界知識」這種涉及到模型細節的問題上,團隊也毫無保留地分享了他們面臨的難題和假設:對于類似規模的中尺寸推理模型而言,是預訓練階段形成的,相對封閉、缺乏知識的亞空間,在對齊階段引發了世界知識受損。
![]()
階躍研發團隊開誠布公的態度,在此前Step 3.5 Flash詳盡的技術報告中就可以窺見,高達65頁,涵蓋模型架構、訓練過程中的診斷和修復機制等諸多細節,甚至是模型目前仍然有待優化的主要性能指標,和未來的技術演進方向。
這種不回避問題、將技術細節和演進方向“掰開揉碎”的溝通方式,有助于在硬核開發者群體中建立長期的技術信任,這也是構建穩固開源生態的關鍵一環。
![]()
開發者模式,啟動!
更重磅的是,你不僅可以本地部署,甚至還能利用官方工具,在自己的數據上繼續訓練Step 3.5 Flash,甚至,更改它的訓練管線和模型結構。
他們在3月4日的一次官方開源動作中,幾乎向全世界開發者,開放了Step 3.5 Flash的「開發者模式」:與此前行業內普遍僅公開推理權重的做法不同,階躍星辰此次開放了預訓練/中訓練權重,以及完整的Steptron訓練框架,讓開發者可以真正上手打造屬于自己的Agent。
![]()
放眼整個大模型社區,此次開源力度可以說相當到位。在過去的大模型開源浪潮中,絕大多數開源內容往往只是:
?后訓練成品模型權重
?推理示例代碼
?推理集成說明
而真正將預訓練權重(Base)+ 中訓練權重(mid-train)+ Steptron 全套訓練框架(含訓練配置、pipeline) 全面開放的案例,十分稀有。
回顧過去兩年的大模型開源浪潮,絕大多數開源項目主要提供的是后訓練成品模型權重,幾乎無法二次微調(SFT),對于希望深入模型底層進行架構創新或預訓練研究的開發者而言,依然面臨著巨大的“黑盒”壁壘。
同時,由于近幾年大模型尺寸和訓練成本的急劇膨脹,就算開放這些更深層的模型細節,真正有能力和意愿去復現的,可能也只是競爭對手。因此在開源社區中,開放訓練階段的權重和全套框架,是個十分少見的選擇。
從預訓練權重到訓練框架的全棧開源,無疑體現了開放協作的開源精神,社區反響熱烈,甚至有一些用戶直呼「源神」。階躍技術團隊此舉,有望吸引更多開發者加入階躍的技術生態,這也恰好呼應了此前階躍星辰「邀請開發者共建Step 4」的承諾。
![]()
能玩能打,戰績可查
Step 3.5 Flash的產品定位,也與當前的行業趨勢高度吻合。作為一個在設計之初就側重于 Agent 應用的基座模型,它在極高并發(峰值可達350 TPS)和復雜任務解析上做了針對性優化。這一特性,使它恰好切中了近期爆發的OpenClaw等現象級開源Agent框架的實際需求。
模型智力層面,Step 3.5 Flash同樣「戰績可查」,在多項測試中均取得了不俗成績。
benchmark
測試內容
成績
SWE-bench Verified
修復真實 GitHub bug
74.4
Terminal-Bench 2.0
操作終端完成任務
51.0
τ2-Bench
agent推理
88.2
對于 Agent 開發者來說,選擇基座模型的核心訴求,便是“低延遲、高指令遵從度和工具調用的準確率”。Step 3.5 Flash 既強且快、便于本地部署的特性,在開源社區迅速與OpenClaw 等框架結合,爆發出了一波強勁的熱潮。這也證明了在真實世界任務里,模型能力與生態工具的互補,比跑分刷榜,要更有含金量。
![]()
誰能成為「源神」?
需求是用出來的。大模型領域的競爭態勢,已從規模、跑分,轉移到「誰更能幫助用戶完成真實任務」這一技能和生態之爭。
隨著硬件算力不可阻擋的持續進步,個人用戶的端側AI,正在爆發出日益增長的想象空間。業內也早有人提出“訓推一體”,讓模型能力不斷適應用戶數據,或是未來大模型演進的方向之一。
![]()
階躍星辰 Step 3.5 Flash 此次的開放策略,或許能推動「深度開源」,成為未來開源大模型新寵——學術界可以基于其訓練框架研究 Scaling Law 的邊界,工業界可以基于其中訓練權重開發垂直領域模型,愛好者則可以探索更有趣的微調玩法。
這種“基礎設施化”的開源,相比單純的模型開源,或許更具長遠價值。
更重要的是,在整個AI和開源社區,「信譽」和「真誠」,可能是和「技術力」同等重要的硬通貨。
以OpenClaw為例,開源世界的諸多案例反復證明:真正長期繁榮的生態,很少僅僅建立在性能優勢之上。
![]()
開發者愿不愿意參與、社區能否持續積累、項目是否能夠不斷被接力推進,往往取決于另一件更樸素的事情——項目發起者是否足夠坦誠,是否愿意把核心能力真正交到社區手中。
當權重、訓練細節乃至技術路線都被擺上臺面,Step 3.5 Flash的「開發者模式」,也被真正交到了全球開源AI社區的開發者手中。開源,不再只是“發布代碼”的姿態,而是一份與全球開發者「共同進化」的契約。而這份契約的基礎,正是信任。
在這個意義上,“源神”或許并不只是參數規模更大、跑分更高的模型,而是那個敢于把底層能力完全打開、也愿意接受社區持續檢驗的項目。技術可以追趕,玩法可以復制,但真誠,很難偽裝。
而真正的“源神”,往往誕生在這種真誠之中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.