![]()
編輯|Panda
2026 年初這幾個月,隨著 OpenClaw 的爆火,AI 領域也正式步入了 Harness 時代。在這股浪潮中,MiniMax 憑借其敏銳的技術嗅覺,成為了這場變革中的一大核心焦點。
其近期相繼推出的云端 AI 助手MaxClaw以及剛剛全新發布的MaxHermes便是最佳例證。這兩款應用分別基于 OpenClaw 架構以及近幾天大熱的 Hermes Agent 構建,徹底掃清了本地部署服務器與配置 API 密鑰的工程門檻。
![]()
![]()
其中,MaxClaw 已在用戶規模上躋身同類服務第一梯隊。而剛面世的 MaxHermes 則能通過「自主智能演化」機制,在完成每一項復雜任務后都解鎖全新的專屬技能,持續擴張能力邊界。此外,MaxHermes 實現了 10 秒以內的極速部署與全天候穩定可用,并支持全場景接入,用戶無需切換第三方平臺,在日常聊天應用中即可直接開啟實時對話。
這種從單機工具走向大規模云端部署的爆發式增長,讓底層系統瞬間涌入海量的并發請求,也揭示了當前 AI 領域的一個核心命題:應用落地正面臨極其殘酷的工程大考
站在行業演進的客觀視角,這輪大爆發標志著一場 AI Agent 架構重心的大轉移:早期的智能體主要基于Context Engineering架構,重點在于將問題描述清楚,給模型提供更多輸入,以優化其「認知能力」。
然而,隨著應用深入真實業務場景,行業正迅速向Harness Engineering架構演進。這一全新架構要求智能體深入本地數據、辦公應用并完成最終動作交付,其實質是賦予大模型強大的自主「執行能力」。正如 OpenAI 的《Harness Engineering》博客文章說的那樣:「Humans steer. Agents execute.(人類掌舵。智能體執行。)」
當數以十萬計的智能體并發執行這類高權限與多步驟的復雜任務時,傳統的系統架構往往難以支撐。業界十分好奇:MiniMax 是如何扛住 MaxClaw 和 MaxHermes 如此龐大的流量洪峰并保證業務穩定的?
近期,阿里云與 MiniMax 披露了一些底層技術合作,為我們解開了這道超級智能體背后的基礎設施謎題。
本文將基于此,深度剖析 MiniMax 究竟是如何借助阿里云的云原生方案重塑了 Agent 運行底座,撐起了智能體時代的系統變革。
可用→落地
企業級 Agent 的四道鴻溝
毫無疑問,對于個人開發者與輕量級自動化場景而言,OpenClaw 與 Hermes Agent 所代表的 Harness Engineering 架構展現出了很高的應用價值:部署靈活、接入成本低,能夠快速連接本地文件系統、桌面應用和瀏覽器環境,較好滿足通用任務自動化需求。
然而,當 AI Agent 試圖步入企業級生產環境時,問題的核心也會隨之發生轉移:企業更關注系統能否在安全、穩定、可控、可運維的前提下持續運行
客觀剖析 OpenClaw 與 Hermes Agent 此類本地單機執行框架,在應對企業級復雜業務時,往往會暴露出四道難以逾越的關鍵鴻溝:
![]()
第一道鴻溝在于極度敏感的安全邊界:企業的核心痛點在于執行鏈路的絕對可控。OpenClaw 與 Hermes Agent 直接運行于宿主操作系統之上,天然具備 Shell 執行、文件讀寫等高危權限。一旦大模型遭遇提示詞注入,極易引發越權操作與惡意代碼執行。公開披露的信息顯示,截至 2026 年 3 月,OpenClaw 已累計披露 82 個 CVE 漏洞。這意味著僅僅具備本地執行能力遠遠不夠,平臺也必須擁有更堅固的沙箱隔離機制。
第二道鴻溝是長任務執行中的狀態易失性:AI Agent 的運行模式正從短時交互演變為多階段、跨會話的長流程任務。這要求系統必須能夠持續維護上下文記憶與執行進度。OpenClaw 與 Hermes Agent 的設計重心偏向單體運行時,在持久化狀態管理上能力受限。一旦遇到實例重啟或網絡中斷,任務上下文極易丟失,難以支撐企業級業務閉環的要求。
第三道鴻溝是大規模集群運維的系統性困境:真正的企業級挑戰在于海量實例的統一調度。OpenClaw 與 Hermes Agent 的架構更適合單機自治部署。當企業需要并發運行數十萬級 Agent 時,如何實現彈性調度、版本灰度升級與故障自愈,成為了單機框架無法解決的系統級難題。
第四道鴻溝是成本消耗與劇烈負載波動之間的博弈:OpenClaw 與 Hermes Agent 這類自治型 Agent 通常需要常駐運行以維持維持會話狀態、心跳檢測和任務響應能力。這種模式在空閑期會持續占用計算資源并產生較高的基礎成本。而在復雜任務被觸發的瞬間,模型推理與工具調用又會在極短時間內急劇拉升 CPU 與內存消耗。這種波谷空轉與波峰搶占的典型特征,使得企業在面臨規模化場景時,承受著巨大的成本控制與資源調度壓力。
MaxClaw 與 MaxHermes 的云上重構與
阿里云 ACK/ACS 破局
面對本地單機執行框架在生產環境中暴露出的底層鴻溝,單純在應用層修補代碼已無濟于事。MiniMax 的研發團隊選擇了一條云原生重構的道路。
在 MaxClaw 與 MaxHermes 的整體架構中,他們拋棄了控制與執行高度耦合的單體設計,轉而采用控制平面與執行平面分離的模式。在這套架構中,阿里云容器服務 Kubernetes 版 ACK承載了統一的控制面,負責海量消息分發、任務編排、策略下發以及統一的運行觀測。而最繁重且充滿未知風險的工具執行工作,則全權交由ACS Agent Sandbox進行動態調度與承載。
![]()
MiniMax MaxClaw 技術架構圖
這種深度的架構演進,配合阿里云底層的技術重塑,為企業級 Agent 落地提供了四個維度的破局思路:
1、筑牢執行邊界:面向高權限執行場景的安全隔離能力
對于企業而言,OpenClaw 與 Hermes Agent 直接運行于宿主機所帶來的最大挑戰,不在于 Agent 是否具備執行能力,而在于高權限執行過程是否處于可控邊界之內
針對這一安全暴露面,MiniMax 采用的核心思路是將 Agent 的執行過程從「宿主機直接運行」重構為「沙箱內受控執行」,通過云原生隔離基礎設施為每個運行實例建立獨立、安全、可治理的執行邊界。即使單個沙箱遭遇提示詞注入或越權攻擊,其風險影響范圍也會被嚴格收斂在實例內部,難以橫向滲透或逃逸;再結合動態權限收斂、端到端數據加密與操作留痕審計,形成覆蓋執行前、執行中與執行后的全流程安全閉環。
在具體實現上,阿里云提供的 Agent Infra 從計算、存儲和網絡三個層面,與 MiniMax 共同構建面向企業場景的安全隔離能力:
![]()
計算層面,針對越權與惡意執行的風險,ACS Agent Sandbox 為每個 MaxClaw 或 MaxHermes 實例提供了 MicroVM(輕量級虛擬機)級別的隔離環境。每個沙箱均運行在獨立的內核之中,攻擊者必須突破虛擬化層才可能實現逃逸,這從根本上阻斷了高危指令對宿主機的影響。
存儲層面,系統為每個 Agent 分配了基于 ESSD 云盤的專屬可加密存儲空間,并在會話啟動時結合 NAS 動態掛載子目錄,從操作系統級別收斂了數據的可見邊界。
網絡層面,沙箱采用了默認拒絕(Default Deny)的輕量級訪問控制策略 TrafficPolicy,結合企業安全組實現出入站流量的精細管控。這種三管齊下的防御機制,將潛在風險嚴格封鎖在單一實例內部。
2、擊碎狀態丟失:面向長任務與跨會話場景的持久化狀態管理
長周期任務的連續性一直是業界公認的難題。MiniMax 創造性地將易失的運行時環境與底層狀態進行了剝離,構建了一套分層的持久化存儲架構
在此架構中,不同類型的狀態數據被精準映射到最適合的物理介質之上:
- 基于沙箱內置 ESSD 云盤的高 IOPS 特性,系統將其作為私有工作空間,承載配置類信息、API 密鑰以及短期記憶等核心數據。
- 對于需要跨實例協同的 Skills 資產與工作流定義,系統通過 CSI 動態掛載 NAS 共享空間來實現統一分發。
- 結構化的業務結果數據與高頻緩存狀態則依托 PolarDB 與 Tair 進行存儲與讀取加速。
這套精密的分層架構使得 Agent 即使遭遇實例漂移或系統重啟,也能迅速基于歷史快照重建完整的執行上下文。
3、跨越單機門檻:面向大規模生產環境的平臺化運維能力
當企業需要同時運行海量 Agent 時,平臺級的統一治理能力至關重要。MiniMax 放棄了單機式的工具運行模式,基于 ACK 與 ACS 構建了控制平面與執行平面分離的云原生架構
其中,ACK 負責承載統一的接入層與業務控制層,集中處理消息分發、任務編排、策略下發、狀態管理和運行觀測等核心能力。這種控制面上收的設計,使企業能夠從「管理單個 Agent 進程」升級為「管理一套可編排的 Agent 平臺」。
在執行側,ACS Agent Sandbox 負責根據任務請求動態拉起、分配和回收沙箱實例。Agent 的運行徹底擺脫了固定節點或環境的綁定,直接通過統一調度實現彈性承載。
依托這套統一控制面,無論是單個實例的故障恢復,還是成千上萬實例的批量部署與版本切換,均可通過平臺化方式進行治理,完全免去了人工逐點維護的繁瑣。同時,消息分發、文件訪問、狀態存儲和工具調用也被統一納入標準鏈路,協助企業圍繞 Agent 建立完善的 SLA 與監控運營體系,推動應用真正走向生產級規模化落地。
4、瓦解閑置成本:面向波動負載的彈性調度與資源治理
AI Agent 天然具有常駐與突發交織的負載特征:空閑時需保持在線以維持狀態響應,任務觸發后又會在短時間內迅速拉升計算消耗。
為了突破冷啟動瓶頸并壓縮用戶的感知時延,ACS Agent Sandbox 引入了自定義模板預熱機制,將 OpenClaw 或 Hermes Agent 運行所需的鏡像及依賴提前加載至緩存之中。結合MicroVM 的輕量虛擬化能力,系統實現了 20~40ms 的極速實例供給,大幅優于傳統容器數十秒的冷啟動耗時。
面對海量并發和明顯的潮汐流量,該平臺支持最高每分鐘 15000 個沙箱的大規模彈性供給。任務發起時按需創建,結束后自動釋放,系統無需為峰值負載長期預留固定資源,顯著提升了整體的資源利用率。
更為關鍵的是,為了在如此高的彈性中保障任務的連續性,平臺通過獨占 MicroVM 沙箱、獨立 ESSD 云盤、獨立彈性網卡以及運行時 Checkpoint 能力,構建了堅實的運行保障機制。即使在擴縮容、網絡波動或實例遷移過程中,任務狀態依舊可恢復,確保執行鏈路連貫且用戶體驗不中斷。這種機制讓 Agent 的資源消耗變得可調度與可預測,在低負載時有效降低了空轉成本,同時在高峰期穩健保障了算力供給。
智能體時代的「操作系統」
當控制面與執行面在云端完成解耦后,上層應用的復雜性被成功屏蔽。然而,無論軟件架構如何精巧,海量智能體的高頻啟停、高密度虛擬化隔離以及極其龐大的并發請求,最終都需要彈性且高效的基礎設施資源來承載。基礎設施的 Serverless 化,對系統的吞吐極限與經濟性提出了更嚴苛的考驗。
整體來看,MiniMax 在云端的基礎設施演進,為整個 AI 產業提供了一個極具前瞻性的切面。隨著大模型能力邊界的不斷拓展,算力市場的結構正在發生不可逆轉的傾斜
知名研究機構 IDC 在最新的《FutureScape 2026》預測中指出,到 2027 年,全球 2000 強企業的 Agent 使用量將增加 10 倍,相關的 Token 和 API 調用負載將激增 1000 倍。同時,Agentic 自動化將增強超過 40% 的企業應用能力。此外,IDC 的一項全球調研顯示,推理已經成為最大的 AI 工作負載細分市場,占據了所有 AI 運營的 47%。這標志著整個行業的重心,已經全面步入大規模的后訓練與推理執行階段,且算力焦點正快速向 Agent 場景轉移。在這個新階段,高能效、高彈性且具備強安全邊界的調度平臺,將成為所有 AI 企業必須跨越的技術門檻。
同時,另一份來自 Gartner 的行業報告指出,到 2028 年,大約 95% 的新 AI 部署將基于 Kubernetes 環境運行。當數以十萬計的 AI Agent 走向全天候在線,云計算平臺正在實質性地演變為一臺巨大的「AI 超級計算機」。而以 ACK 與 ACS 為代表的現代容器服務,正順理成章地蛻變為這臺超級計算機的「云原生操作系統」。
在這個全新定義的操作系統之下,阿里云 ACK/ACS 與上層的智能體業務邏輯共同構成了一套安全、彈性、狀態保持、生態兼容的生產級 Agent 運行底座。這種涵蓋「上層應用驅動」與「云端系統調度」的合作模式,為海量 Agent 的企業級落地提供了標準范本。
未來,當這種由前沿應用、高性能平臺與強悍物理算力組合而成的架構被推廣到千行百業時,海量的 AI Agent 將依托這套智能底座實現真正的自組織與自演化。這預示著技術發展邁出了關鍵的一步,必將助力全行業加速向智能體賦能的新紀元躍遷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.