![]()
運維工程師平均要花4小時定位一次系統故障。HPE最新放出的數據是:他們的AI agent把這個時間壓到了2小時以內。
這不是實驗室里的漂亮話。HPE在自家基礎設施上跑了實測,根因分析(Root Cause Analysis,即定位問題根源的技術流程)的耗時直接腰斬。更關鍵的是,這個agent不是幫你"猜"問題在哪,而是能調用工具鏈自己干——查日志、跑診斷、比對配置變更,全程不用人盯著。
從"輔助駕駛"到"自己上路"
市面上大部分AI運維工具還停留在"建議模式":你問它,它答你,最后拍板還得人來。HPE這套系統的區別在于,agent拿到任務后會自己規劃步驟。
舉個具體場景:存儲集群出現性能抖動。傳統流程是工程師先登錄各個節點,手動抓取指標,再交叉比對時間線。HPE的agent會主動調用監控接口、拉取日志、甚至回滾最近的配置變更做對照實驗——整個過程寫成腳本要幾百行,它自己跑完。
HPE技術團隊把這叫"工具使用能力"(Tool Use)。說白了,LLM不只是聊天窗口,而是能操作真實系統的執行層。
為什么現在能成?
Agent不是新概念,但之前落地總卡在兩個地方:一是模型理解不了復雜的基礎設施拓撲,二是動作執行不可靠,容易"幻覺"出錯的指令。
HPE的解法是把領域知識硬編碼進agent的推理鏈。他們的系統預置了存儲、網絡、計算三類故障的知識圖譜,模型每一步決策都要對照這個圖譜做一致性檢查。換句話說,agent不是憑空想怎么排查,而是沿著工程師沉淀的經驗路徑走。
這套機制還有個副作用:排查過程自動留痕。每個動作誰發起的、依據什么、結果如何,全程可審計。這對金融、醫療這類合規敏感的行業是剛需。
行業里的真實反應
HPE沒有公布具體客戶名單,但提到了"財富500強中的多家科技企業"正在試點。一個值得注意的細節是,這些客戶里不少已經有自研的運維平臺,愿意試HPE的方案,看中的不是替代現有工具,而是填補"最后一公里"的自動化。
也有工程師在HPE社區里潑冷水:agent能處理的是"已知問題類型",遇到真正新穎的故障模式還是會懵。這話不假,但換個角度——把80%的常規故障交給機器,讓人專注那20%的疑難雜癥,已經是巨大的效率釋放。
HPE的路線圖里,下一步是讓agent能跨系統協作。比如存儲問題可能根因在網絡,網絡問題可能根因在虛擬化層。現在的版本還是單系統深度排查,未來的版本要打通這個鏈條。
運維這個崗位會被取代嗎?HPE的產品經理在內部文檔里寫了句話:「我們賣的不是少雇幾個人,是讓同樣的人能管十倍規模的系統。」這話你信幾分?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.