![]()
新智元報道
編輯:好困 KingHZ
【新智元導讀】20天長流程、token嚴格控制在每單50k以內,AI審批預計能提速150%以上,單均成本預計可以降至人工五分之一。易鑫Harness不是簡單套殼,而是把選擇性壓縮、實時檢索、審計圖譜全部打通,讓Agent真正「越用越聰明」。
2026年,AI圈最熱的詞不是模型,也不是記憶,而是一個被翻譯得有點別扭的英文單詞——Harness。
馬具,韁繩,駕馭。
最近,Anthropic在Claude Platform上放出了Managed Agents的公開beta。業內立刻給它貼了一個標簽,meta-Harness。
一句話翻譯過來,模型已經不是瓶頸了,真正決定Agent能不能干活的,是模型外面那套「駕馭系統」。
LangChain創始人Harrison Chase說得更直白一點,「Harness和上下文工程跟模型質量一樣重要」。
VentureBeat的市場追蹤給出了實錘。一個月內,Anthropic工具與工作流API的采用率,從0%直接飆到了5.7%。企業用Claude,用的就是它配套的編排方案。
![]()
如今,Harness從工程內部用語,一躍成為了Agent產品繞不開的基礎設施。
![]()
Harness是多層結構,并非單一模型套殼
但這只是故事的一半。
通用Harness跑不了的金融訂單
Anthropic做的Managed Agents,主要服務coding、文檔生成、任務自動化這類通用場景。
這些任務有一個共性,邊界相對清晰,錯了大不了重跑一次。
但一些行業不是這樣,比如金融行業。
一筆汽車貸款,從客戶進件到資產管理,單筆金額幾萬到幾十萬,整個生命周期超過20天,要跨越15個以上關鍵決策節點,正向逆向反復評估,決策路徑組合可以達到幾萬種。
中間任何一步AI出錯,比如材料審核漏了一個關鍵瑕疵,后果都不是「再來一次」能解決的。
所以,從設計目標開始,金融行業要的Harness,跟通用場景的Harness就不一樣。
通用場景的Harness在乎怎么讓模型在長上下文里不丟失記憶、怎么管理工具調用。
金融場景的Harness在乎合規邊界怎么實時兜底、模型幻覺的瞬間怎么把人工接進來、20天的訂單流里數據全程能不能審計。
4月14日,香港世界互聯網大會亞太峰會的「智能體創新與應用論壇」上,易鑫首席科技官賈志峰把這件事點了出來。
![]()
易鑫是國內最具規模的AI驅動的金融科技平臺,以服務汽車金融生態為使命。2017年在香港上市,2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣,全球擁有員工5000多人
并且,他還拋出一個計劃——
今年下半年,易鑫將開源部分自研Harness Framework。
這是全球汽車金融行業第一份公開的Agent治理基礎設施。
不是套一層殼,
是三層「駕馭體系」
在演講里,賈志峰直接區分了易鑫的Harness跟通用方案。
和通用AI公司側重memory、context這些技術模塊設計不同,我們的設計是一個更全面的三個層次的駕馭體系。
三層分別是人類駕馭層、Agentic駕馭層、數據駕馭層。
人類駕馭層解決一件事,Agent和真人能不能在一筆訂單流里實時無縫切換。
舉個例子。
客戶按要求上傳一張銀行流水的照片,IM Agent接管做OCR和結構化提取。
系統會判斷這張照片是否包含風險字段或不符合要求的字段。
比如,要求提供6個月流水,但只給了3個月;再比如要求流水里必須提供收入,但實際流水里收入為0。
此時,Harness就會立刻把訂單轉給真人審核員,并且把前面所有對話上下文完整交接過去。
「Agent搞不定就轉人工」,這種簡單兜底邏輯做不到這一點。
Harness的人類駕馭層覆蓋語音、文字、圖片多模態,關鍵業務節點強制要求人工介入,轉手時信息完整率必須做到100%。
人工不是替補,是工作流從一開始就設計進去的角色。
![]()
Agentic駕馭層解決模型出錯的瞬間,比如當模型出現「幻覺」或違規承諾時,系統會在毫秒級觸發熔斷,切換到人工鏈路。
舉個金融場景里的真實痛點。模型在誘導下承諾了一個黑名單客戶肯定能放款,那么這筆訂單就會成為合規風險事件。
Harness這一層的工作是在模型把話說出口之前攔截,并且根據客戶互動的實時特點重新規劃后續路徑,不按預設腳本死板執行。
在3月底的工程博客中,Anthropic就提到一個有意思的現象:
Harness里塞進去的某些補丁,會隨著模型升級而過時。
![]()
比如他們為Claude Sonnet 4.5加的上下文重置,在Claude Opus 4.5上就不再需要。
易鑫這層Harness的設計思路對應了同一個判斷。
賈志峰在演講里說了一句,「讓模型越來越強,Harness越來越輕」。
Harness發現的問題要不斷回流到模型訓練里,讓模型自己內化掉,避免長期用Harness打補丁。
![]()
數據駕馭層把人類操作數據和Agent操作數據打通。
不只給運行階段做護欄,還給訓練階段提供高質量數據。
更關鍵的是合規。從數據接入、流轉、清洗脫敏,到最終進入哪個版本的模型訓練,全部建立關聯圖譜,模型表現一旦發生變化能立刻定位、快速調整。
這是金融監管最在意的事情,可追溯、可審計。在通用Agent領域可有可無的能力,在金融行業是過審的硬門檻。
![]()
需要強調的是,他們的Harness Framework并不是一個孤立存在的模塊,而是整體貫穿Application、Products、Models 這三層架構,融合在業務的各個節點。
在Agent的推理「Inference」和訓練「Training」兩個階段,易鑫的Harness Framework都發揮作用,具備持續治理能力。
![]()
65%自主交付,單任務跑16小時
把這套體系工程化嵌進業務后,整個系統「越用越聰明」 : 所有交互數據沉淀,幫助AI持續學習與不斷進化。
![]()
最后,易鑫實測出來的數字是這樣的。
單次任務可持續執行16小時。
跨12個會話連續推進。
Agent自主交付成果達65%。
轉化率提升20%以上。
整體運營效率提升100%以上。
這些數字放在通用Agent領域是什么概念。
在demo里展示的長任務記錄,國外AI巨頭OpenAI、Anthropic不過大多在幾小時量級。
Cognition的Devin早期演示也只敢做小時級別的連續工作。
能做到「單次任務16小時、跨12個會話」并且還能穩定交付,需要的不只是AI能力,還有整個業務流程的升級。
審批環節做得更狠。根據易鑫估計,AI理論上能讓審批時長縮短150%以上,單均成本降到人工的五分之一,token消耗嚴格控制在每單50k以內。
token這個數字是關鍵。
20天+的長流程任務里,如果每一輪交互都把全量歷史灌進上下文,token成本會指數級上漲。
控制在50k一單,意味著Harness在不斷做選擇性壓縮、歸檔和檢索,把真正影響下一步決策的信息留在窗口里。
「Agentic基礎模型和Harness AI Infra,是金融垂直行業真正把Agent用起來的兩個輪子,缺一不可。」賈志峰在演講里這樣總結。
從開源模型到開源基礎設施
易鑫不是第一次做開源。
2025年,易鑫先后開源了汽車金融行業第一個Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。
![]()
![]()
今年下半年的Harness Framework開源,是順著同一條路徑往上走一步。
按賈志峰的說法,發布時間預計在2026年烏鎮峰會前后。
這個時間窗口和Anthropic開放Managed Agents的節奏幾乎咬住:
前者在通用場景把Harness產品化,
后者在金融垂直場景把Harness開源化。
在一篇題為「The Anatomy of an Agent Harness」的博客中,LangChain給出了一個簡潔的公式:
Agent = Model + Harness
模型負責智能,Harness負責把智能變成有用的工作。
![]()
但公式只是起點。
通用Agent的Harness想讓模型跑得更順,金融行業的Harness想讓模型不出事。
Anthropic把通用場景的答案產品化了,每小時0.08美元。
易鑫要把金融場景的答案開源出來,一行代碼不收錢。
Agent能不能走出coding demo、走進那些「錯一次就賠不起」的行業,答案就藏在這份即將開源的Harness Framework里。
參考資料:
Agent能力已在全業務流程落地,易鑫于世界互聯網大會亞太峰會宣布年內將開源AI Infra
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.