編輯注: Agent 產品到底應該采用單模型還是多個模型搭配完成任務, 各自的優缺點是什么,有沒有最佳實踐?這篇來自創業者的投稿,從人類完成任務的最佳實踐出發,嘗試按照人類的團隊合作模式去設計模型之間的合作。 作者介紹:北京有撇有捺科技有限公司創始人兼 CEO 彭程,前阿里云與字節跳動 AI 產品專家,具備大模型產品化與商業化落地經驗。公司產品「喵靈」為一款多 Agent 人機協作平臺,能把零散資料與對話結構化為任務白板,通過多?? Agent 并行協作,向用戶交付可用的執行結果。
在目前市場上的大模型產品設計中,大部分團隊會潛移默化地把大模型當成「萬能的單兵專家」,在這個認知的基礎之上,通過為大模型匹配相應高質量的知識庫/行業數據,做好 System prompt 和 Context prompt,再加上一些 few-shot,理所應當的認為大模型會在某個垂直領域取得比當前互聯網產品更好的效果。
但通過一年多以來大家的探索,從互聯網巨頭到新興創業者,驗證的結果似乎并非如此。
我們在今年 5 月的時候啟動了一個為用戶解決吃喝玩樂學生活場景的垂直 Agent 產品,把上面提到的方法都嘗試了一遍,但是仍然達不到一個好的效果。當任務變復雜、信息變冗雜、并且需要多輪核驗時,上述方法似乎只能「完成任務」,而無法「交付結果」。「任務」和「結果」這兩個看起來有些接近的詞,其實在 Agent 的 output 里有巨大區別:「任務」是有輸入就一定會有輸出,但「結果」則是建立在 Agent 對用戶需求、目標等有明確了解的基礎上,生成用戶直接可用戶的東西。
隨著我們在產品和研發層面的深入,我們也終于有了一些新的突破和發現,在此向大家分享,與大家一起探討。
超 15000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
01
群體智能與單一智能的對比
針對上面提到的行業大模型產品開發的現象,我們先對群體智能與單一智能在大模型產品設計中進行定義:
單一智能:由一個大模型承擔從理解、檢索、推理到輸出的所有環節。它依賴「上下文工程」——成堆的 prompt、檢索片段、few-shot 示例——來擴展能力。優點是實現路徑單一、響應快;缺點是當信息維度和流程復雜時,整個體系容易在「上下文窗口」「注意力分配」與「可追溯性」上崩塌。
群體智能:把任務拆成子角色,由多個角色化的 Agent 并行或分布式工作——比如「檢索 Agent」「校核 Agent」「創意 Agent」「合規 Agent」——它們各自維護部分上下文、并通過共享事件交換結果,最后由聚合器或人類進行合成與驗收。群體智能強調「分工—溝通—整合」的閉環,這更像一個人的團隊而非單個超人的能力。
為了充分且準確地表達群體智能與單一智能各自的優勢與劣勢,我們先來看一個常見的例子。在自然界里,螞蟻搬家或蜜蜂尋找新蜂巢,看起來并沒有中央指揮,也沒有「超級個體」,但整個群體卻能高效、穩健地完成非常復雜的任務:分工明確、信息局部共享、通過簡單規則達成全局最優,大量個體通過局部交互涌現出的集體智慧。想象一個螞蟻試圖獨自搬完整堆食物:它既沒有效率,也沒有方法;而一群螞蟻分頭行動,通過留信息素互通,最終把任務完成得井井有條。
當我們把目光投射到現實生活中的例子,會發現大模型在處理復雜問題時,也會遇到同樣的問題。比如當我們想要生成一份深度行業報告,要求數據準確、引用完整、結論可驗證時。把任務交給「單一智能」,它會把你給的資料、搜索檢索、以及 prompt 丟進一個大模型,順序地處理后生成一篇報告。
過程看似省事,但問題是:當信息量大、跨領域、需要交叉驗證時,單一模型會反復檢索、在長上下文里出現注意力漂移,重要的數據或事實依據可能被「截斷」、邏輯鏈條可能被稀釋。更難以控制的是,如果后續有人提出修改或新證據,單一模型常常需要重新拉起大段上下文,之前的判斷可能被覆蓋,難以追溯到底是哪個信息片段導致了錯誤。
從上述的例子中,我們可以總結出在復雜任務下,單一智能遇到的挑戰與問題:
上下文窗口與檢索瓶頸:單體模型受限于上下文長度與檢索一致性,長鏈信息很容易被截斷或丟失。
注意力漂移:在多輪長對話或長文構建中,模型的注意力會被分散,導致關鍵因果鏈條薄弱,結果往往是個「看似合理」的答案而非經過多策略比較的最優方案。
可追溯性差:單一輸出往往是黑盒文本,無法逐條追溯每個結論的來源與責任,這在金融、法務、學術場景里代價很高。
最重要的是,這些短板并非只源于工程實現的粗糙,而是與模型本身的工作范式有關:一個主體在有限的概率空間內做決定,難以同時拓展廣度(多線索檢索)和深度(多輪嚴謹驗證)。
現在我們將上面撰寫深度行業報告的例子,使用群體智能來實現時,檢索 Agent 負責并行抓取海量原文與數據;初稿 Agent 基于這些片段生成結構化草稿;核查 Agent 并行逐條比對事實并標注來源;編輯 Agent 負責邏輯連貫與語言潤色。不同 Agent 各守其責,彼此互相「質詢」——比如核查 Agent 會把疑點回傳給初稿 Agent 要求解釋或重新檢索。最終把每條結論、責任 Agent、證據源都記錄下來。
結果是什么?一份可以審計、可以逐條追蹤來源、在面對修訂時只需局部變更的高質量報告。這是為什么現實中的許多團隊(研究小組、法律審查團隊、創意工作室)在復雜任務上都采用分工協作而不是單兵突進的原因。AI世界的群體智能正是在模擬并逐步放大這種人類團隊的組織優勢。
通過上述的舉例,我們可以總結出群體智能在復雜任務場景中的優勢:
并行分工,降低重復成本:不同 Agent 并行搜索和驗證,避免單體重復拉上下文,從而節省計算與 token 開銷。
博弈與聚合帶來更穩健結論:當多個 Agent 提出不同解決方向,通過內部評估、投票或對抗性質詢,群體會在多輪博弈中收斂到更穩健的方案。結果可能比單體更慢達成,但質量顯著更高。
獨立記憶,減少互相干擾:每個 Agent 有自己的私有記憶與注意力策略,在必要時合并觀點,這既保持了角色專業性,也避免信息洪流導致的「互相污染」。
天然支持可審計性:每個結論都可以標注「由誰得出、基于哪些證據、何時得出」,這對合規與信任至關重要。
業界的多項實踐與研究都在驗證這個方向:從多智能體的強化學習實驗,到一些團隊化的工程實踐,都顯示出在復雜研究型任務上,多角色并行探索往往勝出。比如 Anthropic 公司內部評估發現,其多智能體研究系統(由多個 Claude 模型并行工作)在復雜研究任務上性能比單一智能體提高了90.2%(How we built our multi-agent research system)。需要指出的是,這并不意味著單一智能就無用;相反,更合理的策略是混合:在「示例驅動、上下文緊湊」的任務采用單體策略,在「信息量大、需并行驗證」的情形啟用多 Agent,依靠人類在環進行關鍵澄清與對齊。
02
復雜任務協作:為什么非線性思維更接近真實世界
復雜任務不是一條直線從「輸入」走到「輸出」,而是一張有回路、有分支、有博弈的網絡。要充分的理解這個觀點,我們可以先從一個現象開始入手:人類為什么要開會?
比如當你的老板給了你一個任務「我們公司也要全面擁抱 AI,要把 AI 應用到我們工作中的方方面面」時,你大概率是不知道從何入手的。在這個時候人類的應對策略大概率是,拉上相關各方一起開會腦暴一下。在會議上,相關各方站在自己的角度發表看法,共同討論、對齊目標、完成分工,最終定在某個時間節點上提交出一個初版解決方案。
表面上看,會議是為了「溝通信息」;更深層的原因是,會議是一個博弈-收斂過程,是多個認知主體在有限時間內完成共享世界觀、交換假設、修正偏差、達成局部-全局折衷,最終形成納什均衡的機制。把會議拆解成若干功能,我們會發現它正對應著復雜任務所需的非線性操作:
信息同步:不同人帶來不同的片段或觀點。只有把所有片段擺到一起,才能發現交叉點、矛盾與遺漏。
生成假設:不同參與者提出不同假設或解決方向,這是在擴展解的「概率空間」。
質疑與反駁:參與者相互挑戰假設,剔除不穩固的解或暴露盲點。
協商與讓步:在資源、時間、風險之間做權衡,最終達成可執行方案。
記錄與錨定:會議紀要、決策點、責任人被記錄下來,便于之后驗證與追責。
這些環節不是線性串聯的「1→2→3」,而是充滿反饋的循環:新信息會推翻初步假設,質疑會觸發新的檢索,協商會改變資源分配,從而影響下一輪的判斷。正是這種反復的局部博弈與信息回環,讓團隊能夠在復雜、不確定的世界里逐步逼近一個「可操作」的方案。
把上面的生態映射回大模型產品設計,我們可以看到單一智能常見的失敗場景,都源于缺乏對「非線性博弈過程」的支持:
單一模型傾向「快答」:模型往往被優化為「在給定上下文下給出最可能的下一步」,這讓它在需要多策略比較、或需代價-收益權衡的情形下做出保守或表面合理但未充分檢驗的答案。換言之,單體更像「速答機器」而非「反復博弈的團隊」。
上下文窗和注意力分配問題:一個模型的注意力資源在長鏈任務中會被多條信息擠占,重要線索容易稀釋或被覆蓋;單模型難以同時維護多條候選方案的獨立上下文。
缺少內在「反駁/質詢」機制:單體缺少自然的對抗式檢查流程,除非外部人為不斷提問并重設上下文,否則模型不會自發地對自己的假設發起質疑。
難以保留局部要點:在多輪迭代中,某些已經通過驗證的結論容易被后續上下文覆蓋與改寫,缺乏明確的「局部鎖定」機制使得產出不夠穩定與可審計。
這些機制性的弱點直接導致:對于跨文獻、需核查、需多方協商的復雜任務,單一智能的輸出既不穩健也不易追責。
03
AI 時代的「人類智慧」:認知向上,價值向下
Fields 獎獲得者陶哲軒曾在 2024 年的一個采訪中談到,他把 GPT4 用作研究中的「助理」:把論文的前幾頁 feed 給模型,生成可能的問題和思路,或作為打破思路瓶頸的火花。這類使用者與大眾用戶的區別,不在于他們擁有更先進的模型,而在于他們真正把自己置入到與模型的共同研究之中:他們會審閱模型給出的每個思路,識別哪些線索值得深挖、哪些表述是概率噪聲,并把模型的輸出經由嚴謹的因果推演或形式化驗證(如證明檢查器)來驗證或改造。
陶哲軒及少數頂尖研究者之所以能把 GPT 用作研究助手,是因為他們具備兩項要素:深厚的領域判斷力 + 把 AI 視為「協作伙伴」的方法論。相對地,很多用戶只是把 GPT 當成「速成工具」——輸入一個問題,期待一個可直接使用的答案。由于缺乏領域判斷力或沒有參與到模型的反復檢驗過程,大多數人難以把 AI 的「建議」變成真正可靠的知識或創造性產物。因此,并非每個人都能像陶哲軒那樣「用 GPT 做研究」;關鍵在于人是否參與到對話、驗證與改造的循環中,而不是被動接收模型輸出。
AI 能把人類的認知「向上推」——擴展我們的記憶、模擬與思考速度:
記憶外化:AI 可以長期記住、檢索并組合大量知識,成為人類的擴展記憶庫。
并行思維與模擬:AI 可以并行生成多個備選方案或假設,快速做大量「頭腦風暴」式的嘗試,節省人類的搜索成本。
低門檻的實驗平臺:AI 允許人在短時間內嘗試許多想法,迅速觀察結果,這對探索性研究與創作尤其有價值。
這些能力使得人類「認知上界」被提升:以前可能需要數月完成的探索,在 AI 的輔助下能在數日或數小時內獲得大量初步方向。然而,提升速度并不等同于替代判斷。AI 帶來的是「更廣的可能性空間」,而人類需要決定哪些可能性值得投入有限的深度資源去實現。
同樣的,人類在 AI 時代中,在與 AI 共同協作時,仍然保留有高價值的人類智慧:
糾錯與澄清:糾錯與澄清是人類在真實世界協作中最重要的基礎智慧,同樣在模型工作的過程中產生的所有結論與博弈過程,都需要由人類來進行審視,隱藏在這些決策背后的真實世界規則與判斷,是模型所不具備的。
目標設定與價值判斷:AI 給出的是概率最優解,但「最優」根據誰的價值取向而不同。人類社會的真實任務事件,可能會基于長期目標,或不同的價值觀考量,或不同的社會風俗與道德要求,而這些最終都需要由人類來進行把控。
直覺性創造:人類的創造力常以模糊、非線性、跨域的直覺起點出現,這些起點往往不是現成的數據能完全提出的。
基于此,我們把正確的人機協作總結為兩個對齊方向:
認知向上對齊:AI 應該使人的認知能力「上升」——擴展記憶、加速思考、并行探索更多可能性。產品要把 AI 當作放大鏡與加速器,讓人的判斷與創造能及早介入并放大其價值。
價值觀向下對齊:人類需要把價值、倫理與目標「下放」到 AI——把對錯、風險與道德邊界明確定義并內置到產品流程中。也就是說,AI 的自由探索必須受人類價值的約束與引導,確保結果符合社會與用戶的期待。
這兩句 Slogan 其實也是喵靈 Miao Agent 產品的核心思路,目標也是讓人類和 AI 的協作過程更加順滑,減少不必要的 token 消耗、節省時間、提高效率。
04
產品新范式:從「工具+流水線」到「多智能體協作生態」
過去二十年,傳統互聯網產品(社交、SaaS、門戶、電商等)在產品設計上通常遵循這樣一套思路:
功能拆分明確:把用戶需求拆成若干功能模塊(搜索、消息、通知、文件管理、表單),每個模塊有固定輸入→處理→輸出的流水線。
固定交互范式:按鈕、表單、頁面流程,用戶沿著預設的流程完成任務。
一次性數據處理/存儲:狀態變化由數據庫與事務保證,交互是顯式、可回滾與可追溯的。
向外暴露API/ 插件:以確定的接口標準對接生態,API 成為平臺擴展的主渠道。
比如你想買雙鞋,平臺提供搜索框、分類目錄、結算頁面,你點幾次按鈕就能完成交易。這套「輸入明確-過程線性-輸出可控」的流水線邏輯能把重復性工作規模化、可測量、可貨幣化。但當「能力」從傳統代碼擴展為可生成、可推理、可檢索的大模型時,繼續把模型當成一個更聰明的按鈕往往行不通。
很多初創團隊在把 LLM 技術落地時,傾向于把模型當作「更聰明的功能」,把原本的按鈕/頁面替換成「一個聊天框 + 若干 prompt 模板」。結果往往是:
體驗表面化,但能力薄弱:聊天框能產生文本,但當任務變復雜(多輪、多源、需驗證)時,單一對話窗口無法承擔狀態管理、角色分工、證據追溯等需求。
成本難以控制:把所有邏輯塞給一個大模型,會不斷重復長上下文的傳入,token 成本攀升,且沒有分工減少重復調用的策略。
信任/合規問題:輸出不可拆分、不可追溯,無法滿足需要證據鏈與責任歸屬的場景(投研、法務、醫學)。
難以形成差異化護城河:單一模型輸出容易被多家復制(不同公司調用同款模型僅改個 prompt),沒有架構級的長期壁壘。
比如你把大量文檔丟進聊天窗口要求「寫一份報告」。模型返回初稿,但要驗證引用、調整結構、鎖定關鍵結論時,所有修改都在同一文本塊中反復覆蓋,無法做精細的局部鎖定與審計。最終用戶要么花大量人工改稿,要么被迫放棄,體驗并不比傳統編輯工具好多少。把大模型簡單等同為「更聰明的按鈕」會把產品拉回到傳統功能層面,從而在復雜場景、成本控制和長期競爭力三方面逐漸落后。
因此,我們提出了一個新的、抽象的產品設計范式——把大模型能力嵌入到一個「多智能體協作 + 人類在環 + 證據可追溯」的生態中,而不是簡單包裝成一個功能組件。下面把這一范式的核心要素講清楚,并說明為什么它比「模型當工具」的做法更適合長期產品化與商業化。
分工明確:什么是基礎模型應該做的,什么是模型應用應該做的
先明確分工:基礎模型負責「通用能力」——理解與生成(自然語言理解、自然語言生成、翻譯、摘要、抽取等基礎能力)、檢索與向量化(高質量 embedding、相似檢索、文件索引與檢索服務),基礎推理與模擬能力(概率推斷、模式發現、多候選生成);應用層負責「組織能力」——如何按業務目標調用這些能力、如何管理流程、如何讓人類參與并承擔價值判斷。只有把這兩個層次分清,產品才能既利用通用模型的規模效應,又在上層構建可控、差異化的用戶價值。
應用層的核心能力
多智能體之間的通信:在復雜任務中,不同職責的智能體需要彼此交換局部發現、挑戰結論與補充證據。應用層應提供穩定的通信語義(消息格式、證據包、置信度標簽)與通道(同步/異步事件流)。通信不僅是信息傳遞,更是「責任鏈」與「證據鏈」的載體。沒有明確的通信協議,輸出變成黑箱文本,無法審計也無法拆分責任。
最佳策略的任務分工:復雜任務應被拆解為互補的子任務(檢索、合成、校驗、法律審查等),并把每個子任務分派給最合適的智能體或人類引擎(人類也是群體智能之一)。分工不是靜態的,而應根據上下文動態規劃(誰有最好數據、誰最擅長推理、哪個子任務并行效率最大)。合理分工能顯著減少重復檢索與上下文傳輸,降低 token 與計算成本,同時提高并行吞吐與質量。
群體決策與納什均衡:當多個智能體給出不同方案時,系統需要一種機制,讓它們通過對抗/協商過程收斂到一個「穩定解」——在數學上,這類似納什均衡:在該解下,任何單一智能體都沒有動力單方面偏離。直接接受第一個或概率最高的答案往往不穩健;通過內部博弈(互相質詢、投票、證據加權)系統能找到在多方視角下更具魯棒性的方案。并且在決策過程中,由于有人類智能的參與,可以在更準確的方向上快速逼近最理想的結果。
真正有價值的復雜工作都具備四個特征:信息來源多、參與角色多、需要多輪博弈迭代、且產出必須可驗證與可追溯。
當我們用傳統產品設計思路,把模型當成「更聰明的按鈕」來進行產品設計時,單體模型無法天然并行處理大量子任務,上下文窗口與注意力會被撐爆;模型輸出缺少結構化的證據與責任鏈,結果既成本高又難以審計;在多方案并存時,單體更傾向于「先出結果」而非通過內部博弈篩出穩健解。換句話說,傳統設計在質量、成本與信任三大維度上注定為復雜任務留下不可彌補的短板。
當我們使用新范式設計產品時,把任務拆成角色化的智能體,讓它們相互通信并行工作、通過對抗與投票等博弈機制收斂方案,再把關鍵節點交回給人類進行價值錨定與局部鎖定,這不是概念上的優雅,而是從信息架構與計算效率兩個層面必然帶來優勢。并行分工減少重復檢索與上下文傳輸,顯著壓低 token 與時間成本;結構化通信與證據包天然支持可審計與責任歸屬,滿足高合規場景;博弈式聚合提高了結論的魯棒性,避免了「看起來合理但不穩健」的答案被直接采納。
比如當你要規劃一次跨國旅行:機票、簽證、行程、美食、酒店、預算、健康/保險要求、館藏展覽時間表、同行者偏好等等,把所有內容丟給一個聊天框往往生成一個「看起來合理」的行程,但忽略了簽證時間窗、航班聯程風險或同行者的特別飲食限制。用多智能體的方法,檢索 Agent 并行抓取航班與簽證規則,日程 Agent 優化活動順序,預算 Agent 做成本-收益對比,人類可錨定「必須參觀 X 展」,系統只對未決項發起更多驗證。結果是更可靠、更可改的行程,而非一次性草稿。
因此,對于在人類真實世界里那些「信息量大、需要核驗且必須可審計」的復雜任務,采用「多智能體+通信+任務分工+群體博弈+人類錨定」的產品范式,不僅是更優,而是在能力維度上的必然選擇。衡量這套范式優劣的量化指標也清晰可設:初稿可用率、單任務 token 成本、任務完成時間、審計通過率與行業化模板復用率——這些指標可證明從「做功能」向「建生態」的遷移并非賭博,而是可被衡量、可被復制的產品戰略。
05
AI 產品商業化的核心是信任
在互聯網時代,商業模式圍繞「注意力經濟」展開:企業爭奪用戶的點擊和關注,內容越豐富注意力越稀缺。然而如今內容供給過剩,單純追求點擊量已收益遞減;信任和影響力反而成為最稀缺、最寶貴的資源。進入 AI 時代,這一趨勢更加明顯:AI 技術讓用戶與產品的互動更加私密和智能,但也帶來更多的不確定性和風險——用戶開始關心 AI 是否可信、是否能提供有價值的結果。
根據 Usercentrics 報告(After attention: Trust in the age of digital abundance),隨著注意力成本上升,「信任經濟」正在崛起,企業需要創造真正有價值的用戶體驗,而非單純流量堆砌。因此,我們認為未來的 AI 產品商業化核心是信任商業。任何 AI 產品都必須以可靠性和可控性為基石,為用戶提供可解釋和可驗證的結果,才能獲得市場認可。換言之,今天互聯網時代的注意力貨幣正在向明天 AI 時代的信任貨幣轉變。真正有前瞻性的 AI 產品,必然是那些通過不斷優化、建立起高信任度的系統,這些產品才能在市場中形成差異化的競爭優勢。
06
結語:人機共進的時代正在來臨
我們正處在一個前所未有的轉折點:歷史上第一次,機器不僅能執行指令,更能用自然語言與我們溝通、交換意義與意圖。這種交互方式的出現,改變了工具與人的關系——不再是冰冷的「工具箱」,而是可以對話、可以協作的認知合作者。正因為如此,大模型帶來的價值不僅是效率的躍升,更是認知邊界的擴展:普通人可以借助它觸達專業洞見,專業人士可以把它作為新的實驗室與試驗場。
更為重要的是,這是一個相互成就的過程。AI 通過擴展我們的記憶、加速搜索與并行模擬,讓我們「變得更聰明」;而人類以因果判斷、價值選擇與直覺創造,把這些能力引導到有意義、有倫理、有溫度的方向上,使 AI 更加「有人性」。這種雙向的增強不是替代,而是放大:AI 放大我們的視野,人類賦予 AI 意義與邊界。
最后想預告一下,喵靈 Miao Agent 產品即將在 10 月 20 日左右和大家見面,我們將給大家呈現出一個不一樣的、多 Agent 共同協作的新范式,期待大家的關注。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.