agno v2.3.21版本發(fā)布詳解：AgentOS全面支持Agent As Judge評測與多項穩(wěn)定性增強

2025-12-25 00:11:52　來源: moonfdd

北京舉報

分享至

2025年12月23日，agno 官方發(fā)布了 v2.3.21 版本。本次更新在保持高性能和私有化架構(gòu)優(yōu)勢的基礎(chǔ)上，重點增強了 AgentOS 對評測體系的支持，同時修復(fù)了多個在實際生產(chǎn)和評測場景中可能遇到的問題，并補充了新的 Cookbook 示例。下面將基于本次發(fā)布內(nèi)容，對 v2.3.21 的核心更新進行系統(tǒng)梳理。

一、核心新特性：AgentOS全面集成Agent-as-Judge評估

本次更新最核心的增強在于對“Agent as Judge”（智能體作為評判者）評估功能的全面支持，并將其深度集成到了AgentOS控制平面中。

1. 功能概述
“Agent as Judge”是一種先進的評估范式，它使用一個專門的智能體（Judge Agent）來評估另一個智能體（或團隊）在給定任務(wù)上的輸出質(zhì)量。這通常用于衡量響應(yīng)的準(zhǔn)確性、相關(guān)性、完整性等主觀性較強的指標(biāo)。與傳統(tǒng)的基于規(guī)則或簡單字符串匹配的評估方式相比，Agent as Judge能夠利用大語言模型的理解能力，進行更接近人類判斷的評估。

2. 集成詳情
在v2.3.21之前，開發(fā)者可能已經(jīng)能夠在Agno框架內(nèi)創(chuàng)建Agent as Judge評估邏輯，但管理和運行這些評估可能不夠便捷。本次更新后，這一功能在AgentOS中獲得了完整的官方支持：

? 配置與觸發(fā) ：用戶現(xiàn)在可以直接在AgentOS的Evals（評估）頁面中，配置新的Agent as Judge評估任務(wù)并觸發(fā)其運行。這為評估工作流提供了統(tǒng)一的圖形化界面。
? 統(tǒng)一管理 ：Agent as Judge評估的運行記錄將與現(xiàn)有的準(zhǔn)確性、性能、可靠性等評估結(jié)果一同，集中展示在Evals頁面中。這實現(xiàn)了對所有類型評估的集中監(jiān)控和管理，極大地提升了操作效率。
? API端點增強 ：對應(yīng)的GET API端點也已更新，現(xiàn)在可以返回Agent as Judge評估的相關(guān)數(shù)據(jù)，確保了控制平面與后端服務(wù)的數(shù)據(jù)一致性。

3. 開發(fā)者價值
這一集成意味著團隊可以更系統(tǒng)化地對智能體的輸出質(zhì)量進行監(jiān)控和迭代。例如，在產(chǎn)品上線后，可以定期用Agent as Judge評估客服智能體的回答是否恰當(dāng)，或者審核內(nèi)容生成智能體的輸出是否符合安全規(guī)范。所有評估歷史和結(jié)果都可在AgentOS中追溯，為模型優(yōu)化和提示詞工程提供了數(shù)據(jù)基礎(chǔ)。

二、關(guān)鍵問題修復(fù)

v2.3.21版本修復(fù)了兩個可能影響開發(fā)體驗和生產(chǎn)穩(wěn)定性的問題。

1. RunInput對象持久化修復(fù)

? 問題描述 ：當(dāng)開發(fā)者將 RunInput 對象的 input_content 屬性設(shè)置為一個 Message 對象的列表時，框架在嘗試持久化（例如存入數(shù)據(jù)庫）該對象時會發(fā)生錯誤。 RunInput 用于封裝單次智能體運行的輸入信息，而 Message 是構(gòu)成對話歷史的基本單元。這個問題會導(dǎo)致包含復(fù)雜對話歷史的運行記錄無法正確保存。
? 修復(fù)內(nèi)容 ：開發(fā)團隊修復(fù)了 RunInput （及其對應(yīng)的 TeamRunInput ）的 to_dict() 和 input_content_string() 方法中的序列化邏輯。現(xiàn)在，當(dāng) input_content 是一個混合了 Message 對象、字典或其他基礎(chǔ)類型的列表時，框架能夠正確地將所有元素遞歸地轉(zhuǎn)換為可JSON序列化的字典結(jié)構(gòu)。修復(fù)確保了無論輸入內(nèi)容多么復(fù)雜，都能被無歧義地轉(zhuǎn)換為字符串或字典格式，從而順利地進行網(wǎng)絡(luò)傳輸或數(shù)據(jù)庫存儲。
? 影響：這個修復(fù)對于依賴會話歷史、實現(xiàn)復(fù)雜對話邏輯或進行運行審計的應(yīng)用至關(guān)重要。它保證了數(shù)據(jù)管道的可靠性。

2. MistralEmbedder類超時設(shè)置修復(fù)

? 問題描述 ： MistralEmbedder 類用于調(diào)用Mistral AI的嵌入模型，將文本轉(zhuǎn)換為向量。在之前的版本中，其 timeout 參數(shù)（用于設(shè)置HTTP請求超時時間）的傳遞方式存在錯誤，導(dǎo)致設(shè)置可能未生效或格式不正確。
? 修復(fù)內(nèi)容 ：修復(fù)了初始化Mistral客戶端時的參數(shù)映射。現(xiàn)在， timeout 參數(shù)會被正確地轉(zhuǎn)換并傳遞給底層的客戶端庫（ timeout 秒被轉(zhuǎn)換為 timeout_ms 毫秒）。這保證了開發(fā)者可以有效地控制嵌入過程的等待時間，避免因網(wǎng)絡(luò)問題或服務(wù)延遲導(dǎo)致進程無限期掛起。
? 影響：該修復(fù)提升了使用Mistral嵌入模型進行知識庫構(gòu)建（RAG）時的穩(wěn)定性和可預(yù)測性。特別是在處理大量文檔或網(wǎng)絡(luò)環(huán)境不穩(wěn)定時，合理的超時設(shè)置可以防止整個工作流阻塞。

三、新增實用示例：語音轉(zhuǎn)文本工作流

本次更新在cookbook中添加了一個全新的、名為“Speech to Text”的示例目錄，展示了如何利用Agno構(gòu)建一個端到端的語音轉(zhuǎn)文本應(yīng)用。

1. 示例結(jié)構(gòu)
該示例包含了多個獨立的腳本和一個完整的工作流，演示了不同的實現(xiàn)方式和集成深度：

? 基礎(chǔ)單智能體轉(zhuǎn)錄 ：
- ? stt_openai_agent_simple.py ：使用OpenAI的語音模型（gpt-audio）進行簡單轉(zhuǎn)錄，返回純文本。
- ? stt_openai_agent.py ：同樣使用OpenAI模型，但通過 parser_model （如gpt-5-mini）將轉(zhuǎn)錄結(jié)果解析為結(jié)構(gòu)化的Pydantic模型輸出（包含說話人、每句話文本等字段）。
- ? stt_gemini_agent.py ：使用Google Gemini模型進行結(jié)構(gòu)化轉(zhuǎn)錄，展示了模型無關(guān)的特性。
? 高級工作流 ： stt_workflow.py ：演示了如何構(gòu)建一個Agno Workflow，將音頻URL獲取、音頻格式轉(zhuǎn)換（如MP3轉(zhuǎn)WAV）、智能體轉(zhuǎn)錄、結(jié)構(gòu)化輸出生成等多個步驟編排成一個自動化流程。該工作流可部署到AgentOS，提供一個完整的服務(wù)端點。

2. 技術(shù)亮點

? 多模態(tài)支持 ：示例核心利用了Agno智能體原生的多模態(tài)處理能力。通過 agno.media.Audio 類，可以直接將音頻字節(jié)數(shù)據(jù)或文件傳遞給智能體。
? 結(jié)構(gòu)化輸出 ：展示了如何通過定義Pydantic output_schema ，讓智能體返回高度結(jié)構(gòu)化的轉(zhuǎn)錄結(jié)果，而非雜亂文本，便于下游系統(tǒng)處理。
? 工作流編排 ： stt_workflow.py 是Agno Workflow能力的典型展示。它將不同的處理單元（函數(shù)、智能體）連接成有向無環(huán)圖，管理狀態(tài)傳遞和錯誤處理，適用于生產(chǎn)級復(fù)雜任務(wù)。
? 模型無關(guān)性 ：示例同時使用了OpenAI和Gemini的模型，強調(diào)了Agno可以輕松切換底層AI提供商。

3. 開發(fā)者價值
這個示例為開發(fā)者處理音頻輸入場景提供了即用的模板。無論是構(gòu)建會議記錄工具、客服錄音分析系統(tǒng)，還是任何需要將語音轉(zhuǎn)換為可分析文本的應(yīng)用，都可以以此為起點快速開發(fā)。

四、其他重要變更與文檔更新

除了上述核心內(nèi)容，v2.3.21版本還包含了一系列細(xì)微但重要的調(diào)整。

1. 數(shù)據(jù)庫集成調(diào)整
在agent_as_judge_basic.py示例中，數(shù)據(jù)庫從SQLite切換為了PostgreSQL，并提供了標(biāo)準(zhǔn)的連接字符串示例。這引導(dǎo)開發(fā)者從開發(fā)環(huán)境（SQLite）更平滑地過渡到生產(chǎn)環(huán)境（PostgreSQL）。

2. 評估邏輯優(yōu)化
在Agent as Judge評估運行后，將評估結(jié)果記錄到數(shù)據(jù)庫時，現(xiàn)在正確地將“評判者智能體”所使用的模型信息（model_id, model_provider）與“被評估智能體”的模型信息區(qū)分開來并分別存儲。這使得評估元數(shù)據(jù)更加清晰，便于分析不同評判者模型對評估結(jié)果的影響。

3. README與文檔優(yōu)化
項目的主README.md文件以及Cookbook的說明文檔cookbook/README.md都進行了大幅重寫，風(fēng)格更加簡潔、指向性更強。

? 快速定位 ：新文檔更明確地根據(jù)用戶目標(biāo)（“我想構(gòu)建單個智能體”、“我想讓智能體協(xié)作”、“我想部署和管理”）來引導(dǎo)讀者前往相應(yīng)的示例目錄。
? 特性強調(diào) ：更突出地強調(diào)了Agno“私有化部署”、“性能極致”、“生產(chǎn)就緒”的核心優(yōu)勢。
? 入門引導(dǎo) ：將“入門指南”和“完整演示”作為最優(yōu)先的路徑，降低新用戶的學(xué)習(xí)曲線。

4. 依賴項更新

? 將核心 agno 包版本升級至 2.3.21 。
? 更新了 fastapi 、 fastapi-cli 、 yfinance 等關(guān)鍵依賴的版本，以獲取最新的功能和安全補丁。

五、總結(jié)與展望

Agno v2.3.21版本是一次扎實的迭代，它沒有引入顛覆性的變更，而是在現(xiàn)有強大的基礎(chǔ)上進行打磨和增強。

? 對于評估與監(jiān)控 ：通過將Agent as Judge深度集成到AgentOS，它為團隊提供了企業(yè)級的智能體性能評估工具，使得基于LLM的定性評估變得可配置、可觸發(fā)、可追溯。
? 對于框架穩(wěn)定性 ：對RunInput序列化和MistralEmbedder超時的修復(fù)，解決了特定場景下的潛在bug，提升了框架在處理復(fù)雜數(shù)據(jù)和外部服務(wù)調(diào)用時的魯棒性。
? 對于開發(fā)者生態(tài) ：新增的語音轉(zhuǎn)文本示例是一個高質(zhì)量、可直接復(fù)用的“菜譜”（Cookbook），豐富了Agno的應(yīng)用場景庫，展示了其在多模態(tài)和復(fù)雜工作流方面的強大能力。

拓展視野：擁抱AI浪潮，關(guān)注行業(yè)前沿

在鉆研Agno這類前沿多智能體技術(shù)的同時，了解更廣闊的AI行業(yè)動態(tài)同樣重要。如今，AI正以前所未有的深度重塑工作和創(chuàng)造力。

在此為大家推薦一個高質(zhì)量的行業(yè)信息源——由脈脈平臺推出的 【脈向AI】 直播欄目。這個欄目專注于：

核心價值：

? 提供最新的AI工具、模型趨勢和行業(yè)深度解析
? 邀請AI領(lǐng)域 頭部創(chuàng)作者、行業(yè)專家 分享一線經(jīng)驗和未來洞見
? 探討AI在內(nèi)容創(chuàng)作、效率提升、產(chǎn)品創(chuàng)新等場景的實際應(yīng)用
? 提供 實時互動 機會，可直接向嘉賓提問并獲得解答

? 對開發(fā)者的意義：
這不僅是了解行業(yè)趨勢的窗口，更是拓展技術(shù)視野、連接行業(yè)人脈、把握職業(yè)新機遇的平臺。在脈脈這個覆蓋超2億職場用戶的生態(tài)中，你能接觸到最真實的行業(yè)聲音和機會。

參與方式：
歡迎關(guān)注脈脈APP內(nèi)的 「脈向AI」 欄目，預(yù)約最新直播，與AI前沿保持同步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.