![]()
![]()
![]()
2025年12月23日,agno 官方發(fā)布了 v2.3.21 版本。本次更新在保持高性能和私有化架構(gòu)優(yōu)勢的基礎(chǔ)上,重點增強了 AgentOS 對評測體系的支持,同時修復(fù)了多個在實際生產(chǎn)和評測場景中可能遇到的問題,并補充了新的 Cookbook 示例。下面將基于本次發(fā)布內(nèi)容,對 v2.3.21 的核心更新進行系統(tǒng)梳理。
一、核心新特性:AgentOS全面集成Agent-as-Judge評估
本次更新最核心的增強在于對“Agent as Judge”(智能體作為評判者)評估功能的全面支持,并將其深度集成到了AgentOS控制平面中。
1. 功能概述
“Agent as Judge”是一種先進的評估范式,它使用一個專門的智能體(Judge Agent)來評估另一個智能體(或團隊)在給定任務(wù)上的輸出質(zhì)量。這通常用于衡量響應(yīng)的準(zhǔn)確性、相關(guān)性、完整性等主觀性較強的指標(biāo)。與傳統(tǒng)的基于規(guī)則或簡單字符串匹配的評估方式相比,Agent as Judge能夠利用大語言模型的理解能力,進行更接近人類判斷的評估。
2. 集成詳情
在v2.3.21之前,開發(fā)者可能已經(jīng)能夠在Agno框架內(nèi)創(chuàng)建Agent as Judge評估邏輯,但管理和運行這些評估可能不夠便捷。本次更新后,這一功能在AgentOS中獲得了完整的官方支持:
? 配置與觸發(fā) :用戶現(xiàn)在可以直接在AgentOS的Evals(評估)頁面中,配置新的Agent as Judge評估任務(wù)并觸發(fā)其運行。這為評估工作流提供了統(tǒng)一的圖形化界面。
? 統(tǒng)一管理 :Agent as Judge評估的運行記錄將與現(xiàn)有的準(zhǔn)確性、性能、可靠性等評估結(jié)果一同,集中展示在Evals頁面中。這實現(xiàn)了對所有類型評估的集中監(jiān)控和管理,極大地提升了操作效率。
? API端點增強 :對應(yīng)的GET API端點也已更新,現(xiàn)在可以返回Agent as Judge評估的相關(guān)數(shù)據(jù),確保了控制平面與后端服務(wù)的數(shù)據(jù)一致性。
3. 開發(fā)者價值
這一集成意味著團隊可以更系統(tǒng)化地對智能體的輸出質(zhì)量進行監(jiān)控和迭代。例如,在產(chǎn)品上線后,可以定期用Agent as Judge評估客服智能體的回答是否恰當(dāng),或者審核內(nèi)容生成智能體的輸出是否符合安全規(guī)范。所有評估歷史和結(jié)果都可在AgentOS中追溯,為模型優(yōu)化和提示詞工程提供了數(shù)據(jù)基礎(chǔ)。
二、關(guān)鍵問題修復(fù)
v2.3.21版本修復(fù)了兩個可能影響開發(fā)體驗和生產(chǎn)穩(wěn)定性的問題。
1. RunInput對象持久化修復(fù)
? 問題描述 :當(dāng)開發(fā)者將
RunInput對象的input_content屬性設(shè)置為一個Message對象的列表時,框架在嘗試持久化(例如存入數(shù)據(jù)庫)該對象時會發(fā)生錯誤。RunInput用于封裝單次智能體運行的輸入信息,而Message是構(gòu)成對話歷史的基本單元。這個問題會導(dǎo)致包含復(fù)雜對話歷史的運行記錄無法正確保存。? 修復(fù)內(nèi)容 :開發(fā)團隊修復(fù)了
RunInput(及其對應(yīng)的TeamRunInput)的to_dict()和input_content_string()方法中的序列化邏輯。現(xiàn)在,當(dāng)input_content是一個混合了Message對象、字典或其他基礎(chǔ)類型的列表時,框架能夠正確地將所有元素遞歸地轉(zhuǎn)換為可JSON序列化的字典結(jié)構(gòu)。修復(fù)確保了無論輸入內(nèi)容多么復(fù)雜,都能被無歧義地轉(zhuǎn)換為字符串或字典格式,從而順利地進行網(wǎng)絡(luò)傳輸或數(shù)據(jù)庫存儲。? 影響 :這個修復(fù)對于依賴會話歷史、實現(xiàn)復(fù)雜對話邏輯或進行運行審計的應(yīng)用至關(guān)重要。它保證了數(shù)據(jù)管道的可靠性。
2. MistralEmbedder類超時設(shè)置修復(fù)
? 問題描述 :
MistralEmbedder類用于調(diào)用Mistral AI的嵌入模型,將文本轉(zhuǎn)換為向量。在之前的版本中,其timeout參數(shù)(用于設(shè)置HTTP請求超時時間)的傳遞方式存在錯誤,導(dǎo)致設(shè)置可能未生效或格式不正確。? 修復(fù)內(nèi)容 :修復(fù)了初始化Mistral客戶端時的參數(shù)映射。現(xiàn)在,
timeout參數(shù)會被正確地轉(zhuǎn)換并傳遞給底層的客戶端庫(timeout秒被轉(zhuǎn)換為timeout_ms毫秒)。這保證了開發(fā)者可以有效地控制嵌入過程的等待時間,避免因網(wǎng)絡(luò)問題或服務(wù)延遲導(dǎo)致進程無限期掛起。? 影響 :該修復(fù)提升了使用Mistral嵌入模型進行知識庫構(gòu)建(RAG)時的穩(wěn)定性和可預(yù)測性。特別是在處理大量文檔或網(wǎng)絡(luò)環(huán)境不穩(wěn)定時,合理的超時設(shè)置可以防止整個工作流阻塞。
本次更新在cookbook中添加了一個全新的、名為“Speech to Text”的示例目錄,展示了如何利用Agno構(gòu)建一個端到端的語音轉(zhuǎn)文本應(yīng)用。
1. 示例結(jié)構(gòu)
該示例包含了多個獨立的腳本和一個完整的工作流,演示了不同的實現(xiàn)方式和集成深度:
? 基礎(chǔ)單智能體轉(zhuǎn)錄 :
?
stt_openai_agent_simple.py:使用OpenAI的語音模型(gpt-audio)進行簡單轉(zhuǎn)錄,返回純文本。?
stt_openai_agent.py:同樣使用OpenAI模型,但通過parser_model(如gpt-5-mini)將轉(zhuǎn)錄結(jié)果解析為結(jié)構(gòu)化的Pydantic模型輸出(包含說話人、每句話文本等字段)。?
stt_gemini_agent.py:使用Google Gemini模型進行結(jié)構(gòu)化轉(zhuǎn)錄,展示了模型無關(guān)的特性。
? 高級工作流 :
stt_workflow.py:演示了如何構(gòu)建一個Agno Workflow,將音頻URL獲取、音頻格式轉(zhuǎn)換(如MP3轉(zhuǎn)WAV)、智能體轉(zhuǎn)錄、結(jié)構(gòu)化輸出生成等多個步驟編排成一個自動化流程。該工作流可部署到AgentOS,提供一個完整的服務(wù)端點。
2. 技術(shù)亮點
? 多模態(tài)支持 :示例核心利用了Agno智能體原生的多模態(tài)處理能力。通過
agno.media.Audio類,可以直接將音頻字節(jié)數(shù)據(jù)或文件傳遞給智能體。? 結(jié)構(gòu)化輸出 :展示了如何通過定義Pydantic
output_schema,讓智能體返回高度結(jié)構(gòu)化的轉(zhuǎn)錄結(jié)果,而非雜亂文本,便于下游系統(tǒng)處理。? 工作流編排 :
stt_workflow.py是Agno Workflow能力的典型展示。它將不同的處理單元(函數(shù)、智能體)連接成有向無環(huán)圖,管理狀態(tài)傳遞和錯誤處理,適用于生產(chǎn)級復(fù)雜任務(wù)。? 模型無關(guān)性 :示例同時使用了OpenAI和Gemini的模型,強調(diào)了Agno可以輕松切換底層AI提供商。
3. 開發(fā)者價值
這個示例為開發(fā)者處理音頻輸入場景提供了即用的模板。無論是構(gòu)建會議記錄工具、客服錄音分析系統(tǒng),還是任何需要將語音轉(zhuǎn)換為可分析文本的應(yīng)用,都可以以此為起點快速開發(fā)。
四、其他重要變更與文檔更新
除了上述核心內(nèi)容,v2.3.21版本還包含了一系列細(xì)微但重要的調(diào)整。
1. 數(shù)據(jù)庫集成調(diào)整
在agent_as_judge_basic.py示例中,數(shù)據(jù)庫從SQLite切換為了PostgreSQL,并提供了標(biāo)準(zhǔn)的連接字符串示例。這引導(dǎo)開發(fā)者從開發(fā)環(huán)境(SQLite)更平滑地過渡到生產(chǎn)環(huán)境(PostgreSQL)。
2. 評估邏輯優(yōu)化
在Agent as Judge評估運行后,將評估結(jié)果記錄到數(shù)據(jù)庫時,現(xiàn)在正確地將“評判者智能體”所使用的模型信息(model_id, model_provider)與“被評估智能體”的模型信息區(qū)分開來并分別存儲。這使得評估元數(shù)據(jù)更加清晰,便于分析不同評判者模型對評估結(jié)果的影響。
3. README與文檔優(yōu)化
項目的主README.md文件以及Cookbook的說明文檔cookbook/README.md都進行了大幅重寫,風(fēng)格更加簡潔、指向性更強。
? 快速定位 :新文檔更明確地根據(jù)用戶目標(biāo)(“我想構(gòu)建單個智能體”、“我想讓智能體協(xié)作”、“我想部署和管理”)來引導(dǎo)讀者前往相應(yīng)的示例目錄。
? 特性強調(diào) :更突出地強調(diào)了Agno“私有化部署”、“性能極致”、“生產(chǎn)就緒”的核心優(yōu)勢。
? 入門引導(dǎo) :將“入門指南”和“完整演示”作為最優(yōu)先的路徑,降低新用戶的學(xué)習(xí)曲線。
4. 依賴項更新
? 將核心
agno包版本升級至2.3.21。? 更新了
fastapi、fastapi-cli、yfinance等關(guān)鍵依賴的版本,以獲取最新的功能和安全補丁。
Agno v2.3.21版本是一次扎實的迭代,它沒有引入顛覆性的變更,而是在現(xiàn)有強大的基礎(chǔ)上進行打磨和增強。
? 對于評估與監(jiān)控 :通過將Agent as Judge深度集成到AgentOS,它為團隊提供了企業(yè)級的智能體性能評估工具,使得基于LLM的定性評估變得可配置、可觸發(fā)、可追溯。
? 對于框架穩(wěn)定性 :對RunInput序列化和MistralEmbedder超時的修復(fù),解決了特定場景下的潛在bug,提升了框架在處理復(fù)雜數(shù)據(jù)和外部服務(wù)調(diào)用時的魯棒性。
? 對于開發(fā)者生態(tài) :新增的語音轉(zhuǎn)文本示例是一個高質(zhì)量、可直接復(fù)用的“菜譜”(Cookbook),豐富了Agno的應(yīng)用場景庫,展示了其在多模態(tài)和復(fù)雜工作流方面的強大能力。
拓展視野:擁抱AI浪潮,關(guān)注行業(yè)前沿
在鉆研Agno這類前沿多智能體技術(shù)的同時,了解更廣闊的AI行業(yè)動態(tài)同樣重要。如今,AI正以前所未有的深度重塑工作和創(chuàng)造力。
在此為大家推薦一個高質(zhì)量的行業(yè)信息源——由脈脈平臺推出的 【脈向AI】 直播欄目。這個欄目專注于:
核心價值:
? 提供最新的AI工具、模型趨勢和行業(yè)深度解析
? 邀請AI領(lǐng)域 頭部創(chuàng)作者、行業(yè)專家 分享一線經(jīng)驗和未來洞見
? 探討AI在內(nèi)容創(chuàng)作、效率提升、產(chǎn)品創(chuàng)新等場景的實際應(yīng)用
? 提供 實時互動 機會,可直接向嘉賓提問并獲得解答
? 對開發(fā)者的意義:
這不僅是了解行業(yè)趨勢的窗口,更是拓展技術(shù)視野、連接行業(yè)人脈、把握職業(yè)新機遇的平臺。在脈脈這個覆蓋超2億職場用戶的生態(tài)中,你能接觸到最真實的行業(yè)聲音和機會。
參與方式:
歡迎關(guān)注脈脈APP內(nèi)的 「脈向AI」 欄目,預(yù)約最新直播,與AI前沿保持同步。
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.