![]()
新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】谷歌悄悄加了一個Agent新入口:Gemini開始長出「手腳」,不再只負(fù)責(zé)回答問題,還準(zhǔn)備下場替你干活了。
一張截圖,提前透露了今年谷歌I/O大會的一點(diǎn)重要信息:
Gemini不只想聊天了,它還想當(dāng)Agent工作臺。
近日,長期追蹤谷歌產(chǎn)品變動的TestingCatalog抓到了Gemini上一個新的「Agents」入口。
![]()
它和Gems、Files并列,直接擺在一級入口,而不是只有開發(fā)者才能看到的隱藏選項(xiàng)。
這個改變釋放出一個清晰的信號:
Gemini的下一階段,不再只是一個「你問我答」的聊天框,而是一個「你下任務(wù)、它來執(zhí)行」的工作臺。
把谷歌過去半年的產(chǎn)品動作串起來看,這條線已經(jīng)很清楚了:
Agent Designer在Gemini Enterprise全面上線,NotebookLM補(bǔ)上音頻生成和視頻摘要,Agentspace整體并入Gemini Enterprise成為其核心引擎,Chrome嵌入Gemini側(cè)邊欄并上線Auto Browse讓AI代你操作瀏覽器。
而現(xiàn)在,Gemini的聊天界面里出現(xiàn)了一個與Chat并列的「Agents」標(biāo)簽頁,用戶可以直接在里面新建任務(wù)、指定目標(biāo)、掛載工具和文件,整個界面更像一個任務(wù)執(zhí)行工作臺,而不是聊天窗口。
每一步都在做同一件事:把Agent能力從開發(fā)者后臺搬到普通用戶面前。
I/O還沒開場,谷歌的牌其實(shí)已經(jīng)亮出了一半。
Chat不再是唯一中心
翻一下谷歌官方的產(chǎn)品描述,你會發(fā)現(xiàn)畫風(fēng)已經(jīng)變了。
2024年2月Gemini for Google Workspace剛上線的時候,那時的賣點(diǎn)是什么?Chat。
![]()
跟AI聊天,幫你寫郵件,幫你做會議紀(jì)要,本質(zhì)上是一個塞進(jìn)Workspace里的聊天助手。
現(xiàn)在再看谷歌官網(wǎng)對Gemini Enterprise的描述:「Gemini Enterprise讓團(tuán)隊(duì)在一個安全平臺上發(fā)現(xiàn)、創(chuàng)建、分享和運(yùn)行AI Agent。」
![]()
聊天能力依然是Gemini Enterprise的核心之一,但它現(xiàn)在已被清晰地納入到一個更大的Agent平臺框架之中。
![]()
TestingCatalog曝光的Gemini Enterprise測試界面
根據(jù)TestingCatalog曝光的Gemini Enterprise測試界面顯示,Agent已進(jìn)入主交互區(qū):左側(cè)可在Chat 與Agent間切換,右側(cè)則整合目標(biāo)、Agent、應(yīng)用連接與文件面板。
在新增的「智能體」標(biāo)簽頁面中,首先映入眼簾的是「新建任務(wù)」和「收件箱」這兩個明確的入口。
當(dāng)啟動一項(xiàng)新任務(wù)時,界面會展開為一個功能強(qiáng)大的任務(wù)工作區(qū)。
雖然核心的聊天視圖依然保留,但它的右側(cè)出現(xiàn)了一個結(jié)構(gòu)化的任務(wù)面板。
該面板清晰地定義了任務(wù)的各個要素,包括明確的「目標(biāo)」、執(zhí)行任務(wù)的「智能體」、可訪問的「已連接的應(yīng)用」以及所需的「文件」。
此外,右側(cè)邊欄還出現(xiàn)了一個「Require human review」(需要人工審核)開關(guān),用戶可以對任務(wù)執(zhí)行過程加入人工審核節(jié)點(diǎn),整個界面也因此更像一個任務(wù)執(zhí)行工作區(qū),而不只是普通聊天窗口。
這表明你打開Gemini,將不再僅僅是為了聊天,而是要「跑一個任務(wù)」。
這也印證了谷歌對Gemini Enterprise的定義,已經(jīng)從一個「聊天助手」轉(zhuǎn)變?yōu)橐粋€強(qiáng)大的「Agent運(yùn)行平臺」。
不用寫代碼
也能造Agent
落到產(chǎn)品層面,最硬的一塊拼圖是Agent Designer,它已于2025年底正式上線了。
![]()
谷歌官方對它的定義是:
一個交互式的無代碼/低代碼平臺,用于在Gemini Enterprise中創(chuàng)建、管理和發(fā)布單步及多步Agent。
拆開來看三個關(guān)鍵能力:
第一,多步驟Agent。
不是「幫我寫封郵件」這種單次指令,是支持多步任務(wù)編排,Agent下面還能掛子Agent,串成工作流。
第二,連接真實(shí)工具。
Gmail、谷歌Drive、Jira、GitHub、Notion、SharePoint,這些都是官方更新日志里列出來的已上線連接器,Shopify等更多連接器也已進(jìn)入公開預(yù)覽。
第三,定時執(zhí)行。
Agent不需要你盯著,設(shè)好時間自己跑。
而在此之前,谷歌已經(jīng)通過Agentspace(現(xiàn)已并入Gemini Enterprise)驗(yàn)證了這條路線:把知識搜索和Agent執(zhí)行捏到同一個平臺里。
員工不用關(guān)心后面跑的是哪個Agent、調(diào)的是哪個數(shù)據(jù)源,在一個界面里搜、問、跑,全搞定。
而泄露界面里出現(xiàn)的C端Agent標(biāo)簽頁,意味著這套能力不會只留在企業(yè)版。
谷歌大概率要把它推給所有用戶。
光有大腦不夠
還得有手腳
這里有個容易混淆的概念需要拆清楚。
Agent不等于大模型。
大模型更像是 Agent 的「大腦」,負(fù)責(zé)理解任務(wù)、推理路徑和生成決策。
但要真正把事情做完,還需要一層「手腳」,也就是編排層,負(fù)責(zé)拆解步驟、調(diào)用工具、銜接上下文,并處理執(zhí)行過程中的異常。
谷歌這次補(bǔ)上的,正是這層能力。
從公開資料看,Gemini Enterprise里的Agent Designer,可以理解成一個面向普通企業(yè)用戶的可視化Agent工作臺:不用寫代碼,也能把單步、多步任務(wù)編排出來。
相比之下,Vertex AI Agent Builder里的Agent Designer更偏底層和開發(fā)者場景。
兩者能力框架高度相似,只是前者被做成了更易用、門檻更低的產(chǎn)品界面。
換句話說,谷歌做的不是單純把模型變得更會聊天,而是把原本更偏開發(fā)者的 Agent 構(gòu)建能力,包裝成了普通用戶也能上手的可視化工作臺。
對C端用戶來說,這意味著一件事:你不需要懂API,不需要寫Python,拖拖拽拽就能讓AI幫你跑完一個工作流。
從「能聊天的AI」到「能干活的AI」,中間隔的就是這個編排層。
編排層三國殺
把視野拉遠(yuǎn)一步:谷歌不是唯一在搶編排層的人。
Anthropic和OpenAI各自押了完全不同的路線,三家的分歧大到像在做三個不同的產(chǎn)品。
先看理念。
谷歌走的是平臺化。
把Agent能力嵌入已有產(chǎn)品矩陣:Workspace、Search、NotebookLM、谷歌 Cloud,靠分發(fā)優(yōu)勢碾壓。
邏輯很清楚:20億+用戶的觸達(dá)能力是護(hù)城河,Agent做出來直接塞進(jìn)用戶已經(jīng)在用的工具里。
![]()
Anthropic走的是工具化。
Claude Cowork運(yùn)行在桌面端,直接操作本地文件、文件夾和應(yīng)用程序。
Anthropic的官方產(chǎn)品頁寫道:
它能在不同應(yīng)用之間自由切換,整合多個來源的信息,不需要用戶協(xié)調(diào)每一步就能完成任務(wù)。
![]()
https://www.anthropic.com/product/claude-cowork?utm_source=chatgpt.com
不建平臺,不搞生態(tài),讓模型本身成為Agent。
OpenAI更像是在走平臺與生態(tài)并舉的路線:
一邊通過GPTs和GPT Store擴(kuò)大第三方供給與分發(fā),一邊在API側(cè)從Assistants API遷移到Responses API,并以Agents SDK承接更完整的agent開發(fā)。
再看架構(gòu)差異。
谷歌重編排層。
Vertex AI Agent Builder提供完整框架,Agent Designer做前端,企業(yè)級多Agent協(xié)作是核心賣點(diǎn)。
Anthropic輕編排重能力。
模型原生支持工具調(diào)用和環(huán)境交互,編排的事交給開發(fā)者自己搞定。Claude的思路是:與其我?guī)湍愦羁蚣埽蝗缥抑苯幼銐驈?qiáng),你愛怎么編排怎么編排。
OpenAI在中間。
Assistants API提供了一層編排抽象,但沒有谷歌那么重,GPT Store負(fù)責(zé)分發(fā),但生態(tài)活躍度一直是個問號。
目標(biāo)用戶也完全不同。
谷歌瞄準(zhǔn)企業(yè)IT部門和C端普通用戶,門檻最低。Anthropic瞄準(zhǔn)開發(fā)者和高級用戶,上限最高。OpenAI試圖廣覆蓋,開發(fā)者和C端都要。
有意思的是,三家現(xiàn)在競爭的已經(jīng)不是「誰的模型更聰明」。編排層的易用性和生態(tài)豐富度,才是決定開發(fā)者選誰的勝負(fù)手。
誰先讓十億人用上Agent
這一次的戰(zhàn)場,不在模型層。
谷歌CEO Sundar Pichai曾在官方博客中說過:谷歌的競爭力,從來不只是某一個模型版本,而在于它背后那套完整的全棧能力:
從研究、模型與工具,到觸達(dá)數(shù)十億用戶的產(chǎn)品入口,再到覆蓋全球的云網(wǎng)絡(luò)和數(shù)據(jù)中心體系。
![]()
當(dāng)Agent從API走向GUI,「人人可用」的臨界點(diǎn)正在逼近。
而在這個臨界點(diǎn)上,分發(fā)能力的重要性,正在迅速超過模型跑分。
Anthropic的優(yōu)勢,在于它更早把「computer use」這類原生 Agent能力推到臺前。
Claude已經(jīng)可以通過截圖、鼠標(biāo)和鍵盤與桌面環(huán)境交互,Cowork也明確強(qiáng)調(diào)它不是聊天助手,而是一個能在本地文件、文件夾和應(yīng)用之間切換、代替用戶執(zhí)行多步知識工作的系統(tǒng)。
但Anthropic的短板也很明顯:它沒有谷歌那樣的消費(fèi)級產(chǎn)品矩陣,Cowork目前官方口徑仍是research preview,雖然擴(kuò)張很快,但離真正的大規(guī)模默認(rèn)分發(fā)仍有一大段距離。
距離谷歌I/O大會不到一個月,谷歌很有可能會進(jìn)一步公開自己的Agent方向。
這更像是一場「分發(fā)對執(zhí)行」的對賭。
谷歌的賭注是:當(dāng)Agent能力被接進(jìn)Gemini、Workspace和更廣泛的產(chǎn)品入口,現(xiàn)成的分發(fā)網(wǎng)絡(luò)會迅速完成用戶教育。
而Anthropic賭的則是:當(dāng)開發(fā)者和高級用戶真正體驗(yàn)過能跨應(yīng)用、會動桌面的Agent之后,他們會優(yōu)先為執(zhí)行力買單。
這場Agent競爭的焦點(diǎn),正在從「誰更會聊天」轉(zhuǎn)向「誰更能把任務(wù)做完」。
比拼的不只是 Agent 的執(zhí)行力本身,還有誰能把這種能力最快、最大規(guī)模地送到用戶手里。
谷歌和Anthropic都在押注Agent,但它們押的不是同一種勝利方式。
參考資料:
https://www.testingcatalog.com/google-develops-its-own-desktop-agent-to-compete-with-cowork/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.