網易首頁 > 網易號 > 正文申請入駐

對話火山引擎總裁譚待：豆包是字節最大的Agent，火山擁有最真實的Agent落地經驗

2025-12-18 22:35:26　來源: 四木相對論

北京舉報

分享至

字節公布了自己在AI領域的最新進展。

在今天舉辦的火山引擎FORCE原動力大會上，最新旗艦模型豆包大模型1.8，和音視頻創作模型Seedance 1.5 pro如期亮相。

這一次，字節沒有選擇單純堆砌參數或炫耀跑分，而是把技能點加在了實用性上。

火山引擎總裁譚待介紹，新推出的豆包大模型1.8，強化工具調用、屏幕操控和視覺理解，致力于成為更懂真實場景的 Agent 基座。而Seedance 1.5 pro的亮點在于音畫同步的突破和影視級的敘事張力。

*豆包大模型1.8部分測評結果

*Seedance 1.5 pro實測效果

在模型實用之外，字節還想幫企業更實用地解決AI落地問題。

同樣在今天，火山引擎重點發布了一系列幫助企業用好 Agent 的支持服務。

在Agent開發層面，火山升級了企業級AI Agent平臺 AgentKit。

這一平臺，覆蓋了Agent從開發、部署到管控的全生命周期，目標是解決企業在Agent落地中面臨的身份權限管理、模型確定性及系統集成等核心挑戰。

在Agent運營層面，火山還推出了HiAgent智能體工作站，通過構建統一的企業AI任務調度中心、提供一系列開箱即用的通用智能體，以及支持個性化定制智能體應用，幫助企業實現Agent的規模化管理與應用。

“模型本身當然還是要繼續變強。但另一方面，其實現在模型已經很強了，真正的問題在于有多少企業，能夠把這種強大的能力用好。”在發布會后的媒體訪談環節，譚待解釋推出AgentKit的原因。

而且，他還認為火山在Agent的企業級服務上有無可比擬的優勢。

“AI時代的系統架構需要圍繞Agent來設計。這些系統變化只有真正做過大規模實踐的人，才能體會得非常深。豆包背后的功能和工具很復雜，本質上，它就是我們最大的Agent。”譚待認為，火山通過支持豆包這個最大的Agent，積累了真實踩坑經驗。

“所以當企業來問Agent該怎么做的時候，他們第一個會想到火山。因為我們是真的做過，而不是只講概念。”譚待說。

以下是譚待和媒體的交流實錄：

Q：今年年底，能看到海內外頭部模型都在密集更新多模態大模型的進展，你覺得為什么會產生這個趨勢？

譚待：這代表著AI應用開始進入到更深的領域。最早的時候大家聊天用文字就可以了，但現在讓模型幫忙處理事情，第一，用戶的輸入可能就會帶有視覺信息，比如車里、線下攝像頭、餐飲場景的信息。而且模型處理事情要調用工具，工具返回的結果很多也是視覺化的。所以模型需要有視覺理解，才能理解這些動作的結構。

如果模型能理解視覺的話，它就可以更像人一樣來做這些事情，不一定需要每一個工具都一定要做一個MCP的server，或者用某一種API 。

我們去年12月份已經在講多模態了。因為我們很早就意識到，這才是模型真正做完復雜AI解決方案的前提。

特別是在企業場景里，需求會更加復雜。就像今天演示的案例，你讓它去分析一份報告，生成結果，中間可能要經歷幾十輪這樣的處理過程。

現在大家都在強調多模態，恰恰說明，用戶提的問題已經變得更深了。

Q：這個需求是一直在的，但多模態方向的效果還不足夠好。

譚待：得耐心。和去年比起來，現在其實已經解決了非常多的問題。模型的發展一直是這樣：它會在一段時間內進步，解鎖一個領域，這個領域會迅速爆發，然后又暴露出新的問題。

這就像人一樣，小學、初中、高中，每一次考試都越來越難，但能力也在成長。這是一個同樣的過程。所以我覺得模型的進化速度是非常快的。

Q：今天你密集提到了一些Agent面臨的挑戰。可以再展開嗎？

譚待：豆包對外表現出來是對話，但它有很多很復雜的功能，也是Agent。舉個例子，就算只是搜索功能，都有不同領域的搜索、垂直搜索、開放式問題、閉環的問題等等，它們背后都是完全不同的實現。所以在我們內部的實現豆包這個Agent的過程中，也會發現在不同的地方要解決的問題是不一樣的。

比如說做出一個視頻模型，模型本身的能力已經很好了，接下來怎么把它放到一個真實系統里？有一部分問題，我們可以通過火山內部的一些機制來解決，比如MaaS這樣的能力，但還有一些問題是繞不過去的。因為Agent最終是要跑在真實系統上的，所以它對系統的鑒權、對運行時（Runtime）的穩定性、對彈性、對數據安全，都會提出非常高的要求。

對企業來說，Agent的價值其實是非常直接的。一個企業可能每做一個這樣的Agent，就能省下幾千行代碼，也可能節省幾周的開發時間。我們提供的這些底層服務能力，大家再去做Agent應用這件事情，整體就會順很多。

所以回到剛才問的問題，我覺得有兩點。第一，模型本身當然還是要繼續變強。但第二點，其實現在模型已經很強了，真正的問題在于有多少企業，能夠把這種“強”用好。

而要把模型用好，其實需要一整套新的東西，也就是一套為Agent的開發和運行而設計的架構。我們一般把它稱為AI云原生架構。這個概念我們其實很早就開始講了，只是到今天，我們把它拆得更細了，變成了一整套可以落地的AgentKit、工具和流程。

相信通過這種方式，等大家下次再來大會的時候，會看到非常多的Agent，已經是真正在生產環境里跑起來的樣子。

Q：有觀點認為，Agent時代和App時代會產生沖突。你怎么看Agent與App的關系？

譚待：我覺得現在談沖突還太早了。從用戶角度來看，用戶的需求才是核心。用戶是通過和機器人說一句話，還是點App，還是打電話，本質上都是在滿足同一個需求。

如果AI讓這件事變得更方便、成本更低，需求本身就會被放大。因為以前人們可能覺得太麻煩就不做了。現在變得很容易，就會多做幾次。所以需求變大了，形態并不是關鍵。未來可能Web、App、Agent都會并存。

Q：你提到豆包大模型已實現超過10倍的數據增長，臨近年底，你怎么評價今年豆包大模型的整體成績，以及如何看待明年大模型賽道的整體競爭？

譚待：今年整體成績還可以，在國內肯定處在比較領先的位置，但放到全球看，OpenAI等海外廠商都已發布新一代模型，所以我們還要繼續努力。字節在全球市場相較于國內還有更多提升空間，我們會持續投入，把模型做得更好。

不過我覺得模型之間的競爭不是最重要的，最重要的是把整個市場做大。如果明年整個市場能再漲10倍，大家面對的就是增量市場而非存量競爭，就不是零和博弈了。

回頭看火山引擎，我們在國內是最早講模型、講Token、講模型成本、講通過技術手段大幅降價的。當時我們把價格降到很低還能保持毛利，很多人一開始不信，覺得我們在虧錢，現在大家都在降價，也就慢慢接受這個事實了。越來越多廠商加入是好事，大家一起把市場做大，才有可能真正推動各行業的AI落地。

Q：今年7月有報告提到，企業使用AI工具后，不同產業生產力提升差距大，結構性變化明顯，傳統行業相對落后，而且企業只有看到回報才會繼續投入。想請問你在客戶擴展和銷售過程中，有沒有觀察到類似的差距？它會不會影響到市場拓展？

譚待：這是個挺好的問題，這取決于怎么看這件事。有些行業起量非常快，但天花板不高，有些行業起量很慢，但天花板非常高。

比如最早模型起量最快的是陪伴型聊天，但這個場景天花板不高，因為一個人一天能聊天的時間有限。而起量慢、天花板高的比如深度研究，可能一個董事長一天只需要用一次，比如問“豆包，你告訴我，現在什么行業更好？”，這個問題一天問一次就夠了，但為了回答好它，背后的Agent可能要跑幾個小時甚至一整天，要做大量的搜索、數據清洗、分析、提出假設、擴展推理，甚至處理視頻內容。

這種需求產生的算力和資源消耗非常大，是價值很高但推進很慢的方向。

Q：怎么形容現在豆包等字節系應用和火山引擎MaaS業務之間的關系？當下外部應用層面競爭愈發激烈，這種變化會不會對它們之間的關系帶來新影響？

譚待：豆包等字節內部產品也在使用火山，火山的技術底座是內外一體的。

這有很大好處。方舟上包括強化學習在內的幾乎所有能力，都經過內部大規模、高頻次的真實用戶使用，我們的產品能保持領先，很重要的原因就是我們自己先用、先實踐。

至于外部競爭我覺得還好，我們的外部客戶之間本身就存在競爭關系，比如幾十家短劇公司之間既有競爭也有合作。火山會保持中立角色，不管是內部還是外部客戶，都會按ToB服務的最高標準做好隔離、安全和合規。

Q：今天提到會對豆包API做更多擴展，請問這一方向的整體思路是什么？

譚待：這是個很自然的過程。大家覺得豆包APP很多功能好用，而這些功能背后不是簡單的API調用，本質是一整套帶業務邏輯且不斷迭代的Agent系統。

很多企業客戶在用豆包時，都希望能直接使用這些好用的功能，他們覺得即便知道有模型API，自己用模型再搭建一套系統也很難。

有些場景有必要用模型API定制，有些場景可以直接復用成熟能力，這兩種方式屬于不同維度，并非互相替代，而是面向不同需求的形態。不過基本原則還是通過技術和產品的持續創新以及成本的不斷優化，把產品真正做好。

Q：之前有觀點提到未來MaaS平臺帶來的收入可能會和傳統云業務處在一個量級，你怎么看？如何處理好存量業務，一步一步過渡到增量業務？

譚待：我整體是比較認同這個趨勢的。因為這本質上是一個業務轉型的問題。存量業務現在還是比較大的，但如果從芯片出貨量來看，其實兩年前GPU的出貨量就已經發生了很大的變化。以前GPU更多是用來訓練，現在越來越多是用來推理。我們很早就意識到了，也一直在強調這件事情的重要性。

如何過渡首先是一個戰略問題。因為所有策略，最終都是服務于戰略目標的。

戰略本質上就是取舍，以及時間維度上的選擇。你是看短期，還是看長期？我們一直比較強調從長期去倒推。比如先想清楚三年后你希望自己處在什么位置，再倒推就會知道今年、明年什么事情是最重要的。如果一家公司的戰略是正確的，但它明年做的事情卻和這個戰略不一致，那問題就會很大。

所以我們一直鼓勵大家先把“大圖景”看清楚。只要大方向清楚了，會發現可以有很多策略去支撐這個方向，可以組建專門的團隊，也可以調整激勵機制。

還有一點我覺得非常重要，就是在技術變革期，一定要讓技術能力強的人來負責業務。如果是在一個相對平穩的階段，可以讓銷售能力更強的人來主導。但如果是在像現在這樣快速變化的技術周期里，技術能力就非常關鍵。

Q：現在很多云公司的核心收入還是計算資源、存儲等傳統云業務。但今天提到的多模態、Agent、數據庫等產品，增長速度都非常快。你覺得接下來哪些類型的產品會率先到達一個新規模？

譚待：還是要回到技術變化的內核。過去幾次大的技術浪潮。第一次是PC，然后是互聯網，那個時代的核心是網站。圍繞網站，誕生了數據庫、搜索等一系列基礎設施。后來進入移動時代，核心變成了App。App的使用頻率相比網站提升了一個數量級，很多技術也隨之重構。而現在進入AI時代，最大的變化是——主體發生了變化。App和Web仍然存在，但背后的邏輯會越來越多圍繞Agent來構建。

系統架構，需要圍繞Agent來設計。要考慮Agent需要什么樣的數據、什么樣的運行環境、什么樣的工具調用能力。這也會帶來數據庫形態的變化，因為Agent是按需生成內容的，和傳統應用是完全不同的模式。

所以，Sandbox、單體體驗、實時數據等需求都會變得更加重要。這本質上是開發范式的變化。而這些變化，只有真正做過大規模實踐的人，才能體會得非常深。這也是為什么我們一直強調，要用實踐來反哺產品。

豆包本身就是一個非常大規模的實踐。我們在真實環境中跑過這些Agent，踩過坑，也積累了經驗。所以當企業來問“Agent該怎么做”的時候，他們第一個會想到我們。因為我們是真的做過，而不是只講概念。

Q：有觀點認為，短期內大家會通過價格戰快速放大收入規模，但競爭也會非常激烈。你怎么看？

譚待：我一直覺得，競爭本身不是關鍵問題。假設明年整個市場還能增長10倍，那增長3倍還是5倍，其實差別沒有那么大。更重要的是，有更多的人參與進來，會讓整個事情做得更快。更多的人、更多的想法，會加速AI落地，市場的天花板本身就非常高。

其他云廠加大投入是一件好事，大家一起把市場做大。

Q：今天發布了豆包1.8，谷歌那邊也在差不多的時間發布了Gemini 3 Flash。目前業界普遍認為，Gemini 3在全球范圍內屬于非常領先的一代模型。如何看待模型之間的差距？

譚待：這個問題我們肯定要正視。

如果你問我，那肯定是要努力追趕的。但追趕這件事也可以從不同維度去看。可以看“距離”，也可以看“速度”，還可以看“加速度”。如果只看距離，那確實是有差距的。如果看速度，在某些階段，我們未必比對方慢。但我更關心的是加速度。

在這一段時間里，我們的加速度是在提升的。所以從這個角度來看，我對最終能夠不斷接近有信心。

實際上大家也能看到，在一些具體能力上，大家是交替領先的。比如說今天發布的Seedance 1.5 pro的語音和畫面同步，之前是Veo 3較早做出來的，后來也有Sora2。但要把音畫同步真正做好，其實并不容易。經常會出現嘴型對不上，或者突然吞音的情況。

在整個音畫同步上，我們認為現在Seedance 1.5 pro的效果最好。尤其是對中文、對方言的支持，音畫同步，這是一個非常難的點。再比如Seedream 4.5，我個人感覺整體效果上處在比較領先的位置。

當然，整體Google在一些方面還是領先的，我們在追趕。但更重要的，還是看長期。

Q：以前大家更多會覺得火山是字節技術能力的外溢。2022、2023年左右會感覺這種外溢在商業價值上的體現還不是特別明顯。但在這一輪AI浪潮里，火山明顯獲得了更多客戶的認可。這種變化背后的原因是什么？

譚待：你剛才提到的幾個點，其實可以回到“距離、速度、加速度”這個框架來看。你現在看到的，都是已經顯性的結果。但在內部，很多積累其實是很早就開始了。

首先，現在能做得比較好的廠商，基本都有一個共同點。那就是，它們本身就有非常大的業務規模作為支撐。因為大模型這件事情，技術投入是非常大的。沒有一個能夠產生萬億級現金流的業務，是很難長期在這個方向上持續投入的。

第二點，就是外溢的路徑問題。最早外溢出去的，其實是工具類能力。因為工具最容易標準化，也最容易對外復制。最早大家想要的，就是“抖音同款”。這個其實不是2023年才開始的，而是更早，大概在2020年左右。

再往后是規模優勢。抖音的服務器規模，在國內是最大的。這些基礎設施能力，被逐步抽象出來，形成了現在的云服務。

在2021年底，我們正式推出了云服務。而在AI這條線上，我們其實一直非常堅持。從最早做推薦算法開始，推薦本身就是AI的一種形式。包括內容創作、內容分發，背后其實都是AI能力。

到了2023年，大模型開始真正成熟，大家才看到應用層面的爆發。但AI從來都不是一步就能做成的事情，要先解決訓練問題，再解決推理問題，最后才是應用問題。所以在2023年，幾乎所有AI創業公司，都是在火山上訓練模型。等訓練結束之后才真正進入應用階段，也正是在這個階段，火山引擎的價值才被更多客戶真實感知到。

這幾年能被客戶認可的最核心原因，還是遇到了一個真正的技術風口。如果沒有風口，做的更多是20%到30%的效率提升。但一旦遇到風口，一兩年內就可能發生非常大的變化。但從本質上講，技術積累本身并沒有變。

Q：豆包大模型日均處理token量超過 50 萬億，想請問豆包token的消耗比例是怎樣分布的？個人和企業的比例又是怎樣的？

譚待：早期階段，整體上還是偏C端一些。比如互聯網、零售，包括手機、汽車，這些行業增長都比較快。但我們也看到，在企業側有些客戶已經在內部部署了上百個Agent。這些Agent每天的token消耗也能達到幾十億量級。現在看到的“1萬億token俱樂部”，已經不止一百家。

簡單算一下會發現很多企業客戶在AI上的消耗，已經超過了它們在傳統云上的消耗。

至于個人和企業的比例，我覺得還是符合所謂的“二八規律”。大概可以理解為，個人用戶數量多，企業用戶數量少，但企業的單體消耗更大。如果用一個非常粗略的比例來講，云時代大概是8.5比1.5，現在可能是7.5比2.5，我覺得可能未來個人占比還會再高一點。

Q：那在行業側，你們接下來會重點投入哪些行業？

譚待：我們是這樣做的。首先，客戶的層級不同，需求也會不一樣。有些客戶，通過開發者社區，或者生態伙伴，就可以很好地服務。有些客戶我們會通過直銷團隊來服務。還有一些行業，因為客戶高度集中，需求也比較類似，我們會按行業來做解決方案。比如汽車行業，就是一個非常典型的例子。

Q：按Token收費，你之前說覺得還是一種比較原始的模式。現在怎么看這種模式？以及你們是否在探索新的商業形態？

譚待：是的，按token收費確實是比較原始的。但“原始”并不代表不好。它對應的是一個比較底層的抽象層級。API就像原材料，你用多少，就付多少錢。當然，不同模型版本，因為能產生的價值不同，定價也會不一樣。但對企業來說，它最終關心的，不是token，而是問題能不能被解決。所以再往上走，一定是Agent。

Agent可以是以API的形式提供，也可以是一個完整的產品形態。

比如客服Agent，客戶直接把它當客服用就行。或者Coding，讓Trae和工程師一起寫代碼。

當抽象層級變高之后，商業邏輯也會發生變化，就不再只是在IT預算里去看這件事，而是看全球客服市場有多大，開發者市場還有多少缺口。這些都是新的市場空間，也是為什么很多機構會講“十萬億美元級”的市場。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.