字節公布了自己在AI領域的最新進展。
在今天舉辦的火山引擎FORCE原動力大會上,最新旗艦模型豆包大模型1.8,和音視頻創作模型Seedance 1.5 pro如期亮相。
![]()
![]()
這一次,字節沒有選擇單純堆砌參數或炫耀跑分,而是把技能點加在了實用性上。
火山引擎總裁譚待介紹,新推出的豆包大模型1.8,強化工具調用、屏幕操控和視覺理解,致力于成為更懂真實場景的 Agent 基座。而Seedance 1.5 pro的亮點在于音畫同步的突破和影視級的敘事張力。
![]()
![]()
*豆包大模型1.8部分測評結果
*Seedance 1.5 pro實測效果
在模型實用之外,字節還想幫企業更實用地解決AI落地問題。
同樣在今天,火山引擎重點發布了一系列幫助企業用好 Agent 的支持服務。
在Agent開發層面,火山升級了企業級AI Agent平臺 AgentKit。
這一平臺,覆蓋了Agent從開發、部署到管控的全生命周期,目標是解決企業在Agent落地中面臨的身份權限管理、模型確定性及系統集成等核心挑戰。
![]()
在Agent運營層面,火山還推出了HiAgent智能體工作站,通過構建統一的企業AI任務調度中心、提供一系列開箱即用的通用智能體,以及支持個性化定制智能體應用,幫助企業實現Agent的規模化管理與應用。
![]()
“模型本身當然還是要繼續變強。但另一方面,其實現在模型已經很強了,真正的問題在于有多少企業,能夠把這種強大的能力用好。”在發布會后的媒體訪談環節,譚待解釋推出AgentKit的原因。
而且,他還認為火山在Agent的企業級服務上有無可比擬的優勢。
“AI時代的系統架構需要圍繞Agent來設計。這些系統變化只有真正做過大規模實踐的人,才能體會得非常深。豆包背后的功能和工具很復雜,本質上,它就是我們最大的Agent。”譚待認為,火山通過支持豆包這個最大的Agent,積累了真實踩坑經驗。
“所以當企業來問Agent該怎么做的時候,他們第一個會想到火山。因為我們是真的做過,而不是只講概念。”譚待說。
以下是譚待和媒體的交流實錄:
Q:今年年底,能看到海內外頭部模型都在密集更新多模態大模型的進展,你覺得為什么會產生這個趨勢?
譚待:這代表著AI應用開始進入到更深的領域。最早的時候大家聊天用文字就可以了,但現在讓模型幫忙處理事情,第一,用戶的輸入可能就會帶有視覺信息,比如車里、線下攝像頭、餐飲場景的信息。而且模型處理事情要調用工具,工具返回的結果很多也是視覺化的。所以模型需要有視覺理解,才能理解這些動作的結構。
如果模型能理解視覺的話,它就可以更像人一樣來做這些事情,不一定需要每一個工具都一定要做一個MCP的server,或者用某一種API 。
我們去年12月份已經在講多模態了。因為我們很早就意識到,這才是模型真正做完復雜AI解決方案的前提。
特別是在企業場景里,需求會更加復雜。就像今天演示的案例,你讓它去分析一份報告,生成結果,中間可能要經歷幾十輪這樣的處理過程。
現在大家都在強調多模態,恰恰說明,用戶提的問題已經變得更深了。
Q:這個需求是一直在的,但多模態方向的效果還不足夠好。
譚待:得耐心。和去年比起來,現在其實已經解決了非常多的問題。模型的發展一直是這樣:它會在一段時間內進步,解鎖一個領域,這個領域會迅速爆發,然后又暴露出新的問題。
這就像人一樣,小學、初中、高中,每一次考試都越來越難,但能力也在成長。這是一個同樣的過程。所以我覺得模型的進化速度是非常快的。
Q:今天你密集提到了一些Agent面臨的挑戰。可以再展開嗎?
譚待:豆包對外表現出來是對話,但它有很多很復雜的功能,也是Agent。舉個例子,就算只是搜索功能,都有不同領域的搜索、垂直搜索、開放式問題、閉環的問題等等,它們背后都是完全不同的實現。所以在我們內部的實現豆包這個Agent的過程中,也會發現在不同的地方要解決的問題是不一樣的。
比如說做出一個視頻模型,模型本身的能力已經很好了,接下來怎么把它放到一個真實系統里?有一部分問題,我們可以通過火山內部的一些機制來解決,比如MaaS這樣的能力,但還有一些問題是繞不過去的。因為Agent最終是要跑在真實系統上的,所以它對系統的鑒權、對運行時(Runtime)的穩定性、對彈性、對數據安全,都會提出非常高的要求。
對企業來說,Agent的價值其實是非常直接的。一個企業可能每做一個這樣的Agent,就能省下幾千行代碼,也可能節省幾周的開發時間。我們提供的這些底層服務能力,大家再去做Agent應用這件事情,整體就會順很多。
所以回到剛才問的問題,我覺得有兩點。第一,模型本身當然還是要繼續變強。但第二點,其實現在模型已經很強了,真正的問題在于有多少企業,能夠把這種“強”用好。
而要把模型用好,其實需要一整套新的東西,也就是一套為Agent的開發和運行而設計的架構。我們一般把它稱為AI云原生架構。這個概念我們其實很早就開始講了,只是到今天,我們把它拆得更細了,變成了一整套可以落地的AgentKit、工具和流程。
相信通過這種方式,等大家下次再來大會的時候,會看到非常多的Agent,已經是真正在生產環境里跑起來的樣子。
Q:有觀點認為,Agent時代和App時代會產生沖突。你怎么看Agent與App的關系?
譚待:我覺得現在談沖突還太早了。從用戶角度來看,用戶的需求才是核心。用戶是通過和機器人說一句話,還是點App,還是打電話,本質上都是在滿足同一個需求。
如果AI讓這件事變得更方便、成本更低,需求本身就會被放大。因為以前人們可能覺得太麻煩就不做了。現在變得很容易,就會多做幾次。所以需求變大了,形態并不是關鍵。未來可能Web、App、Agent都會并存。
Q:你提到豆包大模型已實現超過10倍的數據增長,臨近年底,你怎么評價今年豆包大模型的整體成績,以及如何看待明年大模型賽道的整體競爭?
譚待:今年整體成績還可以,在國內肯定處在比較領先的位置,但放到全球看,OpenAI等海外廠商都已發布新一代模型,所以我們還要繼續努力。字節在全球市場相較于國內還有更多提升空間,我們會持續投入,把模型做得更好。
不過我覺得模型之間的競爭不是最重要的,最重要的是把整個市場做大。如果明年整個市場能再漲10倍,大家面對的就是增量市場而非存量競爭,就不是零和博弈了。
回頭看火山引擎,我們在國內是最早講模型、講Token、講模型成本、講通過技術手段大幅降價的。當時我們把價格降到很低還能保持毛利,很多人一開始不信,覺得我們在虧錢,現在大家都在降價,也就慢慢接受這個事實了。越來越多廠商加入是好事,大家一起把市場做大,才有可能真正推動各行業的AI落地。
Q:今年7月有報告提到,企業使用AI工具后,不同產業生產力提升差距大,結構性變化明顯,傳統行業相對落后,而且企業只有看到回報才會繼續投入。想請問你在客戶擴展和銷售過程中,有沒有觀察到類似的差距?它會不會影響到市場拓展?
譚待:這是個挺好的問題,這取決于怎么看這件事。有些行業起量非常快,但天花板不高,有些行業起量很慢,但天花板非常高。
比如最早模型起量最快的是陪伴型聊天,但這個場景天花板不高,因為一個人一天能聊天的時間有限。而起量慢、天花板高的比如深度研究,可能一個董事長一天只需要用一次,比如問“豆包,你告訴我,現在什么行業更好?”,這個問題一天問一次就夠了,但為了回答好它,背后的Agent可能要跑幾個小時甚至一整天,要做大量的搜索、數據清洗、分析、提出假設、擴展推理,甚至處理視頻內容。
這種需求產生的算力和資源消耗非常大,是價值很高但推進很慢的方向。
Q:怎么形容現在豆包等字節系應用和火山引擎MaaS業務之間的關系?當下外部應用層面競爭愈發激烈,這種變化會不會對它們之間的關系帶來新影響?
譚待:豆包等字節內部產品也在使用火山,火山的技術底座是內外一體的。
這有很大好處。方舟上包括強化學習在內的幾乎所有能力,都經過內部大規模、高頻次的真實用戶使用,我們的產品能保持領先,很重要的原因就是我們自己先用、先實踐。
至于外部競爭我覺得還好,我們的外部客戶之間本身就存在競爭關系,比如幾十家短劇公司之間既有競爭也有合作。火山會保持中立角色,不管是內部還是外部客戶,都會按ToB服務的最高標準做好隔離、安全和合規。
Q:今天提到會對豆包API做更多擴展,請問這一方向的整體思路是什么?
譚待:這是個很自然的過程。大家覺得豆包APP很多功能好用,而這些功能背后不是簡單的API調用,本質是一整套帶業務邏輯且不斷迭代的Agent系統。
很多企業客戶在用豆包時,都希望能直接使用這些好用的功能,他們覺得即便知道有模型API,自己用模型再搭建一套系統也很難。
有些場景有必要用模型API定制,有些場景可以直接復用成熟能力,這兩種方式屬于不同維度,并非互相替代,而是面向不同需求的形態。不過基本原則還是通過技術和產品的持續創新以及成本的不斷優化,把產品真正做好。
Q:之前有觀點提到未來MaaS平臺帶來的收入可能會和傳統云業務處在一個量級,你怎么看?如何處理好存量業務,一步一步過渡到增量業務?
譚待:我整體是比較認同這個趨勢的。因為這本質上是一個業務轉型的問題。存量業務現在還是比較大的,但如果從芯片出貨量來看,其實兩年前GPU的出貨量就已經發生了很大的變化。以前GPU更多是用來訓練,現在越來越多是用來推理。我們很早就意識到了,也一直在強調這件事情的重要性。
如何過渡首先是一個戰略問題。因為所有策略,最終都是服務于戰略目標的。
戰略本質上就是取舍,以及時間維度上的選擇。你是看短期,還是看長期?我們一直比較強調從長期去倒推。比如先想清楚三年后你希望自己處在什么位置,再倒推就會知道今年、明年什么事情是最重要的。如果一家公司的戰略是正確的,但它明年做的事情卻和這個戰略不一致,那問題就會很大。
所以我們一直鼓勵大家先把“大圖景”看清楚。只要大方向清楚了,會發現可以有很多策略去支撐這個方向,可以組建專門的團隊,也可以調整激勵機制。
還有一點我覺得非常重要,就是在技術變革期,一定要讓技術能力強的人來負責業務。如果是在一個相對平穩的階段,可以讓銷售能力更強的人來主導。但如果是在像現在這樣快速變化的技術周期里,技術能力就非常關鍵。
Q:現在很多云公司的核心收入還是計算資源、存儲等傳統云業務。但今天提到的多模態、Agent、數據庫等產品,增長速度都非常快。你覺得接下來哪些類型的產品會率先到達一個新規模?
譚待:還是要回到技術變化的內核。過去幾次大的技術浪潮。第一次是PC,然后是互聯網,那個時代的核心是網站。圍繞網站,誕生了數據庫、搜索等一系列基礎設施。后來進入移動時代,核心變成了App。App的使用頻率相比網站提升了一個數量級,很多技術也隨之重構。而現在進入AI時代,最大的變化是——主體發生了變化。App和Web仍然存在,但背后的邏輯會越來越多圍繞Agent來構建。
系統架構,需要圍繞Agent來設計。要考慮Agent需要什么樣的數據、什么樣的運行環境、什么樣的工具調用能力。這也會帶來數據庫形態的變化,因為Agent是按需生成內容的,和傳統應用是完全不同的模式。
所以,Sandbox、單體體驗、實時數據等需求都會變得更加重要。這本質上是開發范式的變化。而這些變化,只有真正做過大規模實踐的人,才能體會得非常深。這也是為什么我們一直強調,要用實踐來反哺產品。
豆包本身就是一個非常大規模的實踐。我們在真實環境中跑過這些Agent,踩過坑,也積累了經驗。所以當企業來問“Agent該怎么做”的時候,他們第一個會想到我們。因為我們是真的做過,而不是只講概念。
Q:有觀點認為,短期內大家會通過價格戰快速放大收入規模,但競爭也會非常激烈。你怎么看?
譚待:我一直覺得,競爭本身不是關鍵問題。假設明年整個市場還能增長10倍,那增長3倍還是5倍,其實差別沒有那么大。更重要的是,有更多的人參與進來,會讓整個事情做得更快。更多的人、更多的想法,會加速AI落地,市場的天花板本身就非常高。
其他云廠加大投入是一件好事,大家一起把市場做大。
Q:今天發布了豆包1.8,谷歌那邊也在差不多的時間發布了Gemini 3 Flash。目前業界普遍認為,Gemini 3在全球范圍內屬于非常領先的一代模型。如何看待模型之間的差距?
譚待:這個問題我們肯定要正視。
如果你問我,那肯定是要努力追趕的。但追趕這件事也可以從不同維度去看。可以看“距離”,也可以看“速度”,還可以看“加速度”。如果只看距離,那確實是有差距的。如果看速度,在某些階段,我們未必比對方慢。但我更關心的是加速度。
在這一段時間里,我們的加速度是在提升的。所以從這個角度來看,我對最終能夠不斷接近有信心。
實際上大家也能看到,在一些具體能力上,大家是交替領先的。比如說今天發布的Seedance 1.5 pro的語音和畫面同步,之前是Veo 3較早做出來的,后來也有Sora2。但要把音畫同步真正做好,其實并不容易。經常會出現嘴型對不上,或者突然吞音的情況。
在整個音畫同步上,我們認為現在Seedance 1.5 pro的效果最好。尤其是對中文、對方言的支持,音畫同步,這是一個非常難的點。再比如Seedream 4.5,我個人感覺整體效果上處在比較領先的位置。
當然,整體Google在一些方面還是領先的,我們在追趕。但更重要的,還是看長期。
Q:以前大家更多會覺得火山是字節技術能力的外溢。2022、2023年左右會感覺這種外溢在商業價值上的體現還不是特別明顯。但在這一輪AI浪潮里,火山明顯獲得了更多客戶的認可。這種變化背后的原因是什么?
譚待:你剛才提到的幾個點,其實可以回到“距離、速度、加速度”這個框架來看。你現在看到的,都是已經顯性的結果。但在內部,很多積累其實是很早就開始了。
首先,現在能做得比較好的廠商,基本都有一個共同點。那就是,它們本身就有非常大的業務規模作為支撐。因為大模型這件事情,技術投入是非常大的。沒有一個能夠產生萬億級現金流的業務,是很難長期在這個方向上持續投入的。
第二點,就是外溢的路徑問題。最早外溢出去的,其實是工具類能力。因為工具最容易標準化,也最容易對外復制。最早大家想要的,就是“抖音同款”。這個其實不是2023年才開始的,而是更早,大概在2020年左右。
再往后是規模優勢。抖音的服務器規模,在國內是最大的。這些基礎設施能力,被逐步抽象出來,形成了現在的云服務。
在2021年底,我們正式推出了云服務。而在AI這條線上,我們其實一直非常堅持。從最早做推薦算法開始,推薦本身就是AI的一種形式。包括內容創作、內容分發,背后其實都是AI能力。
到了2023年,大模型開始真正成熟,大家才看到應用層面的爆發。但AI從來都不是一步就能做成的事情,要先解決訓練問題,再解決推理問題,最后才是應用問題。所以在2023年,幾乎所有AI創業公司,都是在火山上訓練模型。等訓練結束之后才真正進入應用階段,也正是在這個階段,火山引擎的價值才被更多客戶真實感知到。
這幾年能被客戶認可的最核心原因,還是遇到了一個真正的技術風口。如果沒有風口,做的更多是20%到30%的效率提升。但一旦遇到風口,一兩年內就可能發生非常大的變化。但從本質上講,技術積累本身并沒有變。
Q:豆包大模型日均處理token量超過 50 萬億,想請問豆包token的消耗比例是怎樣分布的?個人和企業的比例又是怎樣的?
譚待:早期階段,整體上還是偏C端一些。比如互聯網、零售,包括手機、汽車,這些行業增長都比較快。但我們也看到,在企業側有些客戶已經在內部部署了上百個Agent。這些Agent每天的token消耗也能達到幾十億量級。現在看到的“1萬億token俱樂部”,已經不止一百家。
簡單算一下會發現很多企業客戶在AI上的消耗,已經超過了它們在傳統云上的消耗。
至于個人和企業的比例,我覺得還是符合所謂的“二八規律”。大概可以理解為,個人用戶數量多,企業用戶數量少,但企業的單體消耗更大。如果用一個非常粗略的比例來講,云時代大概是8.5比1.5,現在可能是7.5比2.5,我覺得可能未來個人占比還會再高一點。
Q:那在行業側,你們接下來會重點投入哪些行業?
譚待:我們是這樣做的。首先,客戶的層級不同,需求也會不一樣。有些客戶,通過開發者社區,或者生態伙伴,就可以很好地服務。有些客戶我們會通過直銷團隊來服務。還有一些行業,因為客戶高度集中,需求也比較類似,我們會按行業來做解決方案。比如汽車行業,就是一個非常典型的例子。
Q:按Token收費,你之前說覺得還是一種比較原始的模式。現在怎么看這種模式?以及你們是否在探索新的商業形態?
譚待:是的,按token收費確實是比較原始的。但“原始”并不代表不好。它對應的是一個比較底層的抽象層級。API就像原材料,你用多少,就付多少錢。當然,不同模型版本,因為能產生的價值不同,定價也會不一樣。但對企業來說,它最終關心的,不是token,而是問題能不能被解決。所以再往上走,一定是Agent。
Agent可以是以API的形式提供,也可以是一個完整的產品形態。
比如客服Agent,客戶直接把它當客服用就行。或者Coding,讓Trae和工程師一起寫代碼。
當抽象層級變高之后,商業邏輯也會發生變化,就不再只是在IT預算里去看這件事,而是看全球客服市場有多大,開發者市場還有多少缺口。這些都是新的市場空間,也是為什么很多機構會講“十萬億美元級”的市場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.