337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

京東卷出新高度!硬剛復雜指令長時長、自由態數字人直播絲滑了

0
分享至



編輯|澤南

剛剛落幕的 2026 科技界「春晚」GTC 大會上,一個全行業的共識已經形成:AI 正在進入智能體(Agent)時代。

然而,當各大廠商都在瘋狂入局智能體時,一個尷尬的現實卻擺在面前:這些聰明的數字大腦,缺少一個「靈動」的「軀殼」。如果說「龍蝦」OpenClaw 已經為 AI 智能體工作的范式打開了方向,那么解決 AI 怎么和人打交道的交互領域,技術還面臨著挑戰。

因涉及多個模態的轉換,為聰明的 AI 打造一副高表現力的「軀殼」,比想象中還要困難得多。

直到最近,京東數字人的一系列新研究打破了這一僵局。

京東 JoyAvatar 和 JoyAvatar-Flash 兩個數字人大模型,解決行業長期存在的文本指令控制力弱、多模態控制信號沖突、長時長生成能力不足等痛點問題,實現了長時長、自由態、實時互動的數字人生成效果,相關成果發表在了 arXiv 上,新一代數字人的性能全面超越了當前 SOTA 模型,將效果推向了新的高度。

  • 論文鏈接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423
  • 技術主頁:https://joyavatar.github.io/

它具有超強的文本控制能力:



提示詞:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.



提示詞:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)

可以實現分鐘級時長的數字人合成:



京東 JoyAvatar 系列數字人模型有打破僵局的意義,展現出了代差級別的優勢,徹底告別了數字人「站樁式播報」:它不僅能精準理解「復雜指令」,絲滑做出全身復雜動作,還能完美配合動態鏡頭軌跡以及背景的無縫變化。更絕的是,哪怕是在這種大幅度、劇烈運動的過程中,它依然能保持唇形與輸入音頻的完美同步。

輸入指令「拿起巧克力吃掉」京東數字人能夠根據文本提示詞,流暢地完成整套抓取和咀嚼動作:



提示詞:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.

輸入指令「放下手中的箱子」京東數字人不僅能平滑處理復雜的動作指令與背景流轉,還能在超過 20 秒的視頻生成中保持人物身份的穩定:



提示詞:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.

京東數字人的三大技術創新

在生成式 AI 領域,數據是讓模型學習和理解的原材料。但收集大量既有劇烈肢體運動、又有清晰語音播報的高質量視頻數據,其成本是極其高昂的。面對靜態播報數據的天然偏見,京東數字人團隊轉向了一條更為新穎的路徑:雙教師 DMD(分布匹配蒸餾)后訓練



圖 1 雙教師 DMD 后訓練框架圖



圖 2 數字人模型預訓練框架圖

研究人員給數字人模型請來兩位「老師」,其中一位是「音頻教師」,由數字人基礎模型擔任,專攻口型和節奏;另一位則是「文本教師」,引入了視頻基礎大模型。由于視頻生成模型具備不錯的文本到視頻生成能力,能夠完美理解復雜的動作指令,通過這種分離式監督、融合式學習的蒸餾機制,數字人模型在不增加任何新訓練數據的前提下,直接繼承了其文本可控性。

讓數字人既要聽從劇本做出復雜動作,又要嚴絲合縫地對口型,在過去是一個難以兼顧的任務。因為在模型的潛在空間里,文本信號和音頻信號常常會相互打架 —— 文本要主導全身動作,音頻要主導面部肌肉,兩者一旦沖突,畫面就會崩潰失真。

為了解決這個多模態控制沖突,團隊創新性地提出了「動態 CFG 調制策略」

研究人員發現,擴散模型在生成視頻時,全局的動作框架是在早期的高噪聲階段確定的,而口型這種細粒度的細節,是在后期的低噪聲階段雕琢出來的。所以數字人模型讓兩種信號「錯峰出行」:在生成早期,模型優先聽文本的指令,先把跑跳、轉身等動作框架搭好。到了生成中后期,模型再把控制權優先交給音頻,保證唇形同步。

這種巧妙的設計,讓文本和音頻兩種控制模態各司其職,互不干擾。

接下來還有一個更加面向實際的挑戰。數字人需要長時間直播,而對于 AI 的長視頻生成而言,最大的挑戰在于「身份漂移」—— 人物說著說著,臉或者衣服就變樣了。

JoyAvatar 給出的解法是歷史幀編碼模塊(FramePack)+ 偽最后一幀策略。在推理過程中,模型不斷將用戶的參考圖像作為「偽最后一幀」注入模型,就像給模型定了一個永遠不會偏離的錨點。這使得數字人模型能夠支持 30 秒以上的長視頻生成,全程保持身份穩定、動作流暢,徹底打破了傳統數字人模型幀閃爍、時長受限的短板。

為驗證技術領先性,京東數字人團隊將 JoyAvatar 模型(Ours)與業界主流 SOTA 閉源模型進行了主觀 GSB 評分對比。結果顯示,JoyAvatar 在文本遵從、唇形準確度、ID 保持、視頻畫質等核心維度均表現顯著優勢,整體 GSB 評分分別達到 1.36(超 omnihuman-1.5)與 1.73(超 KlingAvatar2.0),技術實力得到權威驗證。(GSB計算方式: GSB=(Good+Same)/(Bad+Same))



圖 3 JoyAvatar 模型實驗結果

與此同時,京東數字人團隊還在數字人模型的推理速度優化上做出了大量創新性設計,推出了 JoyAvatar-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通過 CausVid 和 Self Forcing 等技術將雙向模型蒸餾成自回歸單向模型,并通過 4 步采樣、kv-cache 和多 GPU 并行推理實現 30FPS 的生成速度。

研究團隊還提出了漸進步數引導、運動條件注入、基于 cache 重置的無限 RoPE 等創新點,實現實時流式生成無限時長的高保真數字人視頻,并在視覺質量、時序一致性與唇形同步等方面表現卓越。

場景與商業化

讓中小商家用得起「數字人直播」

底層技術一旦捅破了天花板,廣闊的應用想象力就徹底打開了。數字人直播作為核心商業場景率先迎來體驗升級:無論是 7x24 小時連軸轉的電商直播帶貨,還是需要極強表現力的電商短視頻,整體內容形態與交互體驗都將實現質的升級。

隨著本次長時長、自由態、實時互動技術的突破,京東數字人的第一塊試金石就是京東自己的核心業務 —— 數字人直播。

從引爆全網的「采銷東哥」數字人,到海爾、格力等一眾總裁數字人在直播間挑起大梁,再到對微表情和肢體動作要求極高的 Vivi 明星數字人,京東數字人早已在直播場景中完成了多輪實戰驗證,不斷打磨高表現力的直播交互能力。去年更是推出了「JoyAI 零幀起手」小程序,實現了萬物皆可說,讓每一個普通用戶也能「玩起來」,真正把硬核的 AI 技術變成了全民皆可玩的生產力工具。

結合新技術,京東數字人 JoyStreamer (產品名稱)在行業內率先推出「自由態數字人」,針對家電家居、時尚服飾等五大行業推出精準適配的數字人,支持自然走動、靈活擺姿,鏡頭跟隨、出畫入畫流暢,臉部遮擋也能保持高保真質感,實現了更加自然靈動的交互形態。



「自由態數字人」直播間

對于普通用戶來說,新一代數字人主播可以在直播間走動,展示商品局部細節,甚至能進行多主播的復雜互動,這讓直播更加有趣了;而對于電商來說,這種視覺表現力上的質變,直接拉長了用戶的停留時長。

京東打造了低門檻的數字人平臺。對于數量最多的中小商家而言,一聽到「影視級」、「高表現力」這樣的詞匯,第一反應往往是用不起,這恰恰是 JoyStreamer 最大的商業殺手锏:京東的數字人直播能力目前免費開放,商家可以在自己的后臺進行一鍵配置,自定義模型,或是一比一還原真人主播的聲音。

基于此,JoyStreamer 推出的「數字人直播間復刻」能力,幫助商家最大化沉淀直播資產商家僅需上傳一段真人直播視頻素材,就可以快速生成一個形象、聲線、神態、直播間布景上都與真人主播高度一致的「數字分身」,將單次成功直播轉化為可長期復用的數字人直播資產。

新秀麗正是通過「直播間復刻」能力實現長期穩定開播,帶來公域流量提升超 60%,直播間人均停留時長近 2 分鐘,充分驗證了該功能的商業價值。



在京東的平臺上,數字人與真人的直播是同場 pk 的,流量競爭正在推動數字人技術持續提升。每一次技術的升級迭代,包括數字人、語音、多模態能力,都能獲得幾萬商家的深度應用和反饋。

目前,京東數字人 JoyStreamer 已服務超 7 萬家商家,規模行業領先,幾乎覆蓋京東全品類,數字人直播成為越來越多商家的標配選擇。高表現力的數字人主播正從「嘗鮮工具」轉變為拉動 GMV 的核心增長引擎。

京東 AI 的「護城河」

環顧當下的全球 AI 競爭格局,不難發現:整個行業正陷入一場燒錢的「算力軍備競賽」。

面對快速顯現的需求與前沿 AI 能力的探索,京東此刻卻顯得更加冷靜。京東相關負責人表示,大模型的發展必須從參數至上的舊范式,徹底轉向效率、成本與性能平衡的新范式。

這種克制與平衡的技術哲學,不僅體現在數字人身上,也貫穿于京東大模型的整體布局。以京東近期開源的通用基礎大模型 JoyAI-LLM Flash 為例,這款模型的總參數量為 480 億,在實際運行中通過動態稀疏路由技術只激活 3B 的參數,智能體任務的 token 消耗量只有競品模型的 1/5,并獲得了很好的效果。

在龐大的 AI 應用端,大模型的知識廣度,必須配合極低的推理成本和極快的響應速度,才能完美契合產業界對于經濟與效果的訴求。

作為一家新型實體企業,京東擁有零售、物流、健康、工業等豐富的真實業務場景,同時具備可觀的數字技術和能力。目前,京東的 AI 技術已經深度融入自身的超級供應鏈,在超過 2000 個具體的業務場景中落地生根。

JoyStreamer 之所以能迅速迭代出高表現力的數字人直播能力,正是因為每天有數以萬計的商家在直播間里提需求、做反饋。這種基于真實商業場景的數據飛輪,是很多技術公司難以比擬的。

最后,我們都好奇數字人的下一步是什么。京東的技術負責人表示,讓數字人直播間內的主播學會換裝、實現更豐富的跨主播互動,并最終實現零幻覺是他們努力的方向。目前在行業里,還沒有任何一個團隊解決了這些問題。

在京東的直播間里,這些富有表現力的數字軀殼還在快速成長,屬于京東 AI 的這場產業突圍戰,才剛剛拉開序幕。

文中視頻鏈接:https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
81年閱兵,鄧公指著一名師長說:此人重點培養,后來他是啥軍銜?

81年閱兵,鄧公指著一名師長說:此人重點培養,后來他是啥軍銜?

歷史龍元閣
2026-03-30 14:15:06
水木年華盧庚戌發文稱其原創歌曲《愛上你我很快樂》被大量侵權,要求已使用這首歌商演者補上版權費,并將捐出此次收到的全部版權費

水木年華盧庚戌發文稱其原創歌曲《愛上你我很快樂》被大量侵權,要求已使用這首歌商演者補上版權費,并將捐出此次收到的全部版權費

極目新聞
2026-03-30 18:44:12
親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

品讀時刻
2026-03-25 09:04:33
央視直播乒乓球時間表:3月31日CCTV5直播國乒!附世界杯今日賽程

央視直播乒乓球時間表:3月31日CCTV5直播國乒!附世界杯今日賽程

皮皮觀天下
2026-03-31 07:13:47
張雪峰遺產分配有眉目!公司總經理發文承諾,張姩菡長大后會接班

張雪峰遺產分配有眉目!公司總經理發文承諾,張姩菡長大后會接班

萌神木木
2026-03-30 17:21:35
世界杯開打前73天,德國把加納主帥打下課!

世界杯開打前73天,德國把加納主帥打下課!

體壇周報
2026-03-31 12:09:12
美CEO炫耀掏1千萬給員工發“加班委屈費”!笑稱不想被槍殺,網友:人均才40摳死了!

美CEO炫耀掏1千萬給員工發“加班委屈費”!笑稱不想被槍殺,網友:人均才40摳死了!

英國報姐
2026-03-30 21:31:02
特朗普對北約盟國失望透頂,打完伊朗還有一場“腥風血雨”

特朗普對北約盟國失望透頂,打完伊朗還有一場“腥風血雨”

起喜電影
2026-03-31 14:11:28
10-8逆轉!小特會師墨菲手握2優勢,吳宜澤創紀錄,百歲對決打響

10-8逆轉!小特會師墨菲手握2優勢,吳宜澤創紀錄,百歲對決打響

劉姚堯的文字城堡
2026-03-31 09:58:47
定了!浙江將新增2家山姆會員店

定了!浙江將新增2家山姆會員店

最金華
2026-03-30 22:45:34
張雪峰成功于睿智過人,命喪于愚昧狂妄

張雪峰成功于睿智過人,命喪于愚昧狂妄

雪中風車
2026-03-30 09:17:06
春假來了!本周末開始!北京多校連休9天

春假來了!本周末開始!北京多校連休9天

京城教育圈
2026-03-31 13:37:38
2026年韓國最低時薪10320韓元!最低月薪是…

2026年韓國最低時薪10320韓元!最低月薪是…

奮斗在韓國
2026-01-04 14:03:39
美一空客A330客機從巴西起飛后發動機爆炸 飛行員隨即返航緊急迫降 機上286人 無人傷亡

美一空客A330客機從巴西起飛后發動機爆炸 飛行員隨即返航緊急迫降 機上286人 無人傷亡

每日經濟新聞
2026-03-31 03:11:43
去世4天,外媒態度彰顯張雪峰的江湖地位,張姩菡一個字都沒說錯

去世4天,外媒態度彰顯張雪峰的江湖地位,張姩菡一個字都沒說錯

吳朑愛游泳
2026-03-28 19:19:29
錢再多也沒用!41歲美女老板朱明月去世,死因曝光,家人崩潰痛哭

錢再多也沒用!41歲美女老板朱明月去世,死因曝光,家人崩潰痛哭

米果說識
2026-03-30 14:49:14
3.31今日金價:明后兩天或將迎來“大風暴”

3.31今日金價:明后兩天或將迎來“大風暴”

趣味萌寵的日常
2026-03-31 07:01:42
良渚古城被挖出來,神話突然變現實,上古史得重寫

良渚古城被挖出來,神話突然變現實,上古史得重寫

網絡易不易
2026-03-31 11:36:43
5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

叮當當科技
2026-03-20 03:29:51
被洪水淹了124次的河南小城,悶聲干出4個全國第一

被洪水淹了124次的河南小城,悶聲干出4個全國第一

最華人
2026-03-30 12:57:46
2026-03-31 15:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12646文章數 142600關注度
往期回顧 全部

科技要聞

尚未正式宣發,國行蘋果AI半夜"意外閃現"

頭條要聞

美用超900公斤鉆地彈襲擊伊彈藥庫 以總理:行動"過半"

頭條要聞

美用超900公斤鉆地彈襲擊伊彈藥庫 以總理:行動"過半"

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

財經要聞

高薪內推藏陷阱!"招轉培"騙局盯上求職者

汽車要聞

16萬級最強2.0T 全新一代瑞虎9來了

態度原創

藝術
本地
游戲
數碼
公開課

藝術要聞

石濤『野色冊』

本地新聞

用Color Walk的方式解鎖城市春日

《寶可夢 火紅/葉綠》開發者:便捷功能旨在吸引女性

數碼要聞

AMD第6代霄龍處理器曝光:192核主頻突破4GHz

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版