![]()
智東西
作者|王涵
編輯|李水青
智東西4月16日報道,剛剛,阿里ATH創新事業部也發布了其首款開放式世界模型HappyOyster(快樂生蠔)。
基于原生多模態架構,該模型支持多模態理解、音視頻聯合生成以及實時世界構建與交互。
▲一個自由行走的伐木棕熊,角色與場景在轉向后都可以保持一致性
在HappyOyster中,僅憑一行文本或一張圖片,用戶就可以生成一個完整的物理世界。并且,其生成的并非僅僅是視頻片段,而是一個持續運行的物理世界。在這個世界里,光照、重力、角色動作以及場景間的因果關系都保持時間和邏輯上的連續一致。
▲真實還原梵高畫作風格和細節,元素依照物理規律放置,隨著視角轉換無畸變現象
與傳統的「寫提示詞—等待渲染—收到成片」一次性工作流的AI視頻工具不同,在整個生成過程中HappyOyster可以實時接收指令,場景會實時作出反應,并隨著用戶的持續指令不斷演化。同時,用戶生成的數字世界,不僅能被完整保存,還能開放給其他用戶進行二次創作。
▲用戶可以創造出一個實時滑雪的場景,角色轉向自如,雪地上的滑板印清晰明顯
智東西第一時間獲取了邀請碼,體驗后發現HappyOyster在“世界一致性”上確實帶來了驚喜,主角形象、場景風格和物體位置都可以保持穩定,沒有出現常見的畸變或錯亂。同時,實時修改指令后,世界畫面能夠立刻響應。不過目前,模型的流暢度還有待提升,控制人物移動與鏡頭旋轉,都能感知到卡頓。
自3月阿里巴巴CEO吳泳銘帶隊組建ATH以來,團隊動作不斷。此前在開發者圈引發熱潮的HappyHorse尚未登場,HappyOyster就已試圖將布局拓展至更遠:從 “生成視頻”,正式邁向AI領域專家李飛飛所提出的 “生成世界” 全新高地。
該模型于今日開啟內測,內測名額還在持續釋放中。
體驗地址:https://www.happyoyster.cn/
一、親測生成世界:人物不畸變、場景絲滑切換,但視角切換有卡頓
據HappyOyster官網介紹,目前該模型具備導演模式與漫游模式。其中,導演模式生成的世界最多可以有3分鐘,分辨率可以選擇480p或720p;漫游模式則至多生成1分鐘的世界,且清晰度只有480p。兩種模式下,世界都是聲畫同時生成的。
![]()
▲導演模式與漫游模式參數
在導演模式中,用戶可以隨時介入所生成的世界,通過文本、語音或圖像來切換鏡頭角度、指導角色行動,或改變故事的走向,世界會立即響應,并按照這些指令繼續展開。
▲潛水員在海底接近沉船
我們在導演模式下,選擇480p的清晰度和“Regular”和“Steady”模式,輸入提示詞如下:
[開場] 你是一名火星基地的宇航員,結束艙外作業,進入氣閘艙。關閉厚重艙門,氣壓讀數上升。摘下頭盔,汗水順著臉頰滑落,深吸一口循環空氣中的金屬味。 [走進生活艙] 綠色植物在LED燈下生長,跑步機靠墻,舷窗外紅色荒漠延伸至地平線。坐到電腦前,敲下:“第287天,一切正常。” [推開植物艙門] 濕潤的熱浪撲面而來。番茄藤爬滿支架,LED燈光閃爍,自動灌溉系統發出輕微的嘶嘶聲。 [爬上觀測臺] 進入穹頂觀測臺。360度全景玻璃外,火星星空璀璨奪目,火衛一正快速劃過天際。 [進入休息艙] 穿過走廊進入休息艙。窄小的床鋪,墻上貼著家人的照片。躺下時,飛船金屬骨架發出熟悉的吱呀聲。
HappyOyster生成世界的效果如下:
從視頻清晰度來看,HappyOyster生成的畫面整體清晰,場景切換時畫質穩定無斷層;在真實感上,主角身材、衣著、樣貌均未出現畸變,宇宙飛船風格也保持統一,不過在場景切換時仍帶有一定AI生成痕跡。視頻所配的背景音樂也符合畫面調性。
指令遵循方面,輸入修改指令后世界能夠立即響應并實時更改畫面,執行效率較高;物理規律層面,整體符合基礎物理邏輯,但也存在少量bug,比如角色從窗戶進入時,窗框出現了像橡皮一樣被扯開的變形問題。
在漫游模式中,用戶能以第一人稱漫游,自由改變方向和鏡頭運動,突破原有畫面邊界,而世界則會持續生成并保持連貫。在這個世界里,物體的位置保持穩定,環境隨時間持續存在,用戶移動時視角與光照也會連續響應。
▲一個男人在廢土世界中行走
我們在漫游模式下選擇第三人稱視角,輸入提示詞如下:
一位穿著冰藍色長裙的銀發女子站在冰封的湖面上。雪花圍繞她飛舞,她的長發和裙擺隨風飄動。背景是極光和雪山,冰面反射出她的身影和極光。鏡頭圍繞她旋轉,捕捉冰晶在陽光下折射的七彩光芒。
從視頻清晰度來看,HappyOyster生成的世界畫面清晰,漫游過程中視角轉動、場景切換都十分流暢,光影效果會跟隨視角自然變化,鏡頭旋轉一周后,場景內物體位置依舊保持固定,沒有出現漂移錯亂。
在真實感與AI痕跡上,生成的環境與主角形象高度貼合提示詞描述,人物無畸變、無穿模,整體自然真實,AI生成痕跡較弱。在指令遵循程度上,模型能準確響應操控指令,可順暢控制角色行進方向,以及鏡頭的朝向與角度。
在物理規律層面,場景物體空間位置穩定,視角與光影的聯動變化符合現實邏輯,整體物理表現連貫合理。
美中不足的是,無論是在導演模式還是漫游模式下,控制人物和鏡頭還會出現卡頓的情況。
在X上,也有用戶分享出了自己的作品。她制作了一一個顏色鮮艷、光怪陸離的世界,在世界中有一個小男孩背著背包在行走。這位網友說(她)使用的是導演模式,分辨率480p,選擇「常規」與「穩定」設定,然后輸入提示詞即可。
▲網友實例(來源:X)
除了現實風格,用戶在HappyOyster中還可以生成漫畫、水墨畫、素描等不同畫風 的世界。
▲漫畫風格的世界,汽車川流不息
此外,世界中的主角也不僅僅局限于人類,在HappyOyster里,用戶還可以創造以物品或動物、昆蟲等為第一視角的世界。
▲足球視角在足球場上滾動
▲螞蟻視角在衣服上爬行
二、對標谷歌Genie3,阿里押注“世界模擬器”路線
相比大語言模型相對成熟的模型架構和技術范式,世界模型仍屬于前沿探索領域。
據HappyOyster團隊介紹,阿里的HappyOyster與谷歌的Genie3同屬于世界模擬器流派。區別于傳統文生視頻模型輸入提示詞、等待渲染、獲得成片的被動流程,這一流派采用長時間跨度上的世界演化建模方式。
通過學習海量長視頻數據,以及文本、動作指令、圖像參考等多樣控制信號,模型能夠主動理解空間、物理與因果規律,預測情節和畫面的演變,從而把“被動生成內容”轉變為“主動模擬世界演化”。
此次阿里發布的HappyOyster采用了時間跨度更長的世界演化建模方式,使得模型能夠保持高保真、長時序的動態場景生成。
同時,該模型在建模初始就設計了多樣的控制信號,使模型能夠在統一的時序框架下同時實現生成質量、長時序與實時可控性的協同優化。
結語:阿里入局,給世界模型再添一把火
阿里ATH創新事業部在2026年3月正式成立,到今天是整一個月。
在這一個月的時間里,ATH創新事業部發布了企業級AI原生工作平臺“悟空”、AI開發工具秒悟Meoo、視頻大模型HappyHorse,進度不可謂不驚人。
今天阿里ATH正式入局世界模型,給世界模型賽道再添一把猛火。
在阿里發布世界模型的同一天,騰訊也推出了混元3D世界模型2.0。前一天李飛飛的渲染引擎Spark 2.0開源,1月愛詩科技發布了世界模型PixVerse R1。
這4個月以來,世界模型更新的節奏快得讓人喘不過氣,也能從側面反映出:世界模型已經開始真刀真槍地搶地盤了。
這場關于“誰能造出更真、更活、更好玩的數字世界”的較量,才剛剛熱起來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.