![]()
昨天刷到這樣一條視頻:
![]()
Seedance 2.0的 AI視頻王座還沒坐熱乎,就被一個神秘模型「Happy Horse」搶走了。
花了1000w拿 Seedance 2.0接口的大哥,繃不住了......
先看一波X網友生成的效果:
讓大哥破防的 「Happy Horse」,這兩天突然出現在 Artificial Analysis的Video Arena榜單, 以1350上下的Elo積分,穩坐文生視頻賽道第一。第二名是火出圈的字節Seedance 2.0,被甩開了七八十分。
![]()
七八十分是什么概念?榜單上第二名到第十九名,所有選手的分差加在一起,也就七十分出頭。
我得先解釋一下這個榜單為什么重要。
Artificial Analysis的Video Arena,不是那種廠商自己跑個分、貼張圖就能上的排行榜。它的機制很簡單也很殘酷:給你看兩段視頻,你不知道哪段是誰家的模型生成的,憑直覺選一個更好的。數千個普通人這么投票,最后算出Elo積分。
也就是不看名氣、參數,只看實力。
![]()
在這套機制下,HappyHorse不光拿了文生視頻的第一,圖生視頻賽道更離譜,跑出了1400分以上的成績,直接刷新了榜單歷史紀錄。
而在對聲畫同步要求更高的有音頻賽道,它和Seedance 2.0咬得很緊,兩家幾乎并列。
一個沒有發布會、沒有技術博客、沒有任何企業背書的匿名模型,就這么把Google Veo、OpenAI Sora、字節Seedance、快手可靈,統統踩在了腳下。
全網的第一反應是:這誰?然后就是各種找線索,猜身份。
第一條線索藏在官網的語言排列里。普通話和粵語被放在了英語前面,一個想做全球生意的產品,如果出自硅谷,絕不會這么排。方向基本鎖定:中國。
第二條線索是名字。今年是農歷馬年,HappyHorse這個命名幾乎是在明牌致敬生肖。年初另一個匿名模型Pony Alpha也用過同樣的套路。
于是猜測四起。馬云姓馬,馬化騰也姓馬,兩家大廠自動入圍。有人覺得是雷軍的風格,悶頭干活然后突然亮劍。有人懷疑DeepSeek,因為DS此前有過悄悄上線視覺模型又悄悄撤掉的前科。還有人直覺認為這是阿里萬相Wan 2.7的換皮版本。
但國內圈子里流傳更廣的是另一個版本:HappyHorse出自阿里淘天集團的未來生活實驗室,操盤人是張迪。
而就在剛剛,快樂小馬的主人來認領了。是的,出自阿里!
![]()
來自阿里的ATH創新事業部,是正在內測的產品。
但不管它姓阿里還是姓什么,真正值得聊的,是它做對了什么。
先說技術。
HappyHorse是一個150億參數的視頻生成模型。150億聽起來不小,但在動輒幾百億參數的視頻模型里,它算輕量級選手。
架構上它走了一條少有人走的路:40層單流Transformer,把文字、畫面、聲音三種信號統統塞進同一根管道。大多數競品的做法是各管各的,視頻一個模塊,音頻一個模塊,最后縫合。HappyHorse不縫,它從一開始就讓三種信息在同一個空間里互相感知。
這意味著什么?你敲一段文字進去,出來的不是一段啞巴視頻加一段需要手動對口型的配音,而是一段聲畫天然同步的成品。人物張嘴的幅度、嘴唇的形狀,和聲音是咬合的。
而且這個口型同步覆蓋了七種語言:普通話、粵語、英語、日語、韓語、德語、法語。理論上你可以讓一個虛擬角色先用中文講一遍產品介紹,再一鍵切成法語版,嘴型自動跟著變。對做跨境內容的團隊來說,這個功能的想象空間不小。
速度也值得一提。它用蒸餾技術把生成過程中的去噪步驟從常規的幾十步壓到了8步,而且甩掉了傳統上很吃算力的CFG引導機制。實際跑起來,在H100顯卡上生成一段5秒的1080p視頻,大約38秒。同等條件下,很多模型還在慢悠悠地跑第二十步。
用150億參數做出了過去需要兩三百億參數才能達到的效果。
它贏盲測的秘密不是蠻力,是效率。每一分算力都花在了刀刃上。
但,HappyHorse目前有幾個短板,而這些短板恰恰決定了它到底是曇花一現,還是真能改變格局。
第一,它的舒適區是單人出鏡。畫面里只要多出一兩個角色,或者場景層次變復雜,畫質和連貫性就會肉眼可見地往下掉。這不是后期能修的問題,而是訓練階段的設計取舍,它把絕大部分精力押在了肖像上。
第二,時長是個硬傷,最長僅支持30秒,并且同樣也會偶爾走形。
第三,你家里的電腦大概率跑不動它。實測需要H100這個級別的專業顯卡,普通游戲卡想都別想。社區在研究量化壓縮方案,但短期內個人用戶本地部署基本不現實。
第四,也是最容易被忽略的一點,考試本身可能偏科了。
有人統計過,Artificial Analysis盲測池里的樣本,肖像類和配音類內容加起來占了六成以上。而HappyHorse最拿手的恰恰就是人臉。Elo分數本質上是一個綜合觀感偏好值,不是逐項能力的精確測量。它告訴你誰更討人喜歡,但不告訴你誰更全面。
確實有測試者在X上說得很直接:拿HappyHorse和Seedance 2.0放在一起細看,人物細節的精度和動態場景的穩定性,差距還是看得出來的。
那HappyHorse真正的意義在哪?不在榜單本身。在于它撕開了一道口子。
過去兩年,AI視頻這條賽道有個心照不宣的潛規則:開源的東西能拿來學習,但別指望拿去交差。開源模型和商業產品之間橫著一條肉眼可見的質量線。拿開源模型出的片子給甲方看,甲方皺眉;拿Seedance或可靈出的片子給甲方看,甲方點頭。
這條線就是閉源產品收費的底氣。可靈3.0生成一段10秒1080p視頻,大概8塊錢。Seedance 2.0便宜點,5塊左右。即夢最近開了VIP快速通道,價格直接躥到14塊一條。算下來,做一個兩分鐘的短片,光生成費用就能燒掉兩百多。
個人創作者肉疼,批量出內容的團隊更肉疼。
HappyHorse給出的承諾是:全部開源,全部可商用。基礎模型、輕量蒸餾版、超分辨率模塊、推理代碼,一個不留。
但假設它兌現了呢?
那意味著一個在盲測中壓過所有商業產品的模型,任何人都可以免費拉下來,跑在自己的機器上,用自己的數據去調教,生成的內容歸自己,不按秒計費,不擔心隱私外泄。
這是開源視頻模型頭一次在普通人的感知層面,和閉源產品站到了同一條線上。
哪怕這次的對齊有考題偏科的成分,哪怕HappyHorse面對復雜場景還會露怯,光是這個信號就夠讓閉源陣營坐不住了。道理很簡單:開源社區一旦嘗到甜頭,后面的量化壓縮、場景微調、推理提速,會像滾雪球一樣越滾越快,速度遠超任何一家公司的內部迭代。
閉源產品真正的護城河從來不是技術壁壘,而是效果落差制造的心理門檻。門檻一旦被踏平,價格戰就在眼前了。
2026年4月的AI視頻行業,正處在一個很有意思的時間窗口。
Sora剛剛宣布關停。兩年前那個讓全世界屏住呼吸的視頻生成先驅,沒能走到商業化的終點就退場了。與此同時,字節的Seedance 2.0火得一塌糊涂,快手的可靈3.0在分鏡控制上越做越深,昆侖萬維的SkyReels V4把生成、補全、編輯塞進了同一個接口。格局看起來已經很清晰了。
![]()
然后一匹帶著面具的快樂小馬沖了進來。
我想起了,1997年,IBM的深藍擊敗了國際象棋世界冠軍卡斯帕羅夫。當時所有人在討論的是:機器是不是比人聰明了?但真正改變棋壇的不是深藍這臺機器,而是它證明了一件事,機器可以贏。這個認知一旦建立,后面的一切只是時間問題。
HappyHorse之于AI視頻,也許就是這樣一個時刻。
它不需要在每個維度上都壓過Seedance。它只需要讓人們看到:一個開源模型,可以在普通人的眼睛里,和最好的商業產品不相上下。
這個認知一旦成立,游戲規則就變了。
如果你有任何看法,歡迎在評論區一起討論
如果有一點收獲,可以點贊、轉發、推薦文章,關注「AI機器人茶館」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.