337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

500美元成本,Pusa V1.0基于VAT機制實現I2V模型的SOTA

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

大家對OpenAI推出的Sora有所耳聞——這一當前最具代表性的視頻生成模型,依托數百萬高質量視頻數據與數千萬美元量級的訓練投入,在生成能力與畫面連貫性上樹立了行業標桿。最近,一項來自香港城市大學等機構聯合研究團隊的最新成果,或將重新定義“高效AI”的可能性邊界。

該團隊最新發布的圖像-視頻聯合生成模型——Pusa V1.0(菩薩1.0)在基礎大模型Wan2.1-T2V-14B的基礎上引入向量時間步適應(vectorized timestep adaptation,VTA )機制,僅使用3860對視頻-文字數據、約500美元成本進行微調,就在圖像轉視頻 (I2V) 超越了Wan-I2V-14B,實現了SOTA,并解鎖了諸多零樣本任務能力。Pusa V1.0已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/yaofangliu/PusaV

01.

模型特點


500美元實現SOTA

Pusa V1.0從文本到視頻(T2V)模型 Wan-T2V-14B 微調而來,用于圖像到視頻生成(I2V)。與其他會破壞基礎模型架構的微調模型不同,Pusa采用VTA機制,從而實現最小、非破壞性的優化,將時間步長從標量擴大到矢量。它完全保留了基礎模型的預訓練先驗,并實現了更有效的時間學習。


例如這個圖生視頻:攀巖者在小行星攀巖,人體運動與太空光影完美仿真。


視頻擴展也是不在話下,給定起始幀或結束幀,讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。


全面的任務支持

憑借其靈活的矢量化時間步適應策略,Pusa僅需10個推理步驟就能夠執行多種視頻生成任務。

這些能力都是其“涌現屬性”,能夠以零樣本方式(無需任何任務特定的訓練)擴展到:圖像到視頻、開始-結束幀、視頻擴展、文字轉視頻、視頻轉場等任務中。

例如,以9個起始幀和12個結束幀作為條件,讓模型生成中間的60幀畫面。


或者,直接輸入文字,讓模型把一輛汽車從金色變成白色。


VTA如何讓視頻生成更自然?

由于視頻本質上是按固定幀率(如電影的每秒 24 幀)連續播放的一系列圖片。在視頻擴散模型(VDM)中,模型通常將整段視頻拆解為逐幀圖像進行建模。

在傳統的做法中,所有幀共享一個標量時間步長變量,模型對所有幀同步進行相同程度的降噪。不過,這就意味著讓所有幀在降噪過程中步調一致,同時演化。

由此,后面的畫面無法獲得前一幀畫面的約束信息,從而使I2V(image-to-video)的效果過于僵硬。

此外,由于圖像輸入不同于模糊抽象的文本輸入,其作為剛性條件,對“視頻生成起點”限制非常嚴格。模型在保持原圖約束的同時,必須自己“猜”這個圖像之后會怎么動。

因此,為了生成連貫動態的視頻,不同幀之間應該以不同速度/時間狀態進行演化,從而讓后續幀的去噪過程能盡可能的收到前一幀先驗的控制。

由此,研究提出VTA,為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進度和時間位置進行精細控制,從而更好地模擬現實中幀的時序演化,使生成的視頻在動態表現上更連貫、自然。


02.

模型介紹

具體而言,VTA通過幀感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一幀能夠獨立演化,同時賦予模型對同步與異步時間結構的建模能力。最終,它通過向DiT注入自定義的時間嵌入,實現了高效、統一、非破壞性的多任務視頻生成。

在訓練層面,Pusa 采用了幀感知的流匹配(FAFM)目標函數,模擬每一幀在時間軸上獨立演化的理想速度。此外,為了始終保持起始圖像作為條件約束,其對應的時間步分量在整個推理過程中都被設置為零。

在模型結構上,VTA 則將這一目標通過向量時間步嵌入落實到 DiT 框架中,實現推理階段的幀級動態控制。

在推理時,Pusa 允許為每一幀指定不同時間步長,從而實現起始幀固定、末幀補齊、關鍵幀約束等多種時間控制策略。這種“從目標到機制”的結合,是 Pusa 不僅生成自然,更易泛化的關鍵。

Pusa V1.0使用LORA+DeepSpeed Zero2在8張80GB內存的GPU上進行微調。實驗表明,Pusa V1.0 超越了同樣基于Wan-I2V-14B微調而來的Wan-I2V,實現了SOTA。


與此同時,Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上,這表明Pusa僅僅關注與時間相關的模塊,從而保留了基礎模型的先驗知識。與之相對的,Wan-12V則表現出對基礎模型先驗知識的破壞。


可以說,Pusa V1.0以極致輕量化的訓練成本為之后的視頻生成建立了可擴展且多功能的范例。

編輯:趙雅鑫

----- END -----


wisemodel相關:



系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的魚兒
2026-03-25 12:10:03
14億人集體買房,為什么最后買出了一個爛攤子?

14億人集體買房,為什么最后買出了一個爛攤子?

流蘇晚晴
2026-03-25 18:14:02
第二次“遞出橄欖枝”?立陶宛總理表態:愿將“臺灣代表處”改名

第二次“遞出橄欖枝”?立陶宛總理表態:愿將“臺灣代表處”改名

老好人的憤怒
2026-03-27 00:37:31
我在小城市,一個人做電商,半年掙300萬

我在小城市,一個人做電商,半年掙300萬

南風窗
2026-03-26 10:07:51
曝張雪峰倒下30分鐘后才被發現,飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發現,飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
A股“分紅王”來了,擬10股派70元

A股“分紅王”來了,擬10股派70元

數據寶
2026-03-26 22:16:46
沙特:若對伊開戰將啟動巴基斯坦核保護傘

沙特:若對伊開戰將啟動巴基斯坦核保護傘

Nee看
2026-03-25 19:07:00
金正恩對韓國換了稱呼,敏感時刻,平壤迎來一位貴客,鐵三角成型

金正恩對韓國換了稱呼,敏感時刻,平壤迎來一位貴客,鐵三角成型

共工之錨
2026-03-27 01:01:31
BBC采訪爆出大瓜!特朗普開出停戰價碼:海灣國家需支付2.5萬億美元

BBC采訪爆出大瓜!特朗普開出停戰價碼:海灣國家需支付2.5萬億美元

星辰大海路上的種花家
2026-03-25 13:08:50
羅德里或告別曼城,索要40萬英鎊周薪被拒,皇馬有望再迎金球先生

羅德里或告別曼城,索要40萬英鎊周薪被拒,皇馬有望再迎金球先生

夏侯看英超
2026-03-27 00:16:04
涉嫌騙取貸款超6.6億元 犯罪嫌疑人潛逃境外3年后被押解回國 已查實造成銀行損失6699余萬元

涉嫌騙取貸款超6.6億元 犯罪嫌疑人潛逃境外3年后被押解回國 已查實造成銀行損失6699余萬元

每日經濟新聞
2026-03-26 19:38:27
14.99萬!“史上最便宜”特斯拉來了

14.99萬!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
伊朗通過中間人回應美15點停火提議,提出明確前提條件

伊朗通過中間人回應美15點停火提議,提出明確前提條件

界面新聞
2026-03-26 22:39:04
19歲王鈺棟再談留洋:出國非易事 有合適機遇才去 不關注外界批評

19歲王鈺棟再談留洋:出國非易事 有合適機遇才去 不關注外界批評

我愛英超
2026-03-26 18:48:21
中原消費金融為催收“買”借款人手機號碼 三大運營商均中標 或涉買賣個人信息惹爭議

中原消費金融為催收“買”借款人手機號碼 三大運營商均中標 或涉買賣個人信息惹爭議

信網
2026-03-26 19:12:37
油價調整:注意,預計下調120元/噸,油價突破下調紅線!

油價調整:注意,預計下調120元/噸,油價突破下調紅線!

金投網
2026-03-26 11:16:05
湖北十堰大山深處,那個號稱“小香港”的萬人廠,如今人去樓空

湖北十堰大山深處,那個號稱“小香港”的萬人廠,如今人去樓空

GA環球建筑
2026-03-26 14:10:54
馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

愛意隨風起呀
2026-03-26 16:51:41
7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
2026-03-27 01:40:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

游戲
教育
家居
健康
時尚

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

家居要聞

傍海而居 靜觀蝴蝶海

轉頭就暈的耳石癥,能開車上班嗎?

400萬人愛過的女孩,被黃謠網暴180天后

無障礙瀏覽 進入關懷版