快科技4月12日消息,隨著3A大作對(duì)畫(huà)面精度的要求持續(xù)升級(jí),高精度材質(zhì)紋理包的體積水漲船高。曾經(jīng)的主流8GB顯存顯卡,如今動(dòng)輒遭遇爆顯存、畫(huà)面卡頓、強(qiáng)制降畫(huà)質(zhì)的窘境,也被不少玩家調(diào)侃為"殘廢卡"。
而NVIDIA全新的RTX神經(jīng)紋理壓縮技術(shù)(簡(jiǎn)稱(chēng)NTC),或許能徹底改變這一現(xiàn)狀。
![]()
近日,Tom'sHardware對(duì)這項(xiàng)技術(shù)完成了多顯卡、全平臺(tái)的專(zhuān)項(xiàng)實(shí)測(cè)。NTC是隨RTX50系列顯卡一同發(fā)布的AI驅(qū)動(dòng)技術(shù),依托顯卡Tensor核心(NVIDIA顯卡內(nèi)置的AI加速運(yùn)算核心)完成紋理的壓縮與解壓,最高可將顯存需求降低超80%,實(shí)測(cè)最高降幅達(dá)85%,同時(shí)畫(huà)面畫(huà)質(zhì)還優(yōu)于游戲行業(yè)沿用多年的傳統(tǒng)壓縮方案。這一結(jié)果,也讓玩家對(duì)"8GB顯卡再戰(zhàn)十年"有了切實(shí)的期待。
從技術(shù)原理來(lái)看,NTC是基于機(jī)器學(xué)習(xí)的紋理壓縮與解壓方案,也是NVIDIA神經(jīng)著色渲染新范式的核心技術(shù)之一。它跳出了傳統(tǒng)BCn塊壓縮格式(游戲行業(yè)通用的傳統(tǒng)區(qū)塊紋理壓縮標(biāo)準(zhǔn))4×4像素的固定限制,在壓縮階段就將原始紋理轉(zhuǎn)化為小型神經(jīng)網(wǎng)絡(luò)權(quán)重與潛在特征組合。
需要明確的是,NTC是確定性解碼技術(shù),并非生成式AI,不存在AI幻覺(jué)的風(fēng)險(xiǎn)。
為適配不同層級(jí)的硬件,NTC在DirectX 12接口下提供三種運(yùn)行模式,另一主流接口Vulkan因無(wú)對(duì)應(yīng)配套功能,僅支持其中兩種(不支持Inference on Feedback)。
第一種是加載時(shí)推理模式(Inference on Load)。它會(huì)在游戲或地圖加載階段,全程在GPU內(nèi)完成NTC紋理的解壓,并同步轉(zhuǎn)碼為傳統(tǒng)BCn格式。這種模式和原生BCn紋理的渲染性能完全一致,沒(méi)有任何渲染階段的性能開(kāi)銷(xiāo),還能大幅縮小游戲的磁盤(pán)占用體積、降低PCIe總線傳輸壓力,唯一的不足是無(wú)法降低運(yùn)行時(shí)的顯存占用。
第二種是采樣時(shí)推理模式(Inference on Sample),這也是大眾認(rèn)知中神經(jīng)紋理壓縮的核心形態(tài),更是顯存壓縮能力最強(qiáng)的模式。它會(huì)在紋理采樣時(shí),通過(guò)預(yù)訓(xùn)練的多層感知機(jī)(簡(jiǎn)稱(chēng)MLP,一種輕量化小型神經(jīng)網(wǎng)絡(luò)),實(shí)時(shí)解碼當(dāng)前所需的像素?cái)?shù)據(jù),最終實(shí)現(xiàn)最高85%的顯存占用降幅。
第三種是反饋時(shí)推理模式(Inference on Feedback),僅支持DirectX12接口。它會(huì)通過(guò)采樣器反饋(DirectX12專(zhuān)屬圖形功能,可精準(zhǔn)識(shí)別渲染當(dāng)前畫(huà)面所需的紋理區(qū)塊),僅解壓渲染當(dāng)前畫(huà)面需要的紋理部分,是前兩種模式的折中方案,顯存降幅不如采樣時(shí)推理模式,但性能開(kāi)銷(xiāo)更低,整體表現(xiàn)介于兩者之間。
![]()
Tom's Hardware用行業(yè)通用的Intel Sponza標(biāo)準(zhǔn)場(chǎng)景完成了量化測(cè)試,實(shí)測(cè)數(shù)據(jù)完全貼合官方標(biāo)稱(chēng)的壓縮能力,原始無(wú)損參考材質(zhì)的紋理顯存占用為6830MB。加載時(shí)推理模式(Inference on Load)將紋理轉(zhuǎn)碼為BCn格式后,顯存占用為2041MB。
而采樣時(shí)推理模式(Inference on Sample)下,紋理顯存占用僅為303MB。實(shí)現(xiàn)了85%以上的紋理顯存占用。對(duì)比原始無(wú)損參考材質(zhì),顯存降幅更是超過(guò)95%。
同時(shí)實(shí)測(cè)顯示,該模式下的畫(huà)面效果,比轉(zhuǎn)碼后的BCn紋理更接近原始參考材質(zhì),幾乎能做到完美復(fù)刻。而在NVIDIA官方的托斯卡納別墅場(chǎng)景測(cè)試中,同畫(huà)質(zhì)下的紋理顯存占用,可從傳統(tǒng)BCn格式的6.5GB直接降至NTC格式的970MB。
測(cè)試團(tuán)隊(duì)覆蓋了從旗艦到入門(mén)級(jí)的多款NVIDIA顯卡,以及筆記本移動(dòng)平臺(tái),核心測(cè)試指標(biāo)為幀時(shí)間(渲染單幀畫(huà)面所需的時(shí)間,數(shù)值越低畫(huà)面流暢度越高)。
RTX 5090在4K分辨率下,采樣時(shí)推理模式搭配TAA(時(shí)間抗鋸齒,主流的畫(huà)面平滑技術(shù),用于消除畫(huà)面鋸齒、提升畫(huà)面純凈度),幀時(shí)間僅比零開(kāi)銷(xiāo)的加載時(shí)推理模式增加0.09ms,性能損耗幾乎可以忽略。
![]()
![]()
![]()
![]()
![]()
![]()
主流RTX 5070在適配的1440P分辨率下,該模式的幀時(shí)間開(kāi)銷(xiāo)在0.50-0.70ms之間。入門(mén)級(jí)RTX 5060在適配的1080P分辨率下,幀時(shí)間開(kāi)銷(xiāo)穩(wěn)定在0.60-0.70ms。即便是筆記本端的RTX 4060移動(dòng)顯卡(8GB顯存),1080P下的幀時(shí)間開(kāi)銷(xiāo)也僅0.70-0.85ms。
![]()
![]()
測(cè)試團(tuán)隊(duì)同時(shí)明確,測(cè)試場(chǎng)景僅包含基礎(chǔ)前向渲染與抗鋸齒流程,實(shí)際3A游戲有大量不受NTC影響的渲染通道,因此這項(xiàng)技術(shù)在實(shí)際游戲中的相對(duì)性能損耗,會(huì)比測(cè)試數(shù)據(jù)更低。
對(duì)于8GB顯存顯卡來(lái)說(shuō),只要游戲基礎(chǔ)幀率充足,用小幅性能開(kāi)銷(xiāo)換取不降級(jí)的紋理畫(huà)質(zhì),是實(shí)打?qū)嵉膬羰找妗?/p>
這項(xiàng)技術(shù)也有明確的使用門(mén)檻。采樣時(shí)推理模式必須開(kāi)啟隨機(jī)紋理過(guò)濾(簡(jiǎn)稱(chēng)STF,用于優(yōu)化紋理畫(huà)質(zhì)、減少畫(huà)面瑕疵),關(guān)閉抗鋸齒時(shí)會(huì)產(chǎn)生畫(huà)面噪點(diǎn)。DLSS能完全消除這類(lèi)噪點(diǎn),TAA僅能完成大部分清理,無(wú)法徹底消除,因此該模式優(yōu)先推薦搭配DLSS使用。
NTC技術(shù)開(kāi)發(fā)者、NVIDIA資深工程師Alexey Panteleev表示,采樣時(shí)推理模式更適合高性能顯卡,加載時(shí)推理模式可覆蓋全平臺(tái)硬件。游戲廠商可按單紋理選擇是否啟用NTC,也能給玩家開(kāi)放模式選擇,讓用戶(hù)根據(jù)自身硬件情況決定。
值得一提的是,NTC并非NVIDIA專(zhuān)屬技術(shù),它可兼容AMD、Intel顯卡的AI加速單元,行業(yè)爆料稱(chēng)索尼PS6主機(jī)也有望采用同類(lèi)技術(shù)。
目前尚無(wú)游戲正式支持該技術(shù),但全行業(yè)布局已落地,規(guī)模化商用近在眼前。它不僅能讓小顯存老顯卡重獲新生,也為實(shí)時(shí)圖形渲染開(kāi)辟了全新的技術(shù)方向。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.