337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | ReFTA:打破張量化PEFT的「權重重建」瓶頸

0
分享至



隨著大模型在自然語言處理、計算機視覺以及多模態(tài)任務中的快速發(fā)展,全參數(shù)微調(diào)(Full Fine-tuning, FF)所帶來的顯存占用、訓練時間和存儲成本也越來越高。為了解決這一問題,參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning, PEFT)逐漸成為主流路線:通過凍結大部分預訓練參數(shù),僅更新少量可訓練參數(shù),使模型能夠快速適配下游任務。

當前最常見的一類 PEFT 方法是基于矩陣低秩分解的方法,例如 LoRA 。其基本思想是將每一層的權重更新表示為一個低秩矩陣分解,從而用少量參數(shù)近似表示權重變化。這類方法結構簡單、效果穩(wěn)定,在大模型微調(diào)中得到了廣泛應用。然而,當模型規(guī)模不斷增大、層數(shù)持續(xù)增加時,這類方法仍然存在一些局限:

  • 每一層都需要獨立的低秩適配模塊,可訓練參數(shù)仍隨層數(shù)線性增長;
  • 低秩分解只利用了單層內(nèi)部的矩陣結構,難以顯式刻畫不同層之間的相關性。

為進一步提升參數(shù)效率,近期研究開始探索張量化 PEFT(Tensorized PEFT)。這類方法將同類型層(例如各注意力層的 Q/K/V 投影矩陣)沿層維度進行堆疊,從而形成一個高階張量結構。相比逐層的矩陣低秩分解,這種表示方式能夠同時建模層內(nèi)結構與跨層相關性,從而在理論上實現(xiàn)更緊湊的參數(shù)表示。



圖 1:左—DCT(離散余弦變換)域下的張量奇異值分布 ;右—基于 LSM-3(權重張量經(jīng) mode-3 展開后的左奇異矩陣)的奇異值分布。可以觀察到,大部分能量集中在少數(shù)主成分上。

盡管張量化 PEFT 在參數(shù)效率上具有明顯優(yōu)勢,但在實際工程實現(xiàn)中仍然存在一個關鍵問題:權重張量重建(weight tensor reconstruction)

許多張量分解方法在每次前向或反向傳播時,都需要將張量因子重新組合為完整的權重張量。這一過程會帶來額外的工程開銷:

  • 額外計算開銷:重復的張量–矩陣乘法增加訓練時間
  • 顯存占用增加:顯式構造的大型權重張量會放大計算圖規(guī)模

因此,一個關鍵問題是:

能否在保持張量化 PEFT 參數(shù)高效性的同時,避免訓練過程中反復進行權重重建?

本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一種針對這一問題設計的張量化 PEFT 方法。



  • 論文標題:ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
  • 論文鏈接:https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf

ReFTA 的核心:互換 mode-1 與 mode-3 的乘積以避免顯式權重重建

ReFTA 的首要設計目標,是消除張量方法在訓練時反復重建權重張量所帶來的額外開銷。具體而言,ReFTA 將 mode-1 與 mode-3 的乘積順序對調(diào),把原本「先重建權重、再與輸入相乘」的計算過程,改寫為「先生成中間特征、再進行特征融合」。由此,在前向與反向傳播中就不再需要顯式構造完整的大尺寸權重張量,也無需將其納入梯度圖。

更重要的是,這一改寫并不僅僅是實現(xiàn)層面的優(yōu)化,而是改變了訓練過程中的計算范式:模型不再圍繞大規(guī)模權重張量展開計算,而是轉向處理與 batch 規(guī)模相關的中間特征。對于張量化 PEFT 而言,這種從「權重空間」到「特征空間」的轉變,正是 ReFTA 區(qū)別于已有方法的關鍵所在。

張量化表示與主成分低秩適配

考慮將 Transformer 中同類型層的權重矩陣沿層維度堆疊:



在此基礎上,ReFTA 進一步使用張量主成分分析(Tensor PCA)得到一個主成分近似:







圖 2:NF4 量化誤差隨張量秩變化的趨勢,實證支持 ReFTA 在量化下更魯棒。

然后在變換域里,每個張量切片都可以寫成 LoRA 類似的低秩形式:



mode-1 與 mode-3 乘積交換



ReFTA 的實現(xiàn)要點在于以下兩步的順序交換:



交換后可等價地被改寫為:





整體示意如下:



圖 3:ReFTA 的結構(基于切片的低秩適配器 + 特征融合)

這一步改寫帶來兩項直接收益:







表 1:ReFTA 與其兩種權重合并變體在前向與反向計算的時間復雜度對比。



除了工程實現(xiàn)上的優(yōu)勢,ReFTA 還給出了一個針對張量化低秩 PEFT 的泛化上界。核心結論可以概括為:



其中:

  • R 是張量秩
  • K 是堆疊的層數(shù) / 注意力頭數(shù)
  • n 是輸出維度
  • m 是樣本數(shù)

這意味著:

  • 復雜度上界與張量秩 R 直接相關
  • 讓「極小參數(shù)預算下仍能保持良好的泛化能力」更有可解釋性

理論與實證的呼應



  • 在不同 backbone(ViT、RoBERTa、LLaMA-family)上,使用較小的 R 時 ReFTA 能在大幅減少可訓練參數(shù)的同時接近甚至超過主流 PEFT 的性能,從實證角度印證了低秩設置下的良好泛化能力;
  • ReFTA 避免顯式權重重建的實現(xiàn)方式直接帶來了較小的訓練顯存占用,這對應著理論中對有效參數(shù)和計算復雜度的控制。



表 2:該表展示了在常見 ViT 基線上的方法對比,ReFTA 在較低參數(shù)預算下仍能超越 LoRA / PiSSA



表 3:該表展示了基于 RoBERTa 模型在 GLUE 六個數(shù)據(jù)集上的微調(diào)結果;其中全參數(shù)微調(diào)(FF)和參數(shù)量最小的方法分別以灰色和淺藍色高亮。整體上看,ReFTA 在較低參數(shù)預算下依然能夠保持有競爭力的性能,體現(xiàn)出較好的參數(shù)效率。



圖 4:左 — Car 數(shù)據(jù)集下不同可逆變換 U_0(DCT / LSM-3 等)對張量秩下性能的影響;右 — FGVC 數(shù)據(jù)集下相同對比。兩圖表明不同可逆變換選擇會影響低秩近似的實際效用。

總結與展望

ReFTA 所針對的問題十分明確:張量化 PEFT 雖然能夠減少可訓練參數(shù),但訓練時反復進行權重重建會帶來額外的計算、顯存與實現(xiàn)成本。

ReFTA 的關鍵貢獻可以概括為四點:



從更宏觀的角度看,ReFTA 的最大貢獻不僅在于提供了一種更高效的 PEFT 方法,更在于其提出的核心思想:利用張量代數(shù)策略避免顯式張量權重重建。這一思想不僅能夠被應用于 PEFT 任務還有望應用于基于張量方法的模型壓縮與高效模型結構設計等方向,從而為構建更加輕量而高效的模型提供新的思路。總體而言,這一方向仍具有非常廣闊的拓展空間。

參考文獻:

[1] Edward Hu, Yelong Shen, and Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen. LoRA: Low-rank adaptation of large language models. In ICLR, 2022.

[2] Canyi Lu, Xi Peng, Yunchao Wei. Low-Rank Tensor Completion With a New Tensor Nuclear Norm Induced by Invertible Linear Transforms. In CVPR, 2019.

[3] Hao Kong, Canyi Lu, and Zhouchen Lin. Tensor Q-rank: newdata dependent definition of tensor rank. Machine Learning, 2019.

[4] Fanxu Meng, Zhaohui Wang, Muha Zhang. PiSSA: Principal singular values and singular vectors adaptation of large language models. In NeurIPS, 2024.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國肺癌發(fā)病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發(fā)病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

奶蓋熊本熊
2026-03-27 05:35:00
曼聯(lián)遇1700萬難題!維拉若進歐冠欲簽拉什福德,球員卻只想留巴薩

曼聯(lián)遇1700萬難題!維拉若進歐冠欲簽拉什福德,球員卻只想留巴薩

羅米的曼聯(lián)博客
2026-03-27 10:30:17
杰曼絕殺引賽后爭議,許利民話里有話杜鋒一針見血

杰曼絕殺引賽后爭議,許利民話里有話杜鋒一針見血

陳秣愛釣魚
2026-03-28 02:10:13
上海郊區(qū)的這個小鎮(zhèn) 住了15000名老外!

上海郊區(qū)的這個小鎮(zhèn) 住了15000名老外!

看看新聞Knews
2026-03-27 23:27:03
原來他們是兩口子,相差6歲同為央視主持,低調(diào)結婚22年兒女雙全

原來他們是兩口子,相差6歲同為央視主持,低調(diào)結婚22年兒女雙全

以茶帶書
2026-03-27 15:12:15
為什么說網(wǎng)游沒有未來,單機游戲才是最終的正確方向

為什么說網(wǎng)游沒有未來,單機游戲才是最終的正確方向

大咕咕玩游戲
2026-03-26 20:20:03
有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

畫夕
2026-03-26 01:20:12
我老公是伊拉克人,他定居上海12年,主動讓孩子入中國籍,不回國

我老公是伊拉克人,他定居上海12年,主動讓孩子入中國籍,不回國

水泥土的搞笑
2026-03-27 12:45:29
張雪峰追悼會內(nèi)幕曝光,前女友發(fā)聲,3大爭議出現(xiàn),女兒讓人擔心

張雪峰追悼會內(nèi)幕曝光,前女友發(fā)聲,3大爭議出現(xiàn),女兒讓人擔心

北緯的咖啡豆
2026-03-27 19:46:32
山西煤老板花2億買下四合院,裝修時發(fā)現(xiàn)地下室,砸開后愣住

山西煤老板花2億買下四合院,裝修時發(fā)現(xiàn)地下室,砸開后愣住

清茶淺談
2025-08-26 18:48:12
11天碰兩次頭,中方第二天就亮了刀:美國想穩(wěn)住經(jīng)貿(mào)關系,光嘴上說沒用

11天碰兩次頭,中方第二天就亮了刀:美國想穩(wěn)住經(jīng)貿(mào)關系,光嘴上說沒用

行舟問茶
2026-03-28 00:07:39
以毒攻毒!研究證實:蜂毒100%殺死癌細胞,正常細胞影響小

以毒攻毒!研究證實:蜂毒100%殺死癌細胞,正常細胞影響小

醫(yī)學科普匯
2026-03-26 23:55:03
iPhone 50周年紀念版上架,真好看!

iPhone 50周年紀念版上架,真好看!

劉奔跑
2026-03-27 23:58:41
中方兩道通牒發(fā)往東京,不到24小時,高市早苗收到壞消息

中方兩道通牒發(fā)往東京,不到24小時,高市早苗收到壞消息

過期少女致幻錄
2026-03-28 00:47:47
暴漲7倍!南通樓市,夯爆了!

暴漲7倍!南通樓市,夯爆了!

南通樓市說說
2026-03-27 11:11:39
新加坡前官員北京“砸場子”!兩句話劍指中國特權,嘴臉暴露無遺

新加坡前官員北京“砸場子”!兩句話劍指中國特權,嘴臉暴露無遺

明天見灌裝冰塊
2026-03-28 03:52:54
我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

千秋文化
2026-03-20 20:36:55
高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發(fā)生

高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發(fā)生

古怪奇談錄
2025-10-16 10:53:42
特朗普剛敲定訪華,不到24小時,中方會見美代表,當場反將一軍

特朗普剛敲定訪華,不到24小時,中方會見美代表,當場反將一軍

李健政觀察
2026-03-27 16:49:37
2026-03-28 04:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12619文章數(shù) 142595關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

數(shù)碼
時尚
本地
健康
軍事航空

數(shù)碼要聞

洛斐QQ音樂聯(lián)名外設泄露:極地苔原色,瞬間激活432Hz自然聲

推廣中獎名單-更新至2026年3月11日推廣

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

干細胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

伊朗:已組織超100萬人為地面戰(zhàn)斗做準備

無障礙瀏覽 進入關懷版