![]()
隨著大模型在自然語言處理、計算機視覺以及多模態(tài)任務中的快速發(fā)展,全參數(shù)微調(diào)(Full Fine-tuning, FF)所帶來的顯存占用、訓練時間和存儲成本也越來越高。為了解決這一問題,參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning, PEFT)逐漸成為主流路線:通過凍結大部分預訓練參數(shù),僅更新少量可訓練參數(shù),使模型能夠快速適配下游任務。
當前最常見的一類 PEFT 方法是基于矩陣低秩分解的方法,例如 LoRA 。其基本思想是將每一層的權重更新表示為一個低秩矩陣分解,從而用少量參數(shù)近似表示權重變化。這類方法結構簡單、效果穩(wěn)定,在大模型微調(diào)中得到了廣泛應用。然而,當模型規(guī)模不斷增大、層數(shù)持續(xù)增加時,這類方法仍然存在一些局限:
- 每一層都需要獨立的低秩適配模塊,可訓練參數(shù)仍隨層數(shù)線性增長;
- 低秩分解只利用了單層內(nèi)部的矩陣結構,難以顯式刻畫不同層之間的相關性。
為進一步提升參數(shù)效率,近期研究開始探索張量化 PEFT(Tensorized PEFT)。這類方法將同類型層(例如各注意力層的 Q/K/V 投影矩陣)沿層維度進行堆疊,從而形成一個高階張量結構。相比逐層的矩陣低秩分解,這種表示方式能夠同時建模層內(nèi)結構與跨層相關性,從而在理論上實現(xiàn)更緊湊的參數(shù)表示。
![]()
圖 1:左—DCT(離散余弦變換)域下的張量奇異值分布 ;右—基于 LSM-3(權重張量經(jīng) mode-3 展開后的左奇異矩陣)的奇異值分布。可以觀察到,大部分能量集中在少數(shù)主成分上。
盡管張量化 PEFT 在參數(shù)效率上具有明顯優(yōu)勢,但在實際工程實現(xiàn)中仍然存在一個關鍵問題:權重張量重建(weight tensor reconstruction)
許多張量分解方法在每次前向或反向傳播時,都需要將張量因子重新組合為完整的權重張量。這一過程會帶來額外的工程開銷:
- 額外計算開銷:重復的張量–矩陣乘法增加訓練時間
- 顯存占用增加:顯式構造的大型權重張量會放大計算圖規(guī)模
因此,一個關鍵問題是:
能否在保持張量化 PEFT 參數(shù)高效性的同時,避免訓練過程中反復進行權重重建?
本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一種針對這一問題設計的張量化 PEFT 方法。
![]()
- 論文標題:ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
- 論文鏈接:https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf
ReFTA 的核心:互換 mode-1 與 mode-3 的乘積以避免顯式權重重建
ReFTA 的首要設計目標,是消除張量方法在訓練時反復重建權重張量所帶來的額外開銷。具體而言,ReFTA 將 mode-1 與 mode-3 的乘積順序對調(diào),把原本「先重建權重、再與輸入相乘」的計算過程,改寫為「先生成中間特征、再進行特征融合」。由此,在前向與反向傳播中就不再需要顯式構造完整的大尺寸權重張量,也無需將其納入梯度圖。
更重要的是,這一改寫并不僅僅是實現(xiàn)層面的優(yōu)化,而是改變了訓練過程中的計算范式:模型不再圍繞大規(guī)模權重張量展開計算,而是轉向處理與 batch 規(guī)模相關的中間特征。對于張量化 PEFT 而言,這種從「權重空間」到「特征空間」的轉變,正是 ReFTA 區(qū)別于已有方法的關鍵所在。
張量化表示與主成分低秩適配
考慮將 Transformer 中同類型層的權重矩陣沿層維度堆疊:
![]()
在此基礎上,ReFTA 進一步使用張量主成分分析(Tensor PCA)得到一個主成分近似:
![]()
![]()
![]()
圖 2:NF4 量化誤差隨張量秩變化的趨勢,實證支持 ReFTA 在量化下更魯棒。
然后在變換域里,每個張量切片都可以寫成 LoRA 類似的低秩形式:
![]()
mode-1 與 mode-3 乘積交換
![]()
ReFTA 的實現(xiàn)要點在于以下兩步的順序交換:
![]()
交換后可等價地被改寫為:
![]()
![]()
整體示意如下:
![]()
圖 3:ReFTA 的結構(基于切片的低秩適配器 + 特征融合)
這一步改寫帶來兩項直接收益:
![]()
![]()
![]()
表 1:ReFTA 與其兩種權重合并變體在前向與反向計算的時間復雜度對比。
![]()
除了工程實現(xiàn)上的優(yōu)勢,ReFTA 還給出了一個針對張量化低秩 PEFT 的泛化上界。核心結論可以概括為:
![]()
其中:
- R 是張量秩
- K 是堆疊的層數(shù) / 注意力頭數(shù)
- n 是輸出維度
- m 是樣本數(shù)
這意味著:
- 復雜度上界與張量秩 R 直接相關
- 讓「極小參數(shù)預算下仍能保持良好的泛化能力」更有可解釋性
理論與實證的呼應
![]()
- 在不同 backbone(ViT、RoBERTa、LLaMA-family)上,使用較小的 R 時 ReFTA 能在大幅減少可訓練參數(shù)的同時接近甚至超過主流 PEFT 的性能,從實證角度印證了低秩設置下的良好泛化能力;
- ReFTA 避免顯式權重重建的實現(xiàn)方式直接帶來了較小的訓練顯存占用,這對應著理論中對有效參數(shù)和計算復雜度的控制。
![]()
表 2:該表展示了在常見 ViT 基線上的方法對比,ReFTA 在較低參數(shù)預算下仍能超越 LoRA / PiSSA
![]()
表 3:該表展示了基于 RoBERTa 模型在 GLUE 六個數(shù)據(jù)集上的微調(diào)結果;其中全參數(shù)微調(diào)(FF)和參數(shù)量最小的方法分別以灰色和淺藍色高亮。整體上看,ReFTA 在較低參數(shù)預算下依然能夠保持有競爭力的性能,體現(xiàn)出較好的參數(shù)效率。
![]()
圖 4:左 — Car 數(shù)據(jù)集下不同可逆變換 U_0(DCT / LSM-3 等)對張量秩下性能的影響;右 — FGVC 數(shù)據(jù)集下相同對比。兩圖表明不同可逆變換選擇會影響低秩近似的實際效用。
總結與展望
ReFTA 所針對的問題十分明確:張量化 PEFT 雖然能夠減少可訓練參數(shù),但訓練時反復進行權重重建會帶來額外的計算、顯存與實現(xiàn)成本。
ReFTA 的關鍵貢獻可以概括為四點:
![]()
從更宏觀的角度看,ReFTA 的最大貢獻不僅在于提供了一種更高效的 PEFT 方法,更在于其提出的核心思想:利用張量代數(shù)策略避免顯式張量權重重建。這一思想不僅能夠被應用于 PEFT 任務還有望應用于基于張量方法的模型壓縮與高效模型結構設計等方向,從而為構建更加輕量而高效的模型提供新的思路。總體而言,這一方向仍具有非常廣闊的拓展空間。
參考文獻:
[1] Edward Hu, Yelong Shen, and Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen. LoRA: Low-rank adaptation of large language models. In ICLR, 2022.
[2] Canyi Lu, Xi Peng, Yunchao Wei. Low-Rank Tensor Completion With a New Tensor Nuclear Norm Induced by Invertible Linear Transforms. In CVPR, 2019.
[3] Hao Kong, Canyi Lu, and Zhouchen Lin. Tensor Q-rank: newdata dependent definition of tensor rank. Machine Learning, 2019.
[4] Fanxu Meng, Zhaohui Wang, Muha Zhang. PiSSA: Principal singular values and singular vectors adaptation of large language models. In NeurIPS, 2024.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.