![]()
西南財經(jīng)大學(xué)在讀碩士、上智院實習(xí)生胡澳,是本文第一作者,其主要研究方向為多變量長時序預(yù)測;西南財經(jīng)大學(xué)教授、成都恒圖科技創(chuàng)始人段江,為共同第一作者。西南財經(jīng)大學(xué)副教授溫良劍,上智院 AI 科學(xué)家、復(fù)旦大學(xué)教授徐增林,為本文通訊作者。
長期時間序列預(yù)測(Long-term Time Series Forecasting, LTSF)是能源管理、金融市場和交通預(yù)測等領(lǐng)域的核心任務(wù)。現(xiàn)有基于 Patch 的 Transformer 模型面臨一個根本性挑戰(zhàn):非平穩(wěn)時序數(shù)據(jù)中,Patch 之間的尺度差異會嚴(yán)重干擾注意力機(jī)制對形狀相似性的捕捉,導(dǎo)致模型學(xué)習(xí)到錯誤的相關(guān)關(guān)系,預(yù)測精度受限。
為此,西南財經(jīng)大學(xué)、上海科學(xué)智能研究院(下稱上智院)、復(fù)旦大學(xué)、成都恒圖科技等機(jī)構(gòu)最新聯(lián)合提出 PMDformer—— 一種基于 Patch 均值解耦(PMD)的創(chuàng)新時序預(yù)測框架。通過三大核心模塊的協(xié)同設(shè)計,它在多項權(quán)威基準(zhǔn)上全面超越現(xiàn)有最優(yōu)方法。
![]()
- 論文地址:https://openreview.net/forum?id=rfJ41gK9Ct
- 代碼地址:https://github.com/aohu1105/PMDformer
目前,該成果已被 ICLR 2026 接收。
現(xiàn)有方法的痛點:尺度差異如何「扭曲」形狀建模?
長期時序預(yù)測中,研究者常用 Patch 分割策略來捕捉長序列中的局部語義,但時序數(shù)據(jù)的非平穩(wěn)性帶來顯著挑戰(zhàn) —— 同一序列在不同時段的數(shù)值尺度差異懸殊。這一特性帶來了兩個關(guān)鍵問題:
- 尺度偏差遮蔽形狀相似性:注意力權(quán)重受 Patch 均值影響,導(dǎo)致形狀相似但尺度不同的 Patch 被錯誤地判為不相關(guān),而形狀迥異的 Patch 反而獲得高注意力權(quán)重。模型捕捉到的并非真正的模式,而是由尺度「幻覺」造成的誤導(dǎo)。如論文圖 1 所示,P1 與 P2 形狀高度相似,但在解耦前,P1 與 P3 的注意力權(quán)重反而更高。
- 跨變量依賴建模失準(zhǔn):變量間的相關(guān)性隨時間演變,歷史早期的相關(guān)關(guān)系對預(yù)測近期走勢的參考價值有限,但現(xiàn)有模型通常在全局歷史窗口上計算變量交互,引入大量噪聲,容易過擬合。
![]()
圖 1:PMD 解耦前后的注意力權(quán)重對比。上:原始序列中,尺度差異導(dǎo)致注意力偏向 P3;下:均值解耦后,注意力正確反映形狀相似性
PMDformer:三位一體的解決方案
PMDformer 由三個協(xié)同工作的核心模塊組成,分別解決上述不同層面的問題,形成完整的技術(shù)閉環(huán)。
![]()
圖 2:PMDformer 整體架構(gòu)圖
一、Patch 均值解耦(PMD):還原形狀本質(zhì)
PMD 的核心操作簡潔而高效:對每個 Patch 減去其時間均值,將原始 Patch 分解為長期趨勢(均值)和殘差形狀兩部分。與現(xiàn)有 Normalization 方法不同,PMD 僅做均值減法,完整保留了 Patch 內(nèi)部的振幅變化和形狀結(jié)構(gòu)。
二、近鄰變量注意力(PVA):聚焦最相關(guān)的跨變量依賴
PVA 模塊基于一個直覺洞察:預(yù)測目標(biāo)序列時,變量間在最近時間段的交互關(guān)系最具參考價值。因此,PVA 將跨變量的自注意力計算嚴(yán)格限制在最近一個 Patch(第 N 個 Patch)的時序詞元(Tokens)上,而非全局歷史序列。
這一設(shè)計帶來雙重優(yōu)勢:
- 一是捕捉最相關(guān)的近期跨變量形狀相似性,避免早期弱相關(guān)或虛假相關(guān)對預(yù)測的干擾;
- 二是將計算復(fù)雜度從 O (C2N) 降低至 O (C2),顯著提升計算效率。
三、趨勢恢復(fù)注意力(TRA):兼顧形狀與趨勢
PMD 在提升形狀相似性建模的同時,客觀上削弱了長期趨勢信號。TRA 模塊專門針對此問題設(shè)計:在注意力計算中,Query/Key 通道僅使用形狀嵌入(確保注意力分?jǐn)?shù)反映形狀相似性),而 Value 通道則通過加法注入 PMD 分離出的 Patch 均值(趨勢信息)。
這種分離式設(shè)計使模型能夠同時編碼局部形狀模式和全局趨勢動態(tài),輸出更穩(wěn)定的預(yù)測結(jié)果。
實驗結(jié)果:在 8 個權(quán)威基準(zhǔn)上全面領(lǐng)先
研究團(tuán)隊在 8 個廣泛使用的真實世界數(shù)據(jù)集上進(jìn)行了系統(tǒng)評估,涵蓋電力、天氣、能源、交通等多個應(yīng)用領(lǐng)域。與 8 個最新基線方法的比較表明,PMDformer 在 7/8 個數(shù)據(jù)集上取得最低 MSE 和 MAE,展現(xiàn)出穩(wěn)定且全面的性能優(yōu)勢。
![]()
表 1:長時間序列預(yù)測任務(wù)結(jié)果對比。包含 8 個數(shù)據(jù)集、4 個預(yù)測長度(96/192/336/720 步)、MSE 與 MAE 雙指標(biāo)的完整對比數(shù)據(jù)
計算效率:以更少資源實現(xiàn)更高性能
PMDformer 在計算效率方面同樣表現(xiàn)突出。在變量數(shù)量從 100 增至 3000、以及序列長度從 144 增至 5400 的兩組擴(kuò)展實驗中,PMDformer 相比 PatchTST、iTransformer、ModernTCN 均需要更少的 GPU 顯存。這一優(yōu)勢源于 PVA 模塊將跨變量注意力復(fù)雜度從 O (C2N) 壓縮至 O (C2),在高維多變量場景下尤為顯著。
![]()
圖 3:計算效率對比:不同變量數(shù)量(左)與不同序列長度(右)下,各模型 GPU 顯存占用對比
總結(jié)與展望
PMDformer 的成功揭示了時序預(yù)測領(lǐng)域一個長期被忽視但至關(guān)重要的問題:Patch 的均值(趨勢)與殘差(形狀)耦合在一起,會系統(tǒng)性地?fù)p害注意力機(jī)制對形狀相似性的建模能力。
通過一個簡潔的均值減法操作,配合精心設(shè)計的趨勢恢復(fù)機(jī)制和近鄰變量注意力,PMDformer 在不增加模型復(fù)雜度的前提下,全面提升了預(yù)測精度與計算效率。
接下來,研究團(tuán)隊計劃將 PMDformer 擴(kuò)展至更高維度的多變量時序數(shù)據(jù)建模,并探索與多模態(tài)數(shù)據(jù)(如文本、圖像)的融合應(yīng)用,為能源、金融、交通等領(lǐng)域的智能預(yù)測持續(xù)提供新動力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.