PMDformer：一個簡單減法實現(xiàn)長時序預(yù)測注意力機(jī)制糾偏

2026-04-07 13:31:21　來源: 機(jī)器之心Pro

河北舉報

分享至

西南財經(jīng)大學(xué)在讀碩士、上智院實習(xí)生胡澳，是本文第一作者，其主要研究方向為多變量長時序預(yù)測；西南財經(jīng)大學(xué)教授、成都恒圖科技創(chuàng)始人段江，為共同第一作者。西南財經(jīng)大學(xué)副教授溫良劍，上智院 AI 科學(xué)家、復(fù)旦大學(xué)教授徐增林，為本文通訊作者。

長期時間序列預(yù)測（Long-term Time Series Forecasting, LTSF）是能源管理、金融市場和交通預(yù)測等領(lǐng)域的核心任務(wù)。現(xiàn)有基于 Patch 的 Transformer 模型面臨一個根本性挑戰(zhàn)：非平穩(wěn)時序數(shù)據(jù)中，Patch 之間的尺度差異會嚴(yán)重干擾注意力機(jī)制對形狀相似性的捕捉，導(dǎo)致模型學(xué)習(xí)到錯誤的相關(guān)關(guān)系，預(yù)測精度受限。

為此，西南財經(jīng)大學(xué)、上海科學(xué)智能研究院（下稱上智院）、復(fù)旦大學(xué)、成都恒圖科技等機(jī)構(gòu)最新聯(lián)合提出 PMDformer—— 一種基于 Patch 均值解耦（PMD）的創(chuàng)新時序預(yù)測框架。通過三大核心模塊的協(xié)同設(shè)計，它在多項權(quán)威基準(zhǔn)上全面超越現(xiàn)有最優(yōu)方法。

論文地址：https://openreview.net/forum?id=rfJ41gK9Ct
代碼地址：https://github.com/aohu1105/PMDformer

目前，該成果已被 ICLR 2026 接收。

現(xiàn)有方法的痛點：尺度差異如何「扭曲」形狀建模？

長期時序預(yù)測中，研究者常用 Patch 分割策略來捕捉長序列中的局部語義，但時序數(shù)據(jù)的非平穩(wěn)性帶來顯著挑戰(zhàn) —— 同一序列在不同時段的數(shù)值尺度差異懸殊。這一特性帶來了兩個關(guān)鍵問題：

尺度偏差遮蔽形狀相似性：注意力權(quán)重受 Patch 均值影響，導(dǎo)致形狀相似但尺度不同的 Patch 被錯誤地判為不相關(guān)，而形狀迥異的 Patch 反而獲得高注意力權(quán)重。模型捕捉到的并非真正的模式，而是由尺度「幻覺」造成的誤導(dǎo)。如論文圖 1 所示，P1 與 P2 形狀高度相似，但在解耦前，P1 與 P3 的注意力權(quán)重反而更高。
跨變量依賴建模失準(zhǔn)：變量間的相關(guān)性隨時間演變，歷史早期的相關(guān)關(guān)系對預(yù)測近期走勢的參考價值有限，但現(xiàn)有模型通常在全局歷史窗口上計算變量交互，引入大量噪聲，容易過擬合。

圖 1：PMD 解耦前后的注意力權(quán)重對比。上：原始序列中，尺度差異導(dǎo)致注意力偏向 P3；下：均值解耦后，注意力正確反映形狀相似性

PMDformer：三位一體的解決方案

PMDformer 由三個協(xié)同工作的核心模塊組成，分別解決上述不同層面的問題，形成完整的技術(shù)閉環(huán)。

圖 2：PMDformer 整體架構(gòu)圖

一、Patch 均值解耦（PMD）：還原形狀本質(zhì)

PMD 的核心操作簡潔而高效：對每個 Patch 減去其時間均值，將原始 Patch 分解為長期趨勢（均值）和殘差形狀兩部分。與現(xiàn)有 Normalization 方法不同，PMD 僅做均值減法，完整保留了 Patch 內(nèi)部的振幅變化和形狀結(jié)構(gòu)。

二、近鄰變量注意力（PVA）：聚焦最相關(guān)的跨變量依賴

PVA 模塊基于一個直覺洞察：預(yù)測目標(biāo)序列時，變量間在最近時間段的交互關(guān)系最具參考價值。因此，PVA 將跨變量的自注意力計算嚴(yán)格限制在最近一個 Patch（第 N 個 Patch）的時序詞元（Tokens）上，而非全局歷史序列。

這一設(shè)計帶來雙重優(yōu)勢：

一是捕捉最相關(guān)的近期跨變量形狀相似性，避免早期弱相關(guān)或虛假相關(guān)對預(yù)測的干擾；
二是將計算復(fù)雜度從 O (C2N) 降低至 O (C2)，顯著提升計算效率。

三、趨勢恢復(fù)注意力（TRA）：兼顧形狀與趨勢

PMD 在提升形狀相似性建模的同時，客觀上削弱了長期趨勢信號。TRA 模塊專門針對此問題設(shè)計：在注意力計算中，Query/Key 通道僅使用形狀嵌入（確保注意力分?jǐn)?shù)反映形狀相似性），而 Value 通道則通過加法注入 PMD 分離出的 Patch 均值（趨勢信息）。

這種分離式設(shè)計使模型能夠同時編碼局部形狀模式和全局趨勢動態(tài)，輸出更穩(wěn)定的預(yù)測結(jié)果。

實驗結(jié)果：在 8 個權(quán)威基準(zhǔn)上全面領(lǐng)先

研究團(tuán)隊在 8 個廣泛使用的真實世界數(shù)據(jù)集上進(jìn)行了系統(tǒng)評估，涵蓋電力、天氣、能源、交通等多個應(yīng)用領(lǐng)域。與 8 個最新基線方法的比較表明，PMDformer 在 7/8 個數(shù)據(jù)集上取得最低 MSE 和 MAE，展現(xiàn)出穩(wěn)定且全面的性能優(yōu)勢。

表 1：長時間序列預(yù)測任務(wù)結(jié)果對比。包含 8 個數(shù)據(jù)集、4 個預(yù)測長度（96/192/336/720 步）、MSE 與 MAE 雙指標(biāo)的完整對比數(shù)據(jù)

計算效率：以更少資源實現(xiàn)更高性能

PMDformer 在計算效率方面同樣表現(xiàn)突出。在變量數(shù)量從 100 增至 3000、以及序列長度從 144 增至 5400 的兩組擴(kuò)展實驗中，PMDformer 相比 PatchTST、iTransformer、ModernTCN 均需要更少的 GPU 顯存。這一優(yōu)勢源于 PVA 模塊將跨變量注意力復(fù)雜度從 O (C2N) 壓縮至 O (C2)，在高維多變量場景下尤為顯著。

圖 3：計算效率對比：不同變量數(shù)量（左）與不同序列長度（右）下，各模型 GPU 顯存占用對比

總結(jié)與展望

PMDformer 的成功揭示了時序預(yù)測領(lǐng)域一個長期被忽視但至關(guān)重要的問題：Patch 的均值（趨勢）與殘差（形狀）耦合在一起，會系統(tǒng)性地?fù)p害注意力機(jī)制對形狀相似性的建模能力。

通過一個簡潔的均值減法操作，配合精心設(shè)計的趨勢恢復(fù)機(jī)制和近鄰變量注意力，PMDformer 在不增加模型復(fù)雜度的前提下，全面提升了預(yù)測精度與計算效率。

接下來，研究團(tuán)隊計劃將 PMDformer 擴(kuò)展至更高維度的多變量時序數(shù)據(jù)建模，并探索與多模態(tài)數(shù)據(jù)（如文本、圖像）的融合應(yīng)用，為能源、金融、交通等領(lǐng)域的智能預(yù)測持續(xù)提供新動力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.