337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

1.6B token,1290條均衡序列:螞蟻開源QuitoBench,輔助AI精確洞察未來

0
分享至

你可能沒有意識到,但時間序列預測早已滲透到日常生活的方方面面。

打開手機看天氣預報,背后是氣象序列的預測;雙十一零點搶購不卡頓,靠的是提前預測流量峰值來做服務器擴容;基金 App 里的收益走勢圖,背后也離不開金融時間序列的建模。簡單來說,時間序列預測就是讓機器根據過去的數據,判斷接下來會發生什么。從能源調度到風險預警,幾乎所有需要"提前做準備"的場景都離不開它,是 AI 落地最廣、最剛需的能力之一。

近些年,時序預測的模型從 MLP 和 Transformer 兩大架構的龍爭虎斗,到 Chronos、TimesFM、TiRex 等時序大模型的異軍突起,各類深度學習模型架構與基模不斷涌現。

模型越來越多,但一個尷尬的問題也隨之浮出水面:我們到底該怎么判斷,哪個模型真的更強?

做過時序預測的人大概都有過類似的經歷。你在 ETT、Weather、Traffic 這些經典數據集上跑出了不錯的數字,信心滿滿地準備上線。結果一換到自己的業務數據,指標大幅跳水。你以為是代碼的問題,排查一圈之后發現——代碼沒問題,問題出在評測本身。

這不是個例,而是整個時序預測領域長期面對的一個系統性困境。

考卷出了問題,分數還能信嗎?

如果把模型評測比作考試,那現在時間序列領域的這張"考卷",至少有四個不及格的地方。

第一,沒有統一的考卷。NLP 有 GLUE,視覺有 ImageNet,但時間序列預測至今沒有一個被廣泛認可的標準評測基準。研究者各自拼湊一組數據集跑實驗,結果難以橫向比較。

第二,考卷嚴重偏科。現有 benchmark 的數據分布高度集中。論文分析了兩個當前主流的大規模 benchmark:GIFT-Eval 有 50.7% 的序列落在同一類 regime 里,Timer 更甚,達到 65.8%。這意味著什么?模型只要在這一類"主流題型"上表現好,總分就不會差——但這不代表它真正全面。就像一張數學試卷 70% 都是計算題,你很難從總分看出誰的幾何更好。

第三,考生可能提前看過答案。當前很多時序 foundation model 的預訓練語料規模龐大,而公開 benchmark 被反復復用多年。測試集是否已經被模型在預訓練階段間接"見過"?這種數據泄漏風險,正在悄悄侵蝕評測的可信度。

第四,題目太簡單,區分不出真實水平。很多經典數據集的序列長度偏短,GIFT-Eval 中 50% 的序列不到 200 個時間步。這對于今天動輒要做 long-context forecasting 的模型來說,根本評不出真正的能力上限。

這些問題疊加在一起,造成了一個后果:排行榜上的名次,未必反映模型的真實能力。論文刷出來的 SOTA,換個場景可能就不 work 了。

現在,螞蟻集團正式開源 Quito 與 QuitoBench,嘗試重新出一張更公平的考卷。


項目地址:
● Website:https://hq-bench.github.io/quito/[1]
● Hugging Face:https://huggingface.co/datasets/hq-bench/quitobench[2]

16 億 token 的工業級語料,不只是"更大"

這次開源包含兩個核心部分。

第一個是Quito,一個來自真實生產環境的大規模時間序列語料庫。數據來源于 Alipay 平臺的應用流量,覆蓋金融、電商、廣告、基礎設施、風控、IoT 等 9 個業務垂類——不是實驗室里仿造的數據,而是每天真正在跑的生產系統。

規模上,Quito 包含兩個子集:Quito-Min(22,522 條序列,10 分鐘粒度,約 7 億 token)和 Quito-Hour(12,544 條序列,1 小時粒度,約 10 億 token),總規模達到1.6B tokens。序列統一較長,最短也有 5,904 個時間步,足以支撐 context length 從 96 到 1024 的全范圍評測。


更關鍵的是數據來源的"干凈"。Quito 來自單一專有工業環境,與任何公開預訓練語料零重疊。這從根源上杜絕了數據泄漏的可能——無論模型的預訓練語料有多大,都不可能在訓練階段"見過"這些測試數據。

不按行業分,按"難不難預測"分

第二個核心部分是QuitoBench,從 Quito 中進一步構建的評測基準。它最大的創新不在于規模,而在于組織方式。

傳統 benchmark 按應用領域分組:交通、電力、天氣。但領域標簽其實是個很粗糙的分類方式。同樣是交通數據,有的序列周期性極強,幾乎可以"閉眼預測";有的則充滿突發脈沖和噪聲,任何模型都會掙扎。把它們扔進同一個"交通"桶里評測,掩蓋的信息遠比暴露的多。

QuitoBench 換了一個思路:按時間序列本身的統計特征來分類。具體來說,每條序列沿三個維度打標簽——趨勢強度(Trend)、季節性強度(Seasonality)、可預測性(Forecastability)。三個維度各分高低,組合出 23 = 8 類 TSF Regime。


然后在這 8 個格子里做近乎均衡的采樣,最終得到 1,290 條測試序列,每類占比 10.5%–13.2%。對比 GIFT-Eval 和 Timer 動輒 50%–65% 集中在單一 regime 的情況,QuitoBench 的均衡程度是質的飛躍。


這種設計的好處很直觀:模型不能再靠"刷主流題型"上分了。aggregate metric 反映的是真實的全場景能力,而不是對某一類數據的過擬合。同時,研究者可以按 regime 做細粒度診斷——你的模型到底是在哪類序列上翻車的,一目了然。

232,200 個評測實例,10 個模型,四個意外發現

作者在 QuitoBench 上評測了 10 個代表性模型,橫跨深度學習(CrossFormer、DLinear、iTransformer、PatchTST、TSMixer)、foundation model(Chronos-2、TimesFM-2.5、TiRex)和統計基線(Exponential Smoothing、Seasonal Naive)三大類。

實驗覆蓋 3 種 context length × 3 種 forecast horizon × 2 種預測模式 = 18 種任務配置,在 1,290 條序列上共產生232,200 個評測實例。每個模型需要生成約 1600 萬次預測——這個評測密度,在時序領域相當罕見。


結果揭示了幾個頗具實踐意義的發現。

發現一:Context length 是模型選型的分水嶺。當歷史窗口較短(L=96)時,深度學習模型全面領先;但當窗口拉長到 L≥576,foundation model 開始反超,到 L=1024 時優勢進一步擴大。這說明,模型選型不能只看"誰的指標最好",還要看你的業務場景能提供多長的歷史數據。歷史短,用小模型;歷史長,foundation model 的預訓練知識才能真正發揮出來。

發現二:可預測性,才是決定難度的關鍵。在 Trend、Seasonality、Forecastability 三個維度中,Forecastability 對預測誤差的影響最大。高可預測性序列的平均 MAE 為 0.278,低可預測性序列為 0.505,差距 1.81 倍。最容易和最困難的 regime 之間,誤差差距更是達到 3.64 倍。這也從數據層面驗證了 QuitoBench"按統計特征分類"的設計邏輯——行業標簽做不到的事,TSF Regime 做到了。

發現三:1M 參數的小模型,打贏了 200M 的大模型。總榜第一名是 CrossFormer,參數量約 1M。而它擊敗的對手包括 Chronos-2(~100M)和 TimesFM-2.5(~200M)。平均而言,深度學習模型在參數量少 59 倍的前提下,達到了接近甚至更好的效果。對于資源受限、推理成本敏感的工程場景,這是一個非常實際的結論:大不一定好,小而專可能更強。

發現四:加數據比加參數更有效。作者做了 scaling 實驗,分別沿"訓練數據量"和"模型參數量"兩條軸擴展。結論很明確:無論深度學習還是 foundation model,增加訓練數據帶來的收益都顯著大于增加模型參數。CrossFormer 的訓練數據從 10K 擴展到 100M token,MAE 下降了 66%;而參數量擴展到 1M 以上后,收益就開始趨于平臺期。對時序領域來說,這意味著:與其追求更大的模型,不如先把數據做好。

時間序列預測這個方向,模型論文一篇接一篇,但評測基礎設施的建設遠遠沒跟上。ETT、Weather 這些數據集在發布多年后仍是標配,不是因為它們足夠好,而是因為沒有更好的替代品。

QuitoBench 的價值不是"又多了一個數據集",而是提出了一種新的 benchmark 設計范式:大規模、長序列、分布均衡、無泄漏、工業真實場景——用時間序列的內在屬性來組織評測,而不是用行業標簽。這讓我們終于有了一套足夠嚴肅的工具,來回答"這個模型到底行不行"這個最基本的問題。


  1. https://hq-bench.github.io/quito/
  2. https://huggingface.co/datasets/hq-bench/quitobench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
爆大冷!西部第二轟然倒下:全場狂歡慶祝,約基奇力壓文班亞馬

爆大冷!西部第二轟然倒下:全場狂歡慶祝,約基奇力壓文班亞馬

體壇小李
2026-04-05 07:34:25
不打伊朗了?特朗普通告全球,戰爭費由22國承擔,朝鮮:不可容忍

不打伊朗了?特朗普通告全球,戰爭費由22國承擔,朝鮮:不可容忍

基斯默默
2026-04-04 10:20:03
張雪狠批哪吒汽車之死:五個億就為做個Logo!

張雪狠批哪吒汽車之死:五個億就為做個Logo!

新浪財經
2026-04-04 20:30:57
“西南第一高樓”又長高了,2028年見!

“西南第一高樓”又長高了,2028年見!

GA環球建筑
2026-04-05 00:00:07
“不是我的菜”!百億私募董事長深夜改口,小米爭議背后

“不是我的菜”!百億私募董事長深夜改口,小米爭議背后

穿透
2026-04-04 22:50:11
“7km的路要開40分鐘”,浙江車主傻眼!最新消息:多條高速大流量緩行,進口關閉

“7km的路要開40分鐘”,浙江車主傻眼!最新消息:多條高速大流量緩行,進口關閉

白淺娛樂聊
2026-04-04 19:08:10
上海市中心這幢樓,深陷群租困局!“樓道垃圾堆成山,半夜噪聲震得墻壁都在抖”,物業稱管不了,相關部門回應

上海市中心這幢樓,深陷群租困局!“樓道垃圾堆成山,半夜噪聲震得墻壁都在抖”,物業稱管不了,相關部門回應

新民晚報
2026-04-04 09:55:17
黑鷹墜落,特朗普又贏了

黑鷹墜落,特朗普又贏了

無忌財談
2026-04-04 11:52:38
中國夫妻“干婚”現象悄然蔓延:無性無愛,無法離婚

中國夫妻“干婚”現象悄然蔓延:無性無愛,無法離婚

李月亮
2026-04-04 20:55:03
央視直播4月5日澳門單打世界杯,王曼昱對申裕斌,王楚欽戰雨果

央視直播4月5日澳門單打世界杯,王曼昱對申裕斌,王楚欽戰雨果

乒乓球球
2026-04-04 23:17:45
深夜爆發,猛烈拋售潮來襲!

深夜爆發,猛烈拋售潮來襲!

都市快報橙柿互動
2026-04-05 00:48:55
這是迄今為止,我見過最美的女人,不接受反駁

這是迄今為止,我見過最美的女人,不接受反駁

草莓解說體育
2026-04-03 15:08:02
作秀半生,標哥歸來仍是戲中人

作秀半生,標哥歸來仍是戲中人

迷世書童H9527
2026-04-03 21:50:47
美議員:公開外星人簡報將讓國家混亂,近兩年5名頂尖科學家失蹤或死亡恐與此有關

美議員:公開外星人簡報將讓國家混亂,近兩年5名頂尖科學家失蹤或死亡恐與此有關

紅星新聞
2026-04-04 19:31:34
王詩齡母女韶山獻花,李湘大變樣瘦了20斤,與女兒關系變冷無互動

王詩齡母女韶山獻花,李湘大變樣瘦了20斤,與女兒關系變冷無互動

一盅情懷
2026-04-04 19:27:15
掘金官方力挺MVP!約基奇40+13+8+0失誤完壓文班 休媒:當世最強

掘金官方力挺MVP!約基奇40+13+8+0失誤完壓文班 休媒:當世最強

顏小白的籃球夢
2026-04-05 07:37:34
一輩子關系最好的兩種人:小時候光腚一起玩,長大后光腚一起玩

一輩子關系最好的兩種人:小時候光腚一起玩,長大后光腚一起玩

青蘋果sht
2026-04-04 06:26:30
深圳某小區房價暴漲,半年漲了一千多萬!

深圳某小區房價暴漲,半年漲了一千多萬!

黯泉
2026-04-04 22:35:30
美軍為何大白天冒險深入伊朗腹地救大兵?若其被俘或直接改變戰事結局

美軍為何大白天冒險深入伊朗腹地救大兵?若其被俘或直接改變戰事結局

紅星新聞
2026-04-04 13:29:21
慌了!部分央國企校招,已經開始卡學歷卡出身了!

慌了!部分央國企校招,已經開始卡學歷卡出身了!

金哥說新能源車
2026-04-05 03:56:46
2026-04-05 07:52:49
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7667文章數 34522關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

爆火雞煲店老板喊話網友"別來了" 連"少東家"也被召回

頭條要聞

爆火雞煲店老板喊話網友"別來了" 連"少東家"也被召回

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

游戲
家居
時尚
藝術
本地

好玩還上頭!創新與傳統并存的戰棋黑馬《永鈴回響》值不值得玩?

家居要聞

溫馨多元 愛的具象化

別再穿大一碼了!遮肉根本不是靠寬松

藝術要聞

周恩來唯一草書題碑,8個字快一半都不認識!

本地新聞

跟著歌聲游安徽,聽古村回響

無障礙瀏覽 進入關懷版