337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

1.6B token,1290條均衡序列:螞蟻開源QuitoBench,輔助AI精確洞察未來

0
分享至

你可能沒有意識到,但時間序列預測早已滲透到日常生活的方方面面。

打開手機看天氣預報,背后是氣象序列的預測;雙十一零點搶購不卡頓,靠的是提前預測流量峰值來做服務器擴容;基金 App 里的收益走勢圖,背后也離不開金融時間序列的建模。簡單來說,時間序列預測就是讓機器根據過去的數據,判斷接下來會發生什么。從能源調度到風險預警,幾乎所有需要"提前做準備"的場景都離不開它,是 AI 落地最廣、最剛需的能力之一。

近些年,時序預測的模型從 MLP 和 Transformer 兩大架構的龍爭虎斗,到 Chronos、TimesFM、TiRex 等時序大模型的異軍突起,各類深度學習模型架構與基模不斷涌現。

模型越來越多,但一個尷尬的問題也隨之浮出水面:我們到底該怎么判斷,哪個模型真的更強?

做過時序預測的人大概都有過類似的經歷。你在 ETT、Weather、Traffic 這些經典數據集上跑出了不錯的數字,信心滿滿地準備上線。結果一換到自己的業務數據,指標大幅跳水。你以為是代碼的問題,排查一圈之后發現——代碼沒問題,問題出在評測本身。

這不是個例,而是整個時序預測領域長期面對的一個系統性困境。

考卷出了問題,分數還能信嗎?

如果把模型評測比作考試,那現在時間序列領域的這張"考卷",至少有四個不及格的地方。

第一,沒有統一的考卷。NLP 有 GLUE,視覺有 ImageNet,但時間序列預測至今沒有一個被廣泛認可的標準評測基準。研究者各自拼湊一組數據集跑實驗,結果難以橫向比較。

第二,考卷嚴重偏科。現有 benchmark 的數據分布高度集中。論文分析了兩個當前主流的大規模 benchmark:GIFT-Eval 有 50.7% 的序列落在同一類 regime 里,Timer 更甚,達到 65.8%。這意味著什么?模型只要在這一類"主流題型"上表現好,總分就不會差——但這不代表它真正全面。就像一張數學試卷 70% 都是計算題,你很難從總分看出誰的幾何更好。

第三,考生可能提前看過答案。當前很多時序 foundation model 的預訓練語料規模龐大,而公開 benchmark 被反復復用多年。測試集是否已經被模型在預訓練階段間接"見過"?這種數據泄漏風險,正在悄悄侵蝕評測的可信度。

第四,題目太簡單,區分不出真實水平。很多經典數據集的序列長度偏短,GIFT-Eval 中 50% 的序列不到 200 個時間步。這對于今天動輒要做 long-context forecasting 的模型來說,根本評不出真正的能力上限。

這些問題疊加在一起,造成了一個后果:排行榜上的名次,未必反映模型的真實能力。論文刷出來的 SOTA,換個場景可能就不 work 了。

現在,螞蟻集團正式開源 Quito 與 QuitoBench,嘗試重新出一張更公平的考卷。


項目地址:
● Website:https://hq-bench.github.io/quito/[1]
● Hugging Face:https://huggingface.co/datasets/hq-bench/quitobench[2]

16 億 token 的工業級語料,不只是"更大"

這次開源包含兩個核心部分。

第一個是Quito,一個來自真實生產環境的大規模時間序列語料庫。數據來源于 Alipay 平臺的應用流量,覆蓋金融、電商、廣告、基礎設施、風控、IoT 等 9 個業務垂類——不是實驗室里仿造的數據,而是每天真正在跑的生產系統。

規模上,Quito 包含兩個子集:Quito-Min(22,522 條序列,10 分鐘粒度,約 7 億 token)和 Quito-Hour(12,544 條序列,1 小時粒度,約 10 億 token),總規模達到1.6B tokens。序列統一較長,最短也有 5,904 個時間步,足以支撐 context length 從 96 到 1024 的全范圍評測。


更關鍵的是數據來源的"干凈"。Quito 來自單一專有工業環境,與任何公開預訓練語料零重疊。這從根源上杜絕了數據泄漏的可能——無論模型的預訓練語料有多大,都不可能在訓練階段"見過"這些測試數據。

不按行業分,按"難不難預測"分

第二個核心部分是QuitoBench,從 Quito 中進一步構建的評測基準。它最大的創新不在于規模,而在于組織方式。

傳統 benchmark 按應用領域分組:交通、電力、天氣。但領域標簽其實是個很粗糙的分類方式。同樣是交通數據,有的序列周期性極強,幾乎可以"閉眼預測";有的則充滿突發脈沖和噪聲,任何模型都會掙扎。把它們扔進同一個"交通"桶里評測,掩蓋的信息遠比暴露的多。

QuitoBench 換了一個思路:按時間序列本身的統計特征來分類。具體來說,每條序列沿三個維度打標簽——趨勢強度(Trend)、季節性強度(Seasonality)、可預測性(Forecastability)。三個維度各分高低,組合出 23 = 8 類 TSF Regime。


然后在這 8 個格子里做近乎均衡的采樣,最終得到 1,290 條測試序列,每類占比 10.5%–13.2%。對比 GIFT-Eval 和 Timer 動輒 50%–65% 集中在單一 regime 的情況,QuitoBench 的均衡程度是質的飛躍。


這種設計的好處很直觀:模型不能再靠"刷主流題型"上分了。aggregate metric 反映的是真實的全場景能力,而不是對某一類數據的過擬合。同時,研究者可以按 regime 做細粒度診斷——你的模型到底是在哪類序列上翻車的,一目了然。

232,200 個評測實例,10 個模型,四個意外發現

作者在 QuitoBench 上評測了 10 個代表性模型,橫跨深度學習(CrossFormer、DLinear、iTransformer、PatchTST、TSMixer)、foundation model(Chronos-2、TimesFM-2.5、TiRex)和統計基線(Exponential Smoothing、Seasonal Naive)三大類。

實驗覆蓋 3 種 context length × 3 種 forecast horizon × 2 種預測模式 = 18 種任務配置,在 1,290 條序列上共產生232,200 個評測實例。每個模型需要生成約 1600 萬次預測——這個評測密度,在時序領域相當罕見。


結果揭示了幾個頗具實踐意義的發現。

發現一:Context length 是模型選型的分水嶺。當歷史窗口較短(L=96)時,深度學習模型全面領先;但當窗口拉長到 L≥576,foundation model 開始反超,到 L=1024 時優勢進一步擴大。這說明,模型選型不能只看"誰的指標最好",還要看你的業務場景能提供多長的歷史數據。歷史短,用小模型;歷史長,foundation model 的預訓練知識才能真正發揮出來。

發現二:可預測性,才是決定難度的關鍵。在 Trend、Seasonality、Forecastability 三個維度中,Forecastability 對預測誤差的影響最大。高可預測性序列的平均 MAE 為 0.278,低可預測性序列為 0.505,差距 1.81 倍。最容易和最困難的 regime 之間,誤差差距更是達到 3.64 倍。這也從數據層面驗證了 QuitoBench"按統計特征分類"的設計邏輯——行業標簽做不到的事,TSF Regime 做到了。

發現三:1M 參數的小模型,打贏了 200M 的大模型。總榜第一名是 CrossFormer,參數量約 1M。而它擊敗的對手包括 Chronos-2(~100M)和 TimesFM-2.5(~200M)。平均而言,深度學習模型在參數量少 59 倍的前提下,達到了接近甚至更好的效果。對于資源受限、推理成本敏感的工程場景,這是一個非常實際的結論:大不一定好,小而專可能更強。

發現四:加數據比加參數更有效。作者做了 scaling 實驗,分別沿"訓練數據量"和"模型參數量"兩條軸擴展。結論很明確:無論深度學習還是 foundation model,增加訓練數據帶來的收益都顯著大于增加模型參數。CrossFormer 的訓練數據從 10K 擴展到 100M token,MAE 下降了 66%;而參數量擴展到 1M 以上后,收益就開始趨于平臺期。對時序領域來說,這意味著:與其追求更大的模型,不如先把數據做好。

時間序列預測這個方向,模型論文一篇接一篇,但評測基礎設施的建設遠遠沒跟上。ETT、Weather 這些數據集在發布多年后仍是標配,不是因為它們足夠好,而是因為沒有更好的替代品。

QuitoBench 的價值不是"又多了一個數據集",而是提出了一種新的 benchmark 設計范式:大規模、長序列、分布均衡、無泄漏、工業真實場景——用時間序列的內在屬性來組織評測,而不是用行業標簽。這讓我們終于有了一套足夠嚴肅的工具,來回答"這個模型到底行不行"這個最基本的問題。


  1. https://hq-bench.github.io/quito/
  2. https://huggingface.co/datasets/hq-bench/quitobench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姚來英任國家煙草專賣局局長(附簡歷)

姚來英任國家煙草專賣局局長(附簡歷)

中國城市報
2026-04-03 23:27:43
輕松打爆快船的防線!馬刺榜眼郎已經是一名相當可靠的第六人了?

輕松打爆快船的防線!馬刺榜眼郎已經是一名相當可靠的第六人了?

稻谷與小麥
2026-04-04 01:44:46
春天,吃它勝過“十只雞”,一補蛋白、二強免疫、三補氣血,好吃

春天,吃它勝過“十只雞”,一補蛋白、二強免疫、三補氣血,好吃

阿龍美食記
2026-04-03 11:53:16
真的要變天了…

真的要變天了…

子說一點
2026-04-03 18:15:23
伊朗宣布再次擊落F-35戰斗機,并公布戰機碎片照片!“這是我們對美國總統特朗普胡言亂語的首次回應”,美軍又一部“薩德”被擊中

伊朗宣布再次擊落F-35戰斗機,并公布戰機碎片照片!“這是我們對美國總統特朗普胡言亂語的首次回應”,美軍又一部“薩德”被擊中

每日經濟新聞
2026-04-03 17:22:33
現役第一!哈登生涯17季全部晉級季后賽 僅輸鄧肯猶他二老

現役第一!哈登生涯17季全部晉級季后賽 僅輸鄧肯猶他二老

醉臥浮生
2026-04-03 12:31:24
天文學家拍到了時空彎曲,距離地球120億光年,愛因斯坦又對了!

天文學家拍到了時空彎曲,距離地球120億光年,愛因斯坦又對了!

觀察宇宙
2026-04-03 17:38:27
閃充還沒“滿月”,比亞迪又整了個大活!冷門車,這下要爛大街了

閃充還沒“滿月”,比亞迪又整了個大活!冷門車,這下要爛大街了

小李車評李建紅
2026-04-03 07:56:18
獨家評論:直接點名硬剛賴清德,鄭麗文四句話拆穿“臺獨”話術

獨家評論:直接點名硬剛賴清德,鄭麗文四句話拆穿“臺獨”話術

海峽導報社
2026-04-02 23:17:16
NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

懂球帝
2026-04-04 01:28:14
央視直播4月4日澳門單打世界杯, 孫穎莎對高達,王楚欽戰達科

央視直播4月4日澳門單打世界杯, 孫穎莎對高達,王楚欽戰達科

乒乓球球
2026-04-03 23:46:35
乘聯會:3月全國乘用車新能源市場零售78.4萬輛,同比去年3月下降21%,較上月增長69%

乘聯會:3月全國乘用車新能源市場零售78.4萬輛,同比去年3月下降21%,較上月增長69%

每日經濟新聞
2026-04-03 16:34:37
亞歷山大28+7+7無緣今日最佳球員!因為哈登19+2+5殺死比賽創紀錄

亞歷山大28+7+7無緣今日最佳球員!因為哈登19+2+5殺死比賽創紀錄

Tracy的籃球博物館
2026-04-03 13:04:31
自愿?無奈?古力娜扎“空裝”上陣為了啥?

自愿?無奈?古力娜扎“空裝”上陣為了啥?

楓塵余往逝
2026-04-02 15:48:02
中美印全球卷煙銷量差距斷崖:美1780億支,印940億支,中國多少

中美印全球卷煙銷量差距斷崖:美1780億支,印940億支,中國多少

米果說識
2026-04-02 19:51:58
伊朗稱發動“真實承諾-4”第92波打擊

伊朗稱發動“真實承諾-4”第92波打擊

環球網資訊
2026-04-03 19:07:06
醫生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

醫生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

熊貓醫學社
2026-04-03 11:35:03
皇馬逃過一劫!阿隆索力薦的 7000 萬水貨,在英超徹底現原形

皇馬逃過一劫!阿隆索力薦的 7000 萬水貨,在英超徹底現原形

瀾歸序
2026-04-03 04:06:56
受刺激了,一伙計2天干了430個W。

受刺激了,一伙計2天干了430個W。

觀世不語笑紅塵
2026-03-28 11:18:50
日媒:闖使館事件日本政客狡辯“中方沒要求道歉,所以不用道歉”

日媒:闖使館事件日本政客狡辯“中方沒要求道歉,所以不用道歉”

赫岝鄉村攝影
2026-04-04 00:43:57
2026-04-04 02:11:00
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7667文章數 34520關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

特朗普非常生氣要大清洗 陸軍部長、FBI局長等或被調整

頭條要聞

特朗普非常生氣要大清洗 陸軍部長、FBI局長等或被調整

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

本地
房產
家居
教育
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

家居要聞

溫馨多元 愛的具象化

教育要聞

3000師生徒步108里祭英烈,網友吵翻“沒苦硬吃”?老校長回應

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版