337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

表格建模也能Scaling?樹模型的時代要改變了

0
分享至



一張 H100 相當(dāng)于多少個 Hadoop 實例?

讓我們先從一個有趣的問題開始:站在 2026 年的當(dāng)下,一張 H100 GPU 的單卡算力(FP16)大約相當(dāng)于多少個 Hadoop 實例?

答案是:約 200 個( 單卡 H100 vs 一臺 96 核 CPU 實例)。

這個數(shù)字背后隱藏著一個值得深思的現(xiàn)象:過去幾年中,AI 的快速發(fā)展極大推動了算力的指數(shù)級增長。然而在結(jié)構(gòu)化數(shù)據(jù)建模這一領(lǐng)域,行業(yè)主流方法仍然是以樹模型為核心的垂直場景化解決方案。

這就形成了一個有趣的 "反差":一邊是各大科技公司和大量初創(chuàng)企業(yè)正通過不斷升級的大語言模型推動 AI 生產(chǎn)力的躍遷,另一邊是在金融、醫(yī)療、電商、物流、工業(yè)制造等高價值行業(yè)中,真正承載智能化任務(wù)的,仍主要是以 XGBoost、隨機森林為代表的樹模型。這種反差讓我們不得不開始思考:當(dāng)算力革命發(fā)生時,結(jié)構(gòu)化數(shù)據(jù)建模的 "平衡點" 是否也該被重新定義?

"苦澀的教訓(xùn)" 與結(jié)構(gòu)化數(shù)據(jù)的困境

從更宏觀的角度看,大模型研發(fā)所遵循的核心思想,可以追溯到 Richard Sutton 提出的 “苦澀的教訓(xùn)”(The Bitter Lesson):在 AI 的長期發(fā)展中,那些能夠隨著計算規(guī)模持續(xù)擴展的通用學(xué)習(xí)方法,往往最終會超越依賴人類直覺與領(lǐng)域知識精心設(shè)計的系統(tǒng)。

大語言模型的成功正是這一規(guī)律的典型體現(xiàn) —— 通過統(tǒng)一架構(gòu)與大規(guī)模數(shù)據(jù)訓(xùn)練,LLM 在 NLP 領(lǐng)域?qū)崿F(xiàn)了跨任務(wù)、跨場景的能力遷移。然而,當(dāng)企業(yè)在實際業(yè)務(wù)中解決監(jiān)督學(xué)習(xí)問題時,情況卻呈現(xiàn)出明顯反差。即使在嘗試引入深度學(xué)習(xí)時,也往往需要依賴復(fù)雜的數(shù)據(jù)流水線、特定架構(gòu)設(shè)計以及大量領(lǐng)域知識的引入。這相當(dāng)于用 "手工作坊" 的方式,去應(yīng)對 "工業(yè)化生產(chǎn)" 的需求。于是出現(xiàn)了一個頗為有趣的現(xiàn)象:一方面,各大科技公司和大量初創(chuàng)企業(yè)正通過不斷擴大的大語言模型推動 AI 生產(chǎn)力的躍遷;另一方面,在金融、醫(yī)療、電商、物流、工業(yè)制造、農(nóng)業(yè)等高價值行業(yè)的重要社會經(jīng)濟領(lǐng)域中,真正承載智能化場景任務(wù)的,仍主要是以 XGBoost、隨機森林為代表的基于樹的表格分類模型或垂域深度學(xué)習(xí)分類模型,這進一步激發(fā)了我們探索結(jié)構(gòu)化數(shù)據(jù)模型 scaling 上限的興趣。

回顧歷史,XGBoost 在 2014 年被廣泛視為機器學(xué)習(xí)領(lǐng)域中算力、算法與數(shù)據(jù)三要素之間的一個 “平衡點”。但十二年后的今天,隨著 GPU 算力的快速迭代并帶來數(shù)量級提升,這一平衡點是否已經(jīng)發(fā)生改變?結(jié)構(gòu)化數(shù)據(jù)建模是否也可能像 NLP 和 CV 一樣,通過新的計算范式實現(xiàn)突破?回到開篇的問題:當(dāng)單張 H100 與一臺 96 核 CPU 服務(wù)器之間已經(jīng)存在約 200 倍的 FP16 算力差距時,一個自然的想法是 —— 是否可以將 GPU 的大規(guī)模并行算力真正引入結(jié)構(gòu)化數(shù)據(jù)建模,并通過預(yù)訓(xùn)練范式重新平衡算力、數(shù)據(jù)與算法這三大核心要素。

千億級樣本預(yù)訓(xùn)練實踐

本文將重點介紹浙大 X 螞蟻 AIforData 團隊的探索:基于螞蟻集團海量的異構(gòu)結(jié)構(gòu)化數(shù)據(jù)以及豐富的下游業(yè)務(wù)場景,實現(xiàn)了千卡 GPU 集群下百億級樣本規(guī)模的結(jié)構(gòu)化數(shù)據(jù)預(yù)訓(xùn)練,并系統(tǒng)評估了預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn),實驗結(jié)果表明:

1. 在工業(yè)級表格數(shù)據(jù)集上,預(yù)訓(xùn)練模型的性能可以穩(wěn)定且顯著地超越傳統(tǒng)樹模型

2. 表格數(shù)據(jù)預(yù)訓(xùn)練模型呈現(xiàn)出明顯的 scaling law

3. 行為序列預(yù)訓(xùn)練模型同樣表現(xiàn)出良好的 scaling law

工作 1: 表格數(shù)據(jù)預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2602.22777

KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互聯(lián)網(wǎng)超大規(guī)模表格數(shù)據(jù)的混合深度學(xué)習(xí)架構(gòu)(中稿 The Web Conference 2026)。面對工業(yè)場景中數(shù)十億樣本、數(shù)千異構(gòu)特征的建模挑戰(zhàn),KMLP 創(chuàng)新性地將淺層 KAN 作為前端特征工程構(gòu)造器,結(jié)合 gMLP 主干網(wǎng)絡(luò)捕獲高階交互,實現(xiàn)了端到端的自動化特征表示學(xué)習(xí)。



在包含 20 億樣本的真實信貸評分?jǐn)?shù)據(jù)集上,KMLP 展現(xiàn)出顯著的規(guī)模優(yōu)勢:隨著數(shù)據(jù)量級提升,其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴大。這一發(fā)現(xiàn)驗證了 KMLP 作為可擴展深度學(xué)習(xí)范式的潛力,為大規(guī)模動態(tài)互聯(lián)網(wǎng)表格數(shù)據(jù)建模提供了新路徑。



KMLP 的核心價值在于解決了傳統(tǒng)方法的雙重瓶頸:一方面克服了 GBDT 在超大規(guī)模數(shù)據(jù)集上分布式計算效率問題,另一方面通過可學(xué)習(xí)激活函數(shù)擺脫了對人工特征工程的依賴,實現(xiàn)了特征異構(gòu)性與交互建模的統(tǒng)一。其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴大;解決了 GBDT 分布式計算效率問題和人工特征工程依賴。

工作 2: 行為序列預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2412.12468

用戶行為時序數(shù)據(jù),作為刻畫用戶的關(guān)鍵結(jié)構(gòu)化數(shù)據(jù)之一,對于用戶理解與建模起著重要作用。在用戶建模時如何利用以及如何利用好更多的用戶行為序列數(shù)據(jù),是一個重要的研究課題。

FOUND:時序數(shù)據(jù)的語義級應(yīng)用

FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 團隊發(fā)布在 The Web Conference 2025(WebConf 25)中的工作,面向互聯(lián)網(wǎng)平臺中多種來源的序列數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),構(gòu)建了工業(yè)級、具有預(yù)測性的用戶表征框架。

當(dāng)前許多用戶理解方法面臨兩大顯著挑戰(zhàn):(i) 跨領(lǐng)域和跨場景的可遷移性及泛化能力較弱 (ii) 在實際應(yīng)用中的預(yù)測能力不足。為了增強跨領(lǐng)域遷移能力,F(xiàn)OUND 框架整合了多場景用戶數(shù)據(jù),并在用戶建模時創(chuàng)新性地通過對比學(xué)習(xí)預(yù)訓(xùn)練將其與根據(jù)序列語義整理得到的文本進行對齊。為了提高預(yù)測性,每個用戶的文本描述基于用戶未來的行為推導(dǎo)得出,而用戶表征則由歷史信息構(gòu)建而成,使用過去 - 未來語義對齊的方式構(gòu)造訓(xùn)練樣本對。

由該框架產(chǎn)出的用戶表征在真實場景 benchmark 和業(yè)務(wù)上均獲得了增益。同時引入自然語言監(jiān)督的方式也使得模型天然支持人群圈選這一用戶理解任務(wù),該預(yù)訓(xùn)練框架支持的圈人能力在下游取得了大量收益,支持超過 50 個業(yè)務(wù)場景。



序列數(shù)據(jù)的 Scaling Law

在有了上述預(yù)訓(xùn)練框架后,我們思考如何將綜合互聯(lián)網(wǎng)平臺中更多更長的用戶行為序列引入到模型中來。針對多種來源的序列數(shù)據(jù),各自設(shè)計編碼器會存在訓(xùn)練成本過高、表達空間不統(tǒng)一等缺陷,同時如何發(fā)揮更多輸入序列數(shù)據(jù)的最大性能也是一個問題,即需要探索輸入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶頸。

在實驗探索過程中我們發(fā)現(xiàn),輸入序列長度 / 用戶數(shù)目在數(shù)量級較少時,性能隨著天數(shù) / 用戶數(shù)目(指數(shù))近似線性提升,Scaling 現(xiàn)象明顯;但在輸入序列增長、用戶數(shù)目增加時增長緩慢,出現(xiàn) Scaling 瓶頸。為解決該問題,除了增加參數(shù)這種模型層面的 Scaling,提升輸入用戶數(shù)據(jù)的信息密度,即對用戶信息進行壓縮,不失為一種節(jié)約成本且輕量的方案。在使用 RQ-VAE 方案進行用戶序列數(shù)據(jù)壓縮后,我們觀測到出現(xiàn)數(shù)據(jù)增長瓶頸得到延緩,說明了壓縮帶來突破瓶頸的 Densing Law 現(xiàn)象。

核心結(jié)論:在輸入序列長度 / 用戶數(shù)目在數(shù)量較少時性能隨著天數(shù)指數(shù)的 Scaling 現(xiàn)象明顯,輸入序列長度和用戶數(shù)目增加至較大量級時出現(xiàn) Scaling 瓶頸,而壓縮數(shù)據(jù)可以通過提升信息密度帶來突破瓶頸的 Densing Law 現(xiàn)象。





基于以上原始和壓縮輸入的 Scaling Law,我們設(shè)計了基于統(tǒng)一用戶量化壓縮的用戶理解方案,將用戶的多源序列等數(shù)據(jù)使用設(shè)計的 MRQ-VAE 方案壓縮成語義 token ID 提升信息密度,并在此基礎(chǔ)之上 Scaling 得到了更佳性能的用戶模型。產(chǎn)出的通用用戶表征在 80% 以上真實場景 benchmark 中相比之前原始數(shù)據(jù)輸入版本均有提升,并在數(shù)字金融、支付安全、營銷推薦、廣告等業(yè)務(wù)中全面應(yīng)用。

總結(jié)與展望

回到開篇的問題:當(dāng)算力已經(jīng)發(fā)生數(shù)量級變化時,結(jié)構(gòu)化數(shù)據(jù)建模的范式是否也該隨之改變?

螞蟻 x 浙大 AIforData 團隊的探索給出了肯定的答案。Scaling Law 正在從 NLP、CV 延伸到結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域—— 這或許意味著,那個依賴人工特征工程和場景化調(diào)參的時代,真的要過去了。

"當(dāng)算力天平已經(jīng)傾斜,平衡點也該重新定義。"

未來,隨著算力的持續(xù)增長和預(yù)訓(xùn)練范式的成熟,我們有理由相信:結(jié)構(gòu)化數(shù)據(jù)建模將迎來屬于自己的 "大模型時刻"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

王二哥老搞笑
2026-04-17 17:08:23
美又一核動力航母失火,8名船員受傷

美又一核動力航母失火,8名船員受傷

界面新聞
2026-04-17 13:50:08
山東省紀(jì)委監(jiān)委網(wǎng)站通報:2人被查

山東省紀(jì)委監(jiān)委網(wǎng)站通報:2人被查

齊魯壹點
2026-04-17 16:07:06
美國證實!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

美國證實!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

每日經(jīng)濟新聞
2026-04-16 23:06:57
張澤群:2026年4月17號重返央視,參加退休儀式并正式領(lǐng)到退休證

張澤群:2026年4月17號重返央視,參加退休儀式并正式領(lǐng)到退休證

曉今娛
2026-04-18 00:05:09
普京敲定訪華,特朗普緊急下命令,中國通告全球:無懼美國威脅

普京敲定訪華,特朗普緊急下命令,中國通告全球:無懼美國威脅

阿腩講娛樂
2026-04-18 13:07:32
給《八千里路云和月》的演員演技排個名:于和偉僅第三,王陽第五

給《八千里路云和月》的演員演技排個名:于和偉僅第三,王陽第五

八斗小先生
2026-04-18 14:02:57
長江口大變樣!未來幾十年,上海這幾座島或?qū)⑦B成一片

長江口大變樣!未來幾十年,上海這幾座島或?qū)⑦B成一片

阿芒娛樂說
2026-04-18 12:33:37
曝曼聯(lián)下周會晤納格爾斯曼!卡里克轉(zhuǎn)正兩條件揭秘,只進歐冠不夠

曝曼聯(lián)下周會晤納格爾斯曼!卡里克轉(zhuǎn)正兩條件揭秘,只進歐冠不夠

羅米的曼聯(lián)博客
2026-04-18 10:03:00
男性長期禁欲,精子只產(chǎn)不排,最后會怎樣?醫(yī)生:或有4大后果

男性長期禁欲,精子只產(chǎn)不排,最后會怎樣?醫(yī)生:或有4大后果

健康之光
2026-03-06 13:11:59
全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

老骾體育解說
2026-04-15 21:21:31
湖人給詹姆斯報價,對手是空氣

湖人給詹姆斯報價,對手是空氣

競技風(fēng)云錄
2026-04-17 08:28:58
柯文哲赴臺中逢甲夜市掃街被噴辣椒水,黃國昌呼吁停止仇恨暴力

柯文哲赴臺中逢甲夜市掃街被噴辣椒水,黃國昌呼吁停止仇恨暴力

海峽導(dǎo)報社
2026-04-18 10:00:07
旅行后,你對哪個城市祛魅了?網(wǎng)友:異域風(fēng)情哈爾濱

旅行后,你對哪個城市祛魅了?網(wǎng)友:異域風(fēng)情哈爾濱

夜深愛雜談
2026-04-17 17:29:36
最新好感度排名蔣萬安大幅領(lǐng)先,臺名嘴:賴清德最該擔(dān)心的就是他

最新好感度排名蔣萬安大幅領(lǐng)先,臺名嘴:賴清德最該擔(dān)心的就是他

海峽導(dǎo)報社
2026-04-17 10:12:08
許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

娛樂團長
2026-04-16 20:26:02
特朗普:若到22日都無法與伊朗達成協(xié)議 或?qū)⒉粫娱L停火

特朗普:若到22日都無法與伊朗達成協(xié)議 或?qū)⒉粫娱L停火

大象新聞
2026-04-18 13:43:20
剛剛,美國延長對俄羅斯石油制裁豁免至5月16日

剛剛,美國延長對俄羅斯石油制裁豁免至5月16日

山河路口
2026-04-18 12:20:23
重慶兩江新區(qū)區(qū)委書記羅藺任上被查,上周還公開露面

重慶兩江新區(qū)區(qū)委書記羅藺任上被查,上周還公開露面

界面新聞
2026-04-17 18:43:19
一夜變天!伊朗宣布開放海峽,同意交出濃縮鈾,中東發(fā)生了什么?

一夜變天!伊朗宣布開放海峽,同意交出濃縮鈾,中東發(fā)生了什么?

曉岇就是我
2026-04-18 10:26:52
2026-04-18 14:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細(xì)節(jié)信息量很大

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細(xì)節(jié)信息量很大

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達的女王2》疑似辱華?

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
公開課
軍事航空

房產(chǎn)要聞

官宣簽約最強城更!??跇鞘?,突然殺入神秘房企!

親子要聞

寶媽在星巴克溜娃沒消費,娃惹到顧客被投訴店員小哥無奈送小蛋糕

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護衛(wèi)艦與外艦纏斗20小時 細(xì)節(jié)披露

無障礙瀏覽 進入關(guān)懷版