![]()
導(dǎo)語
2024年發(fā)布的KAN的核心創(chuàng)新在于將MLP的“節(jié)點激活”變?yōu)椤斑吋せ睢保每蓪W(xué)習(xí)的B樣條函數(shù)替代固定激活函數(shù),使網(wǎng)絡(luò)天然具備函數(shù)分解能力。之后原班人馬推出的KAN2.0 引入乘法節(jié)點和樹轉(zhuǎn)換器,從而支持先驗知識引入,及通過結(jié)構(gòu)展示變量間的組合邏輯。
關(guān)鍵詞:KAN ,可解釋性,模塊識別,符號推理
郭瑞東丨作者
趙思怡丨審校
![]()
論文題目:Kolmogorov-Arnold Networks Meet Science 論文鏈接:https://journals.aps.org/prx/abstract/10.1103/4t7t-v19l 發(fā)表時間:2025年12月17日 發(fā)表期刊:Physical Review X
KAN2.0如何整合先驗科學(xué)知識
KAN 2.0框架的核心是“雙向協(xié)同”(bidirectional synergy),即科學(xué)知識注入網(wǎng)絡(luò),網(wǎng)絡(luò)洞察反哺科學(xué)(圖1)。而使這成可能的,是在KAN中引入乘法節(jié)點,從而形成的MultKAN,該結(jié)構(gòu)天然支持乘積運算。
![]()
圖1:KAN和科學(xué)發(fā)現(xiàn)的關(guān)系
根據(jù)Kolmogorov-Arnold定理,理論上僅需加法與單變量函數(shù)即可逼近任意多元連續(xù)函數(shù),乘法可被隱式編碼。但這種“用加法模擬乘法”的路徑在拓?fù)渖蠠o法直接體現(xiàn)乘的語義。
圖2左上的標(biāo)準(zhǔn)KAN中節(jié)點代表求和操作,邊承載可學(xué)習(xí)的單變量函數(shù),右上的MultKAN在標(biāo)準(zhǔn)KAN層之間插入顯式的乘法層。該層包含兩類節(jié)點。加法節(jié)點與標(biāo)準(zhǔn)KAN一致直接復(fù)制前一層子節(jié)點的輸出,乘法節(jié)點:對前一層的 kk 個子節(jié)點執(zhí)行乘積運算。這一設(shè)計使網(wǎng)絡(luò)獲得原生乘法能力,無需通過復(fù)雜函數(shù)組合間接實現(xiàn)乘積。
![]()
圖2:MultKAN和原版KAN的對比
圖2下半部分對比原版KAN和MultKAN對乘法的表征差異,原版“用加法模擬乘法”的路徑在拓?fù)渖蠠o法直接體現(xiàn)乘積語義,且對噪聲敏感。MultKAN的學(xué)習(xí)結(jié)果中,網(wǎng)絡(luò)直接激活單個乘法節(jié)點,所有邊上的激活函數(shù)退化為線性函數(shù),表明無需額外非線性變換。這樣網(wǎng)絡(luò)拓?fù)浔旧砑幢磉_ x*y 的物理意義。
有了MultKAN,通過作者開源的kanpiler包,能將符號公式(如動能T=?mv2)直接編譯為KAN結(jié)構(gòu),使網(wǎng)絡(luò)從“物理正確”的初始狀態(tài)開始學(xué)習(xí),這相當(dāng)于為AI模型引入了先驗知識(圖3a)。圖3b展示了kanpiler在多個物理公式上的實戰(zhàn)能力,它使模型從“物理正確”的狀態(tài)開始學(xué)習(xí),而非在隨機初始化的參數(shù)空間中盲目搜索。
![]()
圖3:KAN2.0如何將科學(xué)知識整合到KAN中
KAN不止能基于已有的先驗公式,還能探索未知的變量間關(guān)系。具體來看,KAN 2.0采用兩種擴展策略(圖3c):
寬度擴展(expand_width):在指定層橫向增加新節(jié)點,并添加連接新舊節(jié)點的邊。
深度擴展(expand_depth):在網(wǎng)絡(luò)中插入新層,將原單步變換拆解為多步復(fù)合變換。
圖中以一個簡單KAN(2輸入→2中間→1輸出)為例,展示擴展后網(wǎng)絡(luò)如何從“精確但僵化”變?yōu)椤办`活可塑”。這一設(shè)計符合科學(xué)發(fā)現(xiàn)的官吏,先驗公式提供初始假設(shè),而擴展與微調(diào)允許網(wǎng)絡(luò)在數(shù)據(jù)驅(qū)動下修正或超越人類現(xiàn)有認(rèn)知。
利用KAN 2.0發(fā)現(xiàn)科學(xué)規(guī)律
更激動人心的是反向過程,KAN2.0支持從訓(xùn)練好的KAN中提取科學(xué)規(guī)律。具體分為三步:
識別哪些輸入變量真正影響輸出(如發(fā)現(xiàn)行星軌道僅由質(zhì)量與距離決定);
揭示變量如何組合成模塊(如能量守恒體現(xiàn)為動能與勢能的加和結(jié)構(gòu));
通過符號回歸將邊上的B樣條擬合為數(shù)學(xué)表達式(如sin(x)、exp(x))。
在圖4a中,對比了原版KAN與MultKAN對節(jié)點(變量)重要性的評估,原版KAN識別出的這些活躍信號可能被后續(xù)層“靜默”,從而對變量的重要性產(chǎn)生誤判。KAN 2.0的歸因評分采用反向傳播式計算,評分函數(shù)能正確識別出 x1路徑實際無貢獻,生成稀疏且物理一致的網(wǎng)絡(luò)圖,其中僅 x2 路徑被高亮,與方程的數(shù)學(xué)本質(zhì)完全吻合。
通過反向傳播式評分,量化每條路徑對輸出的邊際貢獻。這接近科學(xué)實驗中的“干預(yù)測試”:若移除某變量,輸出變化多大?歸因評分正是這種思想的計算實現(xiàn)。
![]()
圖4:KAN2.0如何通過歸因評分和剪枝確定關(guān)鍵變量
在真實科學(xué)問題中(如基因組學(xué)、氣候建模),輸入維度常達數(shù)百甚至上千,但僅少數(shù)變量與目標(biāo)相關(guān)。圖4b為包含所有100個變量的KAN與剪枝后得到包含對結(jié)果貢獻最大的5個變量的KAN。
KAN剪枝的過程,就是在做假設(shè)生成。當(dāng)KAN自動剔除95個變量后,科學(xué)家可聚焦于剩余5個變量構(gòu)建物理模型,加速“數(shù)據(jù)→理論”的轉(zhuǎn)化。
![]()
圖5:KAN2.0如何自動得到變量模塊
KAN 2.0進行科學(xué)發(fā)現(xiàn)的第二步是將關(guān)鍵變量模塊化。KAN 2.0采用的auto_swap的神經(jīng)元交換技術(shù),為訓(xùn)練完成的KAN網(wǎng)絡(luò)中的每層節(jié)點隨機分配二維坐標(biāo) (x,y),并定義總連接成本 ,之后迭代式的嘗試交換同層任意兩節(jié)點的坐標(biāo),若交換后總連接成本下降則接受,直至收斂(圖5上)。該過程不改變網(wǎng)絡(luò)功能,僅重排節(jié)點順序,卻使強連接的節(jié)點在空間上聚集,弱連接節(jié)點分離,形成肉眼可辨的模塊簇 。
對比當(dāng)前多層神經(jīng)網(wǎng)絡(luò)MLP中,由于采用固定激活函數(shù)(如ReLU)難以直接表達多數(shù)投票的非線性閾值特性,被迫用多層組合近似,導(dǎo)致功能模塊在參數(shù)空間中“彌散編碼” (圖5下)。
當(dāng)任務(wù)本身具有模塊結(jié)構(gòu)時,KAN的邊激活架構(gòu)會自然學(xué)習(xí)到稀疏連接模式,這意味著功能模塊化可自發(fā)誘導(dǎo)解剖模塊化,科學(xué)家能據(jù)此從數(shù)據(jù)中發(fā)現(xiàn)系統(tǒng)中存在獨立的子模塊。識別出的模塊可被剪枝或替換為符號公式,實現(xiàn)“神經(jīng)-符號”混合建模。層次化模塊結(jié)構(gòu)還可直接對應(yīng)物理系統(tǒng)的尺度分離(微觀→介觀→宏觀),為多尺度建模提供網(wǎng)絡(luò)拓?fù)湟罁?jù)。
在二維諧振子實驗中,KAN自動發(fā)現(xiàn)了三個守恒量:x方向能量、y方向能量與角動量。當(dāng)KAN的某條路徑僅連接x與p?時,暗示該守恒量僅與x方向運動相關(guān)。網(wǎng)絡(luò)拓?fù)涑闪宋锢韺ΨQ性的可視化映射。
![]()
圖6:KAN如何發(fā)現(xiàn)功能模塊,從而擬合公式
KAN 2.0不僅能擬合函數(shù),更能逐步學(xué)習(xí)函數(shù)內(nèi)在的層次化結(jié)構(gòu),從而發(fā)現(xiàn)對應(yīng)的數(shù)學(xué)公式。圖6a定義了功能模塊化的三級層次體系,每一級對應(yīng)特定的數(shù)學(xué)結(jié)構(gòu)與可計算檢測準(zhǔn)則。圖6b通過兩個合成函數(shù),可視化展示了樹轉(zhuǎn)換器(tree converter)如何將任意函數(shù)遞歸分解為層次化樹結(jié)構(gòu)。在之后的案例中,研究者用KAN 2.0在發(fā)現(xiàn)史瓦西黑洞隱藏對稱性時,用圖6的樹轉(zhuǎn)換器可識別出坐標(biāo)變換的層次結(jié)構(gòu)。
總結(jié)
Software 1.0的傳統(tǒng)編程,完全依賴先驗知識,代表“理性主義”(知識源于先驗推理),Software 2.0機器學(xué)習(xí)代表“經(jīng)驗主義”(知識源于數(shù)據(jù)歸納),完全依賴從數(shù)據(jù)中從頭挖掘(圖7a),前者對應(yīng)論語中的思而不學(xué)則怠,后者對應(yīng)學(xué)而不思則惘,。而KAN 2.0試圖融合二者,采用可學(xué)習(xí)的組件找出可推理的結(jié)構(gòu)。它犧牲部分可學(xué)習(xí)性(相比MLP需更多參數(shù)擬合同等函數(shù)),換取可解釋性的質(zhì)變(從“事后解釋”到“結(jié)構(gòu)即解釋”)。
![]()
圖7:KAN相比傳統(tǒng)程序和機器學(xué)習(xí)在可解釋性與可學(xué)習(xí)性上的擴展
圖7b以帕累托前沿,追問可解釋性是否隨規(guī)模增長而必然衰減? 只依賴KAN(厚紅線),規(guī)模較小時,網(wǎng)絡(luò)整體可讀。但隨規(guī)模增長,即使每條邊單獨可解釋,組合爆炸導(dǎo)致全局理解困難。如同能讀懂每個漢字,卻無法理解百萬字小說的敘事結(jié)構(gòu)。
“僅靠人類直覺”所能達到的可解釋性上限,呈現(xiàn)指數(shù)衰減趨勢。而通過符號回歸(Symbolic regression),模塊發(fā)現(xiàn)(Modularity discovery)和特征歸因(Feature attribution),細(xì)紅線對應(yīng)的模型×方法×人類認(rèn)知"的協(xié)同作用可將可解釋性邊界向外推移。
傳統(tǒng)科學(xué)哲學(xué)認(rèn)為,理解即獲得符號公式;但KAN 2.0指出,理解存在光譜:從識別關(guān)鍵變量,到把握模塊關(guān)系,再到精確公式。這種分層觀更貼近真實科研——生物學(xué)家可能無需微分方程,僅憑通路模塊就能理解細(xì)胞信號傳導(dǎo)。
當(dāng)前XAI(可解釋AI)多聚焦于事后解釋(post-hoc explanation),如用注意力熱力圖說明CNN關(guān)注圖像哪部分。但KAN 2.0倡導(dǎo)的內(nèi)在可解釋性(inherent interpretability)讓網(wǎng)絡(luò)結(jié)構(gòu)本身即承載科學(xué)意義。當(dāng)KAN的邊對應(yīng)物理量間的函數(shù)關(guān)系,節(jié)點對應(yīng)變量組合,網(wǎng)絡(luò)不再是黑箱,而成為科學(xué)假設(shè)的可計算載體。
KAN2.0 將AI從“預(yù)測引擎”重塑為“認(rèn)知伙伴”。未來AI4Science工具或許應(yīng)具備三重能力:感知數(shù)據(jù)、操作符號、生成假設(shè)。KAN在前兩者間架起橋梁,而假設(shè)生成可能需要結(jié)合大語言模型的推理能力。
論文作者
拓?fù)鋵W(xué)課程:從空間直覺到系統(tǒng)科學(xué)
你是否曾思考過:為什么咖啡杯在數(shù)學(xué)上可以變成甜甜圈?為什么混沌系統(tǒng)中會出現(xiàn)周期軌、可約化結(jié)構(gòu)和“奇怪吸引子”模式?為什么神經(jīng)網(wǎng)絡(luò)、量子物理甚至心理結(jié)構(gòu),都可以從“拓?fù)洹苯嵌壤斫猓?/p>
拓?fù)鋵W(xué)不僅是數(shù)學(xué)的抽象分支,更提供了系統(tǒng)的思維方式,讓我們理解連續(xù)性、結(jié)構(gòu)不變性乃至復(fù)雜系統(tǒng)的整體規(guī)律。從歐拉七橋問題到DNA的纏結(jié),從量子場論到思維科學(xué)與腦科學(xué),拓?fù)鋵W(xué)思想正在各學(xué)科中普遍而深刻地重塑著我們的認(rèn)知方式。
集智學(xué)園聯(lián)合北京大學(xué)博士金威老師開設(shè),課程于11月23日開啟,歡迎感興趣的讀者加入。
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.