![]()
大語言模型能做奧數(shù)題,卻算不對兩位數(shù)乘法,這個尷尬局面一直是AI領(lǐng)域公開的秘密。2026年3月,一家名為Percepta的AI公司發(fā)布了一項讓業(yè)界矚目的研究,他們直接在Transformer的權(quán)重里"建造"了一臺計算機,不依賴任何外部工具就能執(zhí)行任意C語言程序。
這項工作發(fā)布后迅速登上Hacker News首頁,收獲了超過300個贊和130多條評論,連AI領(lǐng)域的標桿人物Karpathy都為其點贊。
這項研究的核心思路其實不復(fù)雜。目前業(yè)界讓大模型做精確計算主要有兩條路:一是工具調(diào)用,讓模型生成代碼,再交給外部解釋器執(zhí)行;二是智能體調(diào)度,通過外部狀態(tài)機把任務(wù)拆開,循環(huán)調(diào)用模型處理。
但本質(zhì)上,這兩種方法都相當于給模型裝了一個"外掛",計算并不是模型自己完成的。
Percepta團隊換了個玩法。他們在Transformer權(quán)重中實現(xiàn)了一套RAM計算機和WebAssembly解釋器,任何標準程序代碼都可以編譯成模型能識別的Token指令序列。
比如計算3加5,模型會先把代碼寫出來,然后切換到快速解碼模式,在Transformer內(nèi)部一步步執(zhí)行這個程序,把執(zhí)行過程逐行輸出為Token流。
![]()
2D注意力頭:關(guān)鍵的技術(shù)突破
讓這件事變得真正可行的,是團隊在注意力機制上的創(chuàng)新設(shè)計。
在傳統(tǒng)的Transformer架構(gòu)中,每生成一個Token都要對整個歷史序列做一次注意力掃描,計算成本隨序列長度線性增長。
Percepta設(shè)計了一種2D注意力頭,把每個歷史Token的Key向量設(shè)定為二維的,將注意力查詢問題轉(zhuǎn)化為計算幾何中的凸包極值查詢。
借助凸包數(shù)據(jù)結(jié)構(gòu),模型在Token生成過程中動態(tài)維護歷史Key的凸包,每一步注意力查詢只需要在凸包上進行,把計算復(fù)雜度從O(n)降到了O(log n)。
基于這個原理,團隊開發(fā)了HullKVCache緩存系統(tǒng)。在普通CPU上就實現(xiàn)了每秒31037個Token的吞吐量,約9000條指令的序列僅需1.3秒即可完成,效率比傳統(tǒng)KV緩存提高了近200倍。
更重要的是,這個設(shè)計完全基于標準PyTorch Transformer,不需要定制化的內(nèi)核或稀疏掩碼。
實際驗證與行業(yè)反響
團隊選了兩個典型的長程精確計算任務(wù)來做驗證。
第一個是10×10最小費用完美匹配問題,模型在內(nèi)部執(zhí)行匈牙利算法,全程以自回歸方式生成計算軌跡,CPU上Token生成速度達到每秒33583個。
![]()
第二個是世界上最難的數(shù)獨之一,芬蘭數(shù)學家Arto Inkala設(shè)計的極難數(shù)獨。模型內(nèi)部執(zhí)行一個完整編譯后的數(shù)獨求解器,通過約束傳播和回溯搜索,在3分鐘內(nèi)實現(xiàn)了100%準確的求解。
整個計算過程是透明的,每一步的嘗試,驗證、回溯都以可讀日志的形式輸出。
這項研究引發(fā)了不少討論和爭意。支持者認為,它證明了Transformer不僅僅是統(tǒng)計預(yù)測器,還可以成為真正的通用計算基底,未來可以作為推理加速的系統(tǒng)原語。
批評者則指出,博客文章缺少嚴格的基準測試和訓(xùn)練細節(jié),文本也有過度包裝的嫌疑。
不過,拋開爭論來看,這項工作確實提供了一個有意思的視角。它表明注意力機制的設(shè)計空間遠比我們以為的要大,2D注意力頭這樣看似簡單的修改就能帶來指數(shù)級的效率提升。
領(lǐng)導(dǎo)這項研究的Christos Tzamos是MIT博士,目前擔任雅典大學計算機科學副教授和Percepta的創(chuàng)始研究員,Percepta則是General Catalyst旗下的AI轉(zhuǎn)型公司,團隊成員來自Meta FAIR,MIT和谷歌等機構(gòu)。
這項研究雖然還處于早期階段、距離實際部暑還有距離,但它開辟的方向值得關(guān)注:與其給大模型不斷加外掛,不如讓模型本身就具備精確計算的能力。
這或許是通往更強大AI系統(tǒng)的一條新路徑。
閱讀最新前沿科技趨勢報告,請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.