GPT-5.4 Pro解出1道30年未決數(shù)學(xué)題

2026-03-24 14:14:06　來源: 像素與芯片

北京舉報(bào)

分享至

2025年6月，一道困擾組合數(shù)學(xué)界30年的開放性問題，被GPT-5.4 Pro在單次對話中解決了。

不是近似答案，不是啟發(fā)思路，是完整證明。問題貢獻(xiàn)者、北卡羅來納大學(xué)夏洛特分校數(shù)學(xué)家Will Brian確認(rèn)了解法的正確性，并計(jì)劃將其正式發(fā)表。更微妙的是：Brian承認(rèn)，他"之前想過AI的方法可能可行，但覺得很難實(shí)現(xiàn)"——結(jié)果AI自己把這條路走通了。

一道什么樣的題，讓人類和AI都卡了這么久

這個問題屬于拉姆齊理論（Ramsey Theory）的一個分支，研究的是超圖（Hypergraph）中的劃分結(jié)構(gòu)。簡單說，數(shù)學(xué)家想知道：給定一個"沒有孤立點(diǎn)"的超圖，最多能有多少個頂點(diǎn)，同時保證不存在某種特定大小的劃分？

序列H(n)描述的就是這個上限。人類數(shù)學(xué)家此前構(gòu)造的下界被認(rèn)為是"次優(yōu)的"，甚至漸進(jìn)意義上也不夠好。問題的核心在于找到新的超圖構(gòu)造方法——這不是算力能暴力破解的，需要真正的結(jié)構(gòu)性洞察。

Epoch AI設(shè)置的測試分三檔：Warm-up（已知解法的簡單變體）、Single Challenge（無已知解法的具體數(shù)值）、Full Problem（通用算法）。GPT-5.4 Pro直接攻破了Single Challenge檔，找到了一個|V|≥64、|H|≤20且滿足所有約束的超圖構(gòu)造。

單次對話。沒有外部工具。沒有人類提示"往這個方向試試"。

為什么數(shù)學(xué)家Brian的反應(yīng)值得玩味

Brian的評語里有句話很關(guān)鍵："它消除了我們下界構(gòu)造中的一個低效之處，并且在某種意義上鏡像了我們上界構(gòu)造的復(fù)雜性。"

翻譯一下：人類數(shù)學(xué)家其實(shí)有直覺，知道哪里可能優(yōu)化，但沒能自己完成。AI的解法不僅補(bǔ)上了缺口，還跟人類已有的上層框架形成了對稱——這種"鏡像"讓Brian既興奮又好奇，他說"想進(jìn)一步理解為什么這招這么好用"。

這里有個反直覺的點(diǎn)。我們通常以為AI解數(shù)學(xué)題=算得快，但組合數(shù)學(xué)的開放問題不是靠算力堆出來的。GPT-5.4 Pro的解法被描述為"eliminates an inefficiency"——這是結(jié)構(gòu)層面的洞見，不是窮舉。

更耐人尋味的是后續(xù)：Brian計(jì)劃把AI的想法作為"follow-on work"的起點(diǎn)，Barreto和Price可以選擇成為合著者。學(xué)術(shù)發(fā)表的游戲規(guī)則沒變，但第一作者的位置空了出來——或者說，被一段對話記錄取代了。

其他模型后來也解出來了，但這正是問題所在

Epoch AI完成測試框架后，用同一套scaffold測試了更多模型：Opus 4.6 (max)、Gemini 3.1 Pro、甚至GPT-5.4的基礎(chǔ)版(xhigh)都成功解出了這道題。

這像什么？就像你發(fā)現(xiàn)自家鎖被一把鑰匙打開后，很快發(fā)現(xiàn)市面上五把不同的鑰匙都能開。問題的難度沒有變，但"可解性"的閾值被一次性拉低了。

對數(shù)學(xué)界來說，這意味著FrontierMath——那個專門收集"AI應(yīng)該還解不了"的開放問題庫——可能需要重新校準(zhǔn)。Epoch AI設(shè)計(jì)這個基準(zhǔn)測試的初衷是找到人類仍具優(yōu)勢的地帶，結(jié)果第一道防線這么快就出現(xiàn)裂痕。

對25-40歲的科技從業(yè)者，這個場景應(yīng)該很熟悉：你維護(hù)的某個"護(hù)城河"技術(shù)，突然被通用方案跨過去了。不是對手多努力，是基座能力躍遷了。

產(chǎn)品經(jīng)理視角：當(dāng)"不可解"變成"已解決"之后

從工具設(shè)計(jì)的角度看，GPT-5.4 Pro的這次表現(xiàn)有幾個值得拆解的細(xì)節(jié)。

首先是交互成本。Brian提到的是"a full transcript of the original conversation"，說明解法來自自然語言對話，不是專門的證明輔助工具。這意味著數(shù)學(xué)家不需要學(xué)習(xí)新界面，用日常交流的方式就獲得了突破。工具門檻的降低，往往比性能提升更改變使用模式。

其次是可驗(yàn)證性。AI生成的數(shù)學(xué)證明歷來被質(zhì)疑"幻覺"風(fēng)險(xiǎn)，但這次有完整對話記錄和AI自己的write-up可供復(fù)核。Brian作為問題貢獻(xiàn)者的背書，相當(dāng)于給這個特定案例做了人工審計(jì)。規(guī)模化之后，這種審計(jì)成本怎么攤，是個開放問題。

最后是知識產(chǎn)權(quán)的模糊地帶。Barreto和Price作為"提示工程師"可以選擇成為論文合著者，但他們的貢獻(xiàn)邊界很難界定。如果同一道題換個人提示，AI給出等價(jià)解法，算獨(dú)立發(fā)現(xiàn)還是重復(fù)工作？學(xué)術(shù)評價(jià)體系還沒準(zhǔn)備好回答這個。

Will Brian在確認(rèn)解法后說，他對"為什么這招這么好用"感興趣。這句話的潛臺詞是：AI給出了答案，但解釋這個答案為什么成立，仍是人類的工作——至少目前是。

可如果下次，AI連"為什么好用"的解釋也一并生成了呢？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.