2025年6月,一道困擾組合數(shù)學(xué)界30年的開放性問題,被GPT-5.4 Pro在單次對話中解決了。
不是近似答案,不是啟發(fā)思路,是完整證明。問題貢獻(xiàn)者、北卡羅來納大學(xué)夏洛特分校數(shù)學(xué)家Will Brian確認(rèn)了解法的正確性,并計(jì)劃將其正式發(fā)表。更微妙的是:Brian承認(rèn),他"之前想過AI的方法可能可行,但覺得很難實(shí)現(xiàn)"——結(jié)果AI自己把這條路走通了。
一道什么樣的題,讓人類和AI都卡了這么久
這個問題屬于拉姆齊理論(Ramsey Theory)的一個分支,研究的是超圖(Hypergraph)中的劃分結(jié)構(gòu)。簡單說,數(shù)學(xué)家想知道:給定一個"沒有孤立點(diǎn)"的超圖,最多能有多少個頂點(diǎn),同時保證不存在某種特定大小的劃分?
序列H(n)描述的就是這個上限。人類數(shù)學(xué)家此前構(gòu)造的下界被認(rèn)為是"次優(yōu)的",甚至漸進(jìn)意義上也不夠好。問題的核心在于找到新的超圖構(gòu)造方法——這不是算力能暴力破解的,需要真正的結(jié)構(gòu)性洞察。
Epoch AI設(shè)置的測試分三檔:Warm-up(已知解法的簡單變體)、Single Challenge(無已知解法的具體數(shù)值)、Full Problem(通用算法)。GPT-5.4 Pro直接攻破了Single Challenge檔,找到了一個|V|≥64、|H|≤20且滿足所有約束的超圖構(gòu)造。
單次對話。沒有外部工具。沒有人類提示"往這個方向試試"。
為什么數(shù)學(xué)家Brian的反應(yīng)值得玩味
Brian的評語里有句話很關(guān)鍵:"它消除了我們下界構(gòu)造中的一個低效之處,并且在某種意義上鏡像了我們上界構(gòu)造的復(fù)雜性。"
翻譯一下:人類數(shù)學(xué)家其實(shí)有直覺,知道哪里可能優(yōu)化,但沒能自己完成。AI的解法不僅補(bǔ)上了缺口,還跟人類已有的上層框架形成了對稱——這種"鏡像"讓Brian既興奮又好奇,他說"想進(jìn)一步理解為什么這招這么好用"。
這里有個反直覺的點(diǎn)。我們通常以為AI解數(shù)學(xué)題=算得快,但組合數(shù)學(xué)的開放問題不是靠算力堆出來的。GPT-5.4 Pro的解法被描述為"eliminates an inefficiency"——這是結(jié)構(gòu)層面的洞見,不是窮舉。
更耐人尋味的是后續(xù):Brian計(jì)劃把AI的想法作為"follow-on work"的起點(diǎn),Barreto和Price可以選擇成為合著者。學(xué)術(shù)發(fā)表的游戲規(guī)則沒變,但第一作者的位置空了出來——或者說,被一段對話記錄取代了。
其他模型后來也解出來了,但這正是問題所在
Epoch AI完成測試框架后,用同一套scaffold測試了更多模型:Opus 4.6 (max)、Gemini 3.1 Pro、甚至GPT-5.4的基礎(chǔ)版(xhigh)都成功解出了這道題。
這像什么?就像你發(fā)現(xiàn)自家鎖被一把鑰匙打開后,很快發(fā)現(xiàn)市面上五把不同的鑰匙都能開。問題的難度沒有變,但"可解性"的閾值被一次性拉低了。
對數(shù)學(xué)界來說,這意味著FrontierMath——那個專門收集"AI應(yīng)該還解不了"的開放問題庫——可能需要重新校準(zhǔn)。Epoch AI設(shè)計(jì)這個基準(zhǔn)測試的初衷是找到人類仍具優(yōu)勢的地帶,結(jié)果第一道防線這么快就出現(xiàn)裂痕。
對25-40歲的科技從業(yè)者,這個場景應(yīng)該很熟悉:你維護(hù)的某個"護(hù)城河"技術(shù),突然被通用方案跨過去了。不是對手多努力,是基座能力躍遷了。
產(chǎn)品經(jīng)理視角:當(dāng)"不可解"變成"已解決"之后
從工具設(shè)計(jì)的角度看,GPT-5.4 Pro的這次表現(xiàn)有幾個值得拆解的細(xì)節(jié)。
首先是交互成本。Brian提到的是"a full transcript of the original conversation",說明解法來自自然語言對話,不是專門的證明輔助工具。這意味著數(shù)學(xué)家不需要學(xué)習(xí)新界面,用日常交流的方式就獲得了突破。工具門檻的降低,往往比性能提升更改變使用模式。
其次是可驗(yàn)證性。AI生成的數(shù)學(xué)證明歷來被質(zhì)疑"幻覺"風(fēng)險(xiǎn),但這次有完整對話記錄和AI自己的write-up可供復(fù)核。Brian作為問題貢獻(xiàn)者的背書,相當(dāng)于給這個特定案例做了人工審計(jì)。規(guī)模化之后,這種審計(jì)成本怎么攤,是個開放問題。
最后是知識產(chǎn)權(quán)的模糊地帶。Barreto和Price作為"提示工程師"可以選擇成為論文合著者,但他們的貢獻(xiàn)邊界很難界定。如果同一道題換個人提示,AI給出等價(jià)解法,算獨(dú)立發(fā)現(xiàn)還是重復(fù)工作?學(xué)術(shù)評價(jià)體系還沒準(zhǔn)備好回答這個。
Will Brian在確認(rèn)解法后說,他對"為什么這招這么好用"感興趣。這句話的潛臺詞是:AI給出了答案,但解釋這個答案為什么成立,仍是人類的工作——至少目前是。
可如果下次,AI連"為什么好用"的解釋也一并生成了呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.