4 月 8 日,一支由加州理工學(xué)院、谷歌量子 AI、MIT 和初創(chuàng)公司 Oratomic 組成的聯(lián)合團(tuán)隊(duì)在預(yù)印本平臺(tái) arXiv 發(fā)布論文,宣稱證明了一個(gè)長(zhǎng)期懸而未決的命題:小型量子計(jì)算機(jī)可以在處理大規(guī)模經(jīng)典數(shù)據(jù)的(部分)機(jī)器學(xué)習(xí)任務(wù)中,以指數(shù)級(jí)更少的內(nèi)存超越經(jīng)典計(jì)算機(jī)。
研究團(tuán)隊(duì)在電影評(píng)論情感分析和單細(xì)胞 RNA 測(cè)序兩個(gè)真實(shí)數(shù)據(jù)集上驗(yàn)證了這一優(yōu)勢(shì)。用不到 60 個(gè)邏輯量子比特,量子算法的內(nèi)存消耗就比經(jīng)典方法低了四到六個(gè)數(shù)量級(jí)。
![]()
圖丨相關(guān)論文(來(lái)源:arXiv)
量子機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域已經(jīng)熱鬧了二十年,但一直沒能兌現(xiàn)早期的宏大承諾。最初那批算法號(hào)稱能加速線性代數(shù)運(yùn)算,后來(lái)被一系列“去量子化”工作證明經(jīng)典計(jì)算機(jī)用巧妙的隨機(jī)采樣也能做到;變分量子電路一度被寄予厚望,卻在訓(xùn)練中頻繁撞上“貧瘠高原”,梯度消失得找都找不到。
但這些挫折背后有一個(gè)更根本的問題:幾乎所有聲稱有量子加速的算法,都假設(shè)數(shù)據(jù)已經(jīng)以量子態(tài)的形式存在于機(jī)器中。現(xiàn)實(shí)世界的數(shù)據(jù)偏偏是經(jīng)典的,比如一條條電影評(píng)論、一張張 CT 影像、一行行基因表達(dá)數(shù)據(jù)……怎么把這些東西高效地“喂”給量子計(jì)算機(jī),一直是個(gè)沒人能繞過(guò)去的坎。
量子隨機(jī)存取存儲(chǔ)器(Quantum Random Access Memory,QRAM)曾被視為這個(gè)問題的終極解法。
![]()
圖丨處理海量經(jīng)典數(shù)據(jù)時(shí)的量子優(yōu)勢(shì)(來(lái)源:arXiv)
這種設(shè)備理論上能讓量子計(jì)算機(jī)像查字典一樣,在疊加態(tài)中同時(shí)訪問大量經(jīng)典數(shù)據(jù)。但 QRAM 至今停留在紙面上,維持它所需的相干訪問對(duì)硬件要求極為苛刻。2024 年發(fā)表在 npj Quantum Information 上的一項(xiàng)研究從因果律和相對(duì)論原理出發(fā)推導(dǎo) QRAM 的物理上限,結(jié)論相當(dāng)悲觀:要讓 QRAM 達(dá)到實(shí)用規(guī)模,所需的硬件復(fù)雜度本身就會(huì)吃掉量子優(yōu)勢(shì)帶來(lái)的收益。
更尷尬的是,用來(lái)維持 QRAM 運(yùn)行的經(jīng)典控制系統(tǒng)往往足夠強(qiáng)大,可以直接解決原本打算交給量子計(jì)算機(jī)的問題。到 2019 年前后,業(yè)界開始認(rèn)真思考一個(gè)問題:在處理來(lái)自宏觀世界的經(jīng)典數(shù)據(jù)時(shí),量子計(jì)算機(jī)到底還能不能展現(xiàn)出任何優(yōu)勢(shì)?
新論文的突破在于徹底繞開了 QRAM。研究團(tuán)隊(duì)提出了一套名為“量子預(yù)言機(jī)速寫”(Quantum Oracle Sketching)的算法框架,核心思路出奇地簡(jiǎn)單:把數(shù)據(jù)當(dāng)作流來(lái)處理。每觀察到一條經(jīng)典數(shù)據(jù)樣本,就對(duì)量子系統(tǒng)施加一個(gè)精心設(shè)計(jì)的小旋轉(zhuǎn)操作,然后立即丟棄這條數(shù)據(jù)。
隨著越來(lái)越多的數(shù)據(jù)流過(guò),這些小旋轉(zhuǎn)逐漸累積,最終在量子系統(tǒng)中構(gòu)建出一個(gè)足夠精確的“預(yù)言機(jī)”近似,這個(gè)預(yù)言機(jī)可以被后續(xù)的量子算法調(diào)用,就好像數(shù)據(jù)已經(jīng)以量子態(tài)的形式存在一樣。
論文第一作者、加州理工學(xué)院博士生趙海萌在 Quantum Frontiers 博客上解釋了這個(gè)想法的直覺來(lái)源。傳統(tǒng)思路是先把所有數(shù)據(jù)存下來(lái),再讓量子計(jì)算機(jī)去訪問;流式處理的邏輯完全不同,數(shù)據(jù)來(lái)一條處理一條,處理完就丟,量子系統(tǒng)的狀態(tài)本身就是對(duì)數(shù)據(jù)的壓縮表示。這有點(diǎn)像經(jīng)典的流式算法和在線學(xué)習(xí),只不過(guò)量子版本能把信息壓縮到指數(shù)級(jí)更小的空間里。
![]()
圖丨趙海萌(來(lái)源:https://hmzhao.me/)
不過(guò)這種方法也是有代價(jià)的。論文證明,用經(jīng)典數(shù)據(jù)樣本構(gòu)建量子預(yù)言機(jī)需要付出“平方代價(jià)”,如果你想調(diào)用預(yù)言機(jī) Q 次,就需要消耗大約 Q2 條數(shù)據(jù)樣本。這個(gè)代價(jià)源于量子力學(xué)的玻恩規(guī)則,量子振幅和經(jīng)典概率之間的平方關(guān)系是綁死的。研究團(tuán)隊(duì)同時(shí)證明了這個(gè)平方代價(jià)是最優(yōu)的,不可能再降低。
研究團(tuán)隊(duì)選了兩個(gè)數(shù)據(jù)集做驗(yàn)證:IMDb 電影評(píng)論數(shù)據(jù)集,任務(wù)是判斷一條評(píng)論是正面還是負(fù)面;單細(xì)胞 RNA 測(cè)序數(shù)據(jù),任務(wù)是把高維的基因表達(dá)數(shù)據(jù)投影到低維空間以區(qū)分不同類型的細(xì)胞。實(shí)驗(yàn)比較了四種方法:量子預(yù)言機(jī)速寫、基于 QRAM 的量子算法、經(jīng)典稀疏矩陣算法、經(jīng)典流式算法。為了公平比較,研究者統(tǒng)一用“基本存儲(chǔ)單元”來(lái)衡量?jī)?nèi)存消耗,量子算法用邏輯量子比特?cái)?shù),經(jīng)典算法用浮點(diǎn)數(shù)個(gè)數(shù)。
![]()
(來(lái)源:arXiv)
結(jié)果相當(dāng)驚人。要達(dá)到同等的預(yù)測(cè)性能,量子預(yù)言機(jī)速寫只需要不到 60 個(gè)邏輯量子比特,而經(jīng)典方法需要的內(nèi)存高出四到六個(gè)數(shù)量級(jí)。更有意思的是,當(dāng)逐步限制內(nèi)存預(yù)算時(shí),量子算法的性能幾乎不受影響,而經(jīng)典算法的表現(xiàn)急劇下降。
趙海萌在博客中打了個(gè)比方:300 個(gè)邏輯量子比特的量子處理器,在存儲(chǔ)能力上可以超越一臺(tái)由可觀測(cè)宇宙中每一個(gè)原子構(gòu)成的經(jīng)典計(jì)算機(jī)。當(dāng)然,要真正看到這種戲劇性的對(duì)比,還需要宇宙級(jí)別的數(shù)據(jù)集和處理時(shí)間。
四到六個(gè)數(shù)量級(jí)的差距固然驚人,但更值得關(guān)注的是這種優(yōu)勢(shì)的本質(zhì)。
論文的核心定理建立了機(jī)器大小與查詢復(fù)雜度之間的根本關(guān)系:對(duì)于求解線性系統(tǒng)、分類、降維這些常見任務(wù),一臺(tái)多對(duì)數(shù)大小的量子機(jī)器可以在近線性時(shí)間內(nèi)完成,而任何內(nèi)存小于問題規(guī)模 0.99 次方的經(jīng)典機(jī)器都做不到,即便給它超多項(xiàng)式的樣本和時(shí)間也不行。
更關(guān)鍵的是,這種優(yōu)勢(shì)是“信息論層面的”和“無(wú)條件的”,不依賴任何計(jì)算復(fù)雜性猜想,僅僅依賴量子力學(xué)本身的正確性。換句話說(shuō),即便未來(lái)有人證明經(jīng)典計(jì)算機(jī)和量子計(jì)算機(jī)在多項(xiàng)式時(shí)間內(nèi)能解決同樣的問題,這里證明的優(yōu)勢(shì)依然成立。
這和之前展示的“量子優(yōu)越性”實(shí)驗(yàn)有本質(zhì)區(qū)別。2019 年谷歌用 Sycamore 處理器完成的隨機(jī)電路采樣任務(wù)證明的是計(jì)算速度上的優(yōu)勢(shì),而且那個(gè)任務(wù)本身沒有什么實(shí)際用途。這一次,優(yōu)勢(shì)體現(xiàn)在內(nèi)存而非速度,而且任務(wù)(分類和降維)是機(jī)器學(xué)習(xí)中最基礎(chǔ)、應(yīng)用最廣的操作。
John Preskill 在論文發(fā)布當(dāng)天發(fā)推說(shuō):“我們的論文證明,量子機(jī)器可以用指數(shù)級(jí)更少的內(nèi)存解決常見的機(jī)器學(xué)習(xí)任務(wù)。要把這個(gè)理論轉(zhuǎn)化為實(shí)踐還需要大量工作。但因?yàn)楝F(xiàn)代 AI 常常受限于內(nèi)存不足,這個(gè)發(fā)現(xiàn)增強(qiáng)了我們的信心:量子 AI 最終能對(duì)日常生活產(chǎn)生廣泛影響。”
當(dāng)然需要強(qiáng)調(diào)的是,這項(xiàng)研究目前仍是理論證明加數(shù)值模擬,尚未在真實(shí)量子硬件上驗(yàn)證。論文中的“60 個(gè)邏輯量子比特”是個(gè)容易引發(fā)誤解的數(shù)字。邏輯量子比特是經(jīng)過(guò)量子糾錯(cuò)編碼的、受到保護(hù)的量子比特,和當(dāng)前噪聲中等規(guī)模量子設(shè)備上的物理量子比特完全不是一回事。要實(shí)現(xiàn)一個(gè)邏輯量子比特,可能需要數(shù)百甚至上千個(gè)物理量子比特加上配套的糾錯(cuò)電路。
谷歌在 2024 年底發(fā)表于《Nature》的研究中剛剛首次展示了糾錯(cuò)性能隨編碼規(guī)模增大而提升的“閾值以下”操作,從那一步到能穩(wěn)定運(yùn)行 60 個(gè)邏輯量子比特,中間還有相當(dāng)長(zhǎng)的路。
還有一個(gè)許多人都關(guān)心的問題可能是:這對(duì)大語(yǔ)言模型來(lái)說(shuō)有用嗎?這些結(jié)果對(duì)當(dāng)前最火的生成式 AI 有什么啟示?論文處理的是分類和降維這類“判別式”任務(wù),而大語(yǔ)言模型是生成式的。趙海萌在博客中坦承,目前的結(jié)果“并不直接意味著對(duì)大語(yǔ)言模型等現(xiàn)代生成式 AI 的即時(shí)效用”。
但他比較樂觀地表示:“我有一種強(qiáng)烈的感覺,我們正處于一個(gè)與傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代驚人相似的歷史節(jié)點(diǎn)——那個(gè)支持向量機(jī)和隨機(jī)森林主導(dǎo)的時(shí)代,那個(gè)我們依賴嚴(yán)格統(tǒng)計(jì)分析因?yàn)槿狈Υ笠?guī)模啟發(fā)式探索所需計(jì)算資源的時(shí)代,那個(gè)最終孕育出深度學(xué)習(xí)和 AI 革命的時(shí)代。”
量子計(jì)算社區(qū)一直被一個(gè)問題困擾:除了破解密碼和模擬量子系統(tǒng),量子計(jì)算機(jī)到底還能用來(lái)干什么?這項(xiàng)研究給出了一個(gè)部分答案。不是因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)本身有什么量子結(jié)構(gòu),而是因?yàn)榱孔討B(tài)的指數(shù)級(jí)表達(dá)能力可以用來(lái)極度壓縮對(duì)經(jīng)典數(shù)據(jù)的表示,前提是你得找到合適的方法把數(shù)據(jù)“流”進(jìn)去。
Preskill 在 2012 年提出“量子優(yōu)越性”概念時(shí)曾援引費(fèi)曼的名言:“自然不是經(jīng)典的,該死的,如果你想模擬自然,你最好把它做成量子力學(xué)的。”這篇論文的作者們?cè)诓┛椭姓罘崔D(zhuǎn)了這句話:“我們生活在一個(gè)實(shí)際上是經(jīng)典的世界里,該死的,也許經(jīng)典計(jì)算機(jī)和 AI 對(duì)我們的大多數(shù)問題已經(jīng)夠用了。”他們的論文證明,這個(gè)“也許”后面還有很大的商榷空間。
參考資料:
1.https://arxiv.org/pdf/2604.07639
2.https://quantumfrontiers.com/author/haimengzhao/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.