網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

預(yù)測模型Echo面世：檢驗AI是“預(yù)言家”還是“悍跳狼”？

2026-04-02 20:07:09　來源: 鈦媒體APP

北京舉報

分享至

文 | 超前實(shí)驗室，作者｜青蘋吹果

如果有個AI告訴你，三個月后某只股票會跌，或者某個國家會加關(guān)稅，你怎么判斷它說的是真話，還是在瞎蒙？

唯一的方法就是——等三個月，一切見分曉。

但這就陷入了一個死循環(huán)：要驗證預(yù)測，就得等結(jié)果出來；等結(jié)果出來，黃花菜都涼了。更尷尬的是，就算它蒙對了，你也不知道下次還能不能信它。

市面上號稱能“預(yù)測”的AI產(chǎn)品一大堆，但沒幾個敢把歷史預(yù)測記錄全公開的。大部分都是挑幾個說中的案例出來吹，說錯的就當(dāng)沒發(fā)生過。

直到最近，UniPat AI發(fā)布了一套系統(tǒng)，名字叫Echo，核心是一個專門為預(yù)測訓(xùn)練的模型EchoZ-1.0，并在公開的 General AI Prediction Leaderboard 上穩(wěn)居第一，領(lǐng)先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。

在涵蓋12個模型、覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等7個領(lǐng)域、活躍題目超過1000道的排行榜中，EchoZ-1.0以Elo 1034.2的分?jǐn)?shù)排名榜首，其競爭對手不僅有頂級大模型，還有預(yù)測市場上真實(shí)投入資金的人類交易者。這意味著EchoZ的預(yù)測能力已經(jīng)相當(dāng)能打了。

我花了兩個晚上把他們的技術(shù)博客和公開數(shù)據(jù)翻了一遍，發(fā)現(xiàn)他們做了一件挺有意思的事。

Echo不僅讓AI學(xué)會了預(yù)測未來，更重要的是，他們建立了一套，讓任何人都能驗證“預(yù)測準(zhǔn)不準(zhǔn)”的方法論。

比誰預(yù)測得準(zhǔn)，得先站在同一起跑線

過去一年，幾乎所有頭部大模型廠商都在卷預(yù)測能力。Google、Anthropic、OpenAI，一個比一個卷。

但問題是，怎么證明自己的模型真的比別人強(qiáng)？

傳統(tǒng)的做法是搞一個排行榜，讓各家模型對著同一批題目做預(yù)測，然后比誰的正確率高。聽起來公平，但有一個致命漏洞：時序不對稱。

舉個例子。假設(shè)有道題是“2026年4月20日收盤時，全球市值最大的公司是哪家？”模型A在4月1日預(yù)測了，模型B在4月18日預(yù)測了。4月18日的模型顯然能看到更多信息，比如這段時間發(fā)生了什么新聞、市場有什么波動。

這兩者的準(zhǔn)確率能直接比較嗎？顯然不能。越接近截止時間，預(yù)測難度越低。這就像讓兩個人賽跑，一個跑100米，一個跑50米，然后比誰先到終點(diǎn)，沒有意義。

更麻煩的是，大部分預(yù)測基準(zhǔn)的題目都來自Polymarket這類預(yù)測市場，偏向容易結(jié)算的二元問題（“是”或“否”）。

但真實(shí)世界里，一個做餐飲的老板關(guān)心的可能是“下個月某款新品的單店日均銷量預(yù)測能達(dá)到多少”，這種問題在傳統(tǒng)基準(zhǔn)里根本找不到。

Echo團(tuán)隊在構(gòu)建評測系統(tǒng)時，第一個動作就是解決這兩個坑。

他們的做法挺直接：只比較“同一道題、同一個預(yù)測時間點(diǎn)”的結(jié)果。4月1日預(yù)測的，就和4月1日預(yù)測的比，4月18日預(yù)測的，就和4月18日預(yù)測的比。

這叫point-aligned Elo機(jī)制，聽起來簡單，但之前沒人這么干過，因為工程復(fù)雜度高，需要持續(xù)跟蹤每道題、每個時間點(diǎn)、每個模型的輸出。

而這么做的好處也是顯而易見的：確保了“參賽”模型都站在了“同一起跑線”上，廠商不用再為了排名而刻意選擇答題時機(jī)，研發(fā)焦點(diǎn)也能從“卡點(diǎn)”回歸到推理質(zhì)量本身。

同時，Echo團(tuán)隊建立了三條數(shù)據(jù)采集管道。

一條對接Polymarket等公開預(yù)測市場，保證了題目來源的持續(xù)性和可比性；

一條從Google Trends等實(shí)時趨勢中自動生成新題，讓評測體系能跟上現(xiàn)實(shí)世界的節(jié)奏，避免模型“刷舊題”；

還有一條我覺得最有意思，引入科研、工程、醫(yī)療等真實(shí)專業(yè)場景的預(yù)測題，則把評測從大眾話題的范疇，真正拉進(jìn)了高價值決策的核心地帶。

從大眾共識到專業(yè)判斷，這個光譜覆蓋得相當(dāng)完整。

行業(yè)也終于有了一套既公平、又能真實(shí)反映模型在復(fù)雜現(xiàn)實(shí)問題中實(shí)用能力的標(biāo)尺。

評測標(biāo)準(zhǔn)是一把動態(tài)的尺

除此之外，Echo的評測引擎還有一個細(xì)節(jié)，我覺得挺值得琢磨，那就是它不是靜態(tài)題庫，而是持續(xù)生長的。

系統(tǒng)會持續(xù)從「三條管道」吸入新題目，預(yù)測市場合約、實(shí)時趨勢自動合成、專家貢獻(xiàn)。每道題不只做一次預(yù)測，而是根據(jù)結(jié)算周期長度分配多個預(yù)測時間點(diǎn)。

比如周期10天的題可以做大約4次預(yù)測，90天的則可以7次，既保證覆蓋密度，又控制計算開銷。

新題目持續(xù)流入，新的預(yù)測點(diǎn)持續(xù)觸發(fā)，對戰(zhàn)持續(xù)發(fā)生，排行榜持續(xù)更新。

這就解決了另一個老問題，傳統(tǒng)排行榜的數(shù)據(jù)會過時。去年厲害的模型，今年可能就不行了；去年測的題目，今年可能已經(jīng)沒人關(guān)心了。

但動態(tài)系統(tǒng)不一樣，它造了一把不斷校準(zhǔn)的尺子，而這把尺子本身也在不停生長。

Echo團(tuán)隊還做了幾組驗證實(shí)驗，挺有意思的。

一個是穩(wěn)健性測試。

通過模擬因API故障或服務(wù)器中斷造成的預(yù)測缺失場景，隨機(jī)剔除10%到70%的預(yù)測記錄，觀察排名順序是否會發(fā)生變化。

結(jié)果表明，Elo體系下的排名穩(wěn)定性始終優(yōu)于傳統(tǒng)Avg Brier方法的平均排名，前者波動幅度比后者低1.4至1.8倍；即便數(shù)據(jù)丟失比例高達(dá)70%，Elo排名的變動量也僅相當(dāng)于Avg Brier得分排名波動的一半多。

另一個是收斂速度。

模擬一個新模型剛加入排行榜，看它的排名多久能穩(wěn)定下來。Elo在第5.4天就收斂到和20天后一致的排名，Avg Brier要到第14.5天，快了2.7倍。

這些實(shí)驗在告訴你，這套評測系統(tǒng)本身是可靠的，不是隨便搭的架子。

不用答案來訓(xùn)練，那用什么？

評測的問題解決了，下一個問題是訓(xùn)練。

用歷史事件訓(xùn)練預(yù)測模型，聽起來很合理。把過去的新聞和當(dāng)時的市場數(shù)據(jù)喂給模型，讓它學(xué)習(xí)“在什么信息條件下，什么事件會發(fā)生”。

就像學(xué)生們在備考期間，會做「歷年真題」來找手感。

但實(shí)際做起來，有兩道繞不過去的坎。

第一個是數(shù)據(jù)泄露。

互聯(lián)網(wǎng)內(nèi)容持續(xù)更新，你讓模型去搜“2024年某事件的相關(guān)信息”，它搜到的網(wǎng)頁可能已經(jīng)被后來的新聞報道修改過了。你以為是讓模型“回到過去”，其實(shí)它偷偷看了答案。

第二個是結(jié)果導(dǎo)向偏差。

現(xiàn)實(shí)世界充滿隨機(jī)性，一個邏輯嚴(yán)密的預(yù)測可能因為黑天鵝事件而落空，一個瞎蒙的猜測可能因為運(yùn)氣而命中。

如果只用最終結(jié)果做訓(xùn)練信號，模型會學(xué)到什么？它會學(xué)到了蒙對了就是好，蒙錯了就是差。這跟訓(xùn)練一個賭徒?jīng)]什么區(qū)別。

所以Echo提出的另一種解法，叫Train-on-Future——面向未來訓(xùn)練。

既然答案短期內(nèi)沒法拿到手，那就干脆不拿它當(dāng)訓(xùn)練素材。改成讓模型去面對那些還沒出結(jié)果的真實(shí)問題，然后回過頭來評判它的「推理過程」到底靠不靠譜。

所謂的推理過程，就是從模型接到問題開始，到最終給出判斷中間走過的每一步，去哪里找資料、怎么梳理信息、最后怎么得出那個概率數(shù)字。

在這過程中，模型是特意去搜索那些一手的信息源頭，還是隨便看看新聞標(biāo)題就完事？碰上互相矛盾的說法，會不會去自主核實(shí)？在給出概率的時候，是拿著過往的歷史數(shù)據(jù)去推算出一個合理區(qū)間，還是一拍腦門隨口編了個數(shù)？

這些動作可以被評價，不需要等答案揭曉。

但問題來了，如何來給「推理過程」打分？總不能靠感覺吧！

這確實(shí)是個棘手的問題。畢竟不同領(lǐng)域?qū)Α昂猛评怼钡亩x完全不一樣。

比如做宏觀經(jīng)濟(jì)預(yù)測時，你得判斷下個季度的GDP增速，這需要盯著央行的貨幣政策、PMI的月度變化、失業(yè)率報告；但做加密貨幣領(lǐng)域的預(yù)測完全是另一套邏輯，你得看鏈上活躍地址數(shù)、監(jiān)管機(jī)構(gòu)的表態(tài)、市場恐慌貪婪指數(shù)。

這就造成了一個問題，面對不同的領(lǐng)域，想寫一套通用的評分標(biāo)準(zhǔn)，幾乎不可能。

所以Echo團(tuán)隊索性決定不靠人寫，直接用數(shù)據(jù)來“搜”出評分標(biāo)準(zhǔn)。

這套機(jī)制叫Automated Rubric Search，翻譯過來就是“評分標(biāo)準(zhǔn)自動搜索”。

大概流程是，先拿出一張草稿，列出幾個可能的評分角度，比如“信息來源靠不靠譜”“碰到矛盾信息怎么處理”，每項分成好、中、差三檔。然后用這套標(biāo)準(zhǔn)去給各個模型的預(yù)測過程打分，排出一個名次。

排完之后，拿這個名次跟真正的Elo排名，放在一起比對，看看兩個版本名次重合度。

重合度越高，說明這套評分標(biāo)準(zhǔn)越有說服力。

排行榜第一，要贏，更要穩(wěn)

聊了這么多技術(shù)，現(xiàn)在，咱們再回到開頭提到了的General AI Prediction Leaderboard上。

排行榜涵蓋12個模型，7個領(lǐng)域，活躍題目超過1000道。

但我覺得更值得看的不是排名本身，而是排名的穩(wěn)定性。

Echo團(tuán)隊做了一組σ參數(shù)敏感性測試：調(diào)整Elo框架中的一個參數(shù)，控制模型之間表現(xiàn)差距會被放大到什么程度，從0.01到0.50共9個取值，重新計算全部模型排名。EchoZ在全部9個分組均保持第一，是唯一排名未發(fā)生任何波動的模型。

作為對比，GPT-5.2的排名在第2到第9之間波動過8個位次。

這意味著什么？意味著它不是“剛好贏了一點(diǎn)點(diǎn)”，而是在不同設(shè)定下都穩(wěn)居第一，這比“贏了”更有說服力。

更有意思的是他們和人類交易者的對比。

EchoZ與Polymarket人類市場共識的分層對比顯示：政治與治理領(lǐng)域勝率63.2%，長期預(yù)測（7天以上）勝率59.3%，市場不確定區(qū)間（人類信心55%-70%）勝率57.9%。

有個規(guī)律值得注意，人類預(yù)測者越猶豫的場景，如高不確定性、長時間跨度、復(fù)雜政治博弈，EchoZ的優(yōu)勢反而越明顯。

這恰恰暗示了模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢，恰好是人類直覺最不可靠的區(qū)域。

乍一聽，60%上下的準(zhǔn)確率好像也沒多厲害。可但凡對投資市場有點(diǎn)了解的人都清楚，在一個靠決策質(zhì)量分高下的環(huán)境里，60%這個數(shù)字意味著什么，只要勝率過半，長期下來就是正收益，而能達(dá)到六成，已經(jīng)是相當(dāng)可觀的領(lǐng)先幅度了。

UniPat在官網(wǎng)上為Echo寫了一段話：“The future is no longer a probability you guess — it is a parameter you integrate.”

翻譯過來大概是：未來不再是你猜測的概率，而是你可以集成的參數(shù)。

這句話挺有嚼頭。

當(dāng)預(yù)測從一種直覺判斷變成一個可調(diào)用、可集成的參數(shù)，它能嵌入的決策場景會多得多，金融市場、算法交易、企業(yè)戰(zhàn)略、供應(yīng)鏈管理……比我們現(xiàn)在能想到的要多。

據(jù)他們披露，下一步計劃是把EchoZ-1.0的預(yù)測能力封裝成一套AI-native Prediction API對外開放。這套API支持自然語言輸入，返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評估和監(jiān)測建議的完整結(jié)構(gòu)化報告。

想象一下：你問“明年Q1全球鋰礦價格走勢”，它不光給你一個概率，還告訴你這個判斷是怎么來的，哪些證據(jù)支撐、哪些因素可能讓判斷失效、需要關(guān)注哪些監(jiān)測指標(biāo)。

這跟現(xiàn)在那些只會給你一個“漲/跌”結(jié)論的「預(yù)測工具」，完全不是一個東西。

當(dāng)然，落地的效果還得等API正式上線才能驗證。但至少從目前公開的信息來看，Echo在做的事情是結(jié)構(gòu)化的。它沒有在較真自己模型準(zhǔn)不準(zhǔn)，而是在搭建一套“讓人相信它準(zhǔn)”的驗證體系。這在預(yù)測AI這個領(lǐng)域，可能比“準(zhǔn)”本身更重要。

畢竟，如果一個AI真的能預(yù)測未來，你總得知道它什么時候該信，什么時候不該信。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.