337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

預(yù)測模型Echo面世:檢驗AI是“預(yù)言家”還是“悍跳狼”?

0
分享至

文 | 超前實(shí)驗室,作者|青蘋吹果

如果有個AI告訴你,三個月后某只股票會跌,或者某個國家會加關(guān)稅,你怎么判斷它說的是真話,還是在瞎蒙?

唯一的方法就是——等三個月,一切見分曉。

但這就陷入了一個死循環(huán):要驗證預(yù)測,就得等結(jié)果出來;等結(jié)果出來,黃花菜都涼了。更尷尬的是,就算它蒙對了,你也不知道下次還能不能信它。

市面上號稱能“預(yù)測”的AI產(chǎn)品一大堆,但沒幾個敢把歷史預(yù)測記錄全公開的。大部分都是挑幾個說中的案例出來吹,說錯的就當(dāng)沒發(fā)生過。

直到最近,UniPat AI發(fā)布了一套系統(tǒng),名字叫Echo,核心是一個專門為預(yù)測訓(xùn)練的模型EchoZ-1.0,并在公開的 General AI Prediction Leaderboard 上穩(wěn)居第一,領(lǐng)先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。


在涵蓋12個模型、覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等7個領(lǐng)域、活躍題目超過1000道的排行榜中,EchoZ-1.0以Elo 1034.2的分?jǐn)?shù)排名榜首,其競爭對手不僅有頂級大模型,還有預(yù)測市場上真實(shí)投入資金的人類交易者。這意味著EchoZ的預(yù)測能力已經(jīng)相當(dāng)能打了。

我花了兩個晚上把他們的技術(shù)博客和公開數(shù)據(jù)翻了一遍,發(fā)現(xiàn)他們做了一件挺有意思的事。

Echo不僅讓AI學(xué)會了預(yù)測未來,更重要的是,他們建立了一套,讓任何人都能驗證“預(yù)測準(zhǔn)不準(zhǔn)”的方法論。

比誰預(yù)測得準(zhǔn),得先站在同一起跑線

過去一年,幾乎所有頭部大模型廠商都在卷預(yù)測能力。Google、Anthropic、OpenAI,一個比一個卷。

但問題是,怎么證明自己的模型真的比別人強(qiáng)?

傳統(tǒng)的做法是搞一個排行榜,讓各家模型對著同一批題目做預(yù)測,然后比誰的正確率高。聽起來公平,但有一個致命漏洞:時序不對稱。

舉個例子。假設(shè)有道題是“2026年4月20日收盤時,全球市值最大的公司是哪家?”模型A在4月1日預(yù)測了,模型B在4月18日預(yù)測了。4月18日的模型顯然能看到更多信息,比如這段時間發(fā)生了什么新聞、市場有什么波動。

這兩者的準(zhǔn)確率能直接比較嗎?顯然不能。越接近截止時間,預(yù)測難度越低。這就像讓兩個人賽跑,一個跑100米,一個跑50米,然后比誰先到終點(diǎn),沒有意義。

更麻煩的是,大部分預(yù)測基準(zhǔn)的題目都來自Polymarket這類預(yù)測市場,偏向容易結(jié)算的二元問題(“是”或“否”)。

但真實(shí)世界里,一個做餐飲的老板關(guān)心的可能是“下個月某款新品的單店日均銷量預(yù)測能達(dá)到多少”,這種問題在傳統(tǒng)基準(zhǔn)里根本找不到。

Echo團(tuán)隊在構(gòu)建評測系統(tǒng)時,第一個動作就是解決這兩個坑。

他們的做法挺直接:只比較“同一道題、同一個預(yù)測時間點(diǎn)”的結(jié)果。4月1日預(yù)測的,就和4月1日預(yù)測的比,4月18日預(yù)測的,就和4月18日預(yù)測的比。

這叫point-aligned Elo機(jī)制,聽起來簡單,但之前沒人這么干過,因為工程復(fù)雜度高,需要持續(xù)跟蹤每道題、每個時間點(diǎn)、每個模型的輸出。

而這么做的好處也是顯而易見的:確保了“參賽”模型都站在了“同一起跑線”上,廠商不用再為了排名而刻意選擇答題時機(jī),研發(fā)焦點(diǎn)也能從“卡點(diǎn)”回歸到推理質(zhì)量本身。

同時,Echo團(tuán)隊建立了三條數(shù)據(jù)采集管道。

一條對接Polymarket等公開預(yù)測市場,保證了題目來源的持續(xù)性和可比性;

一條從Google Trends等實(shí)時趨勢中自動生成新題,讓評測體系能跟上現(xiàn)實(shí)世界的節(jié)奏,避免模型“刷舊題”;

還有一條我覺得最有意思,引入科研、工程、醫(yī)療等真實(shí)專業(yè)場景的預(yù)測題,則把評測從大眾話題的范疇,真正拉進(jìn)了高價值決策的核心地帶。


從大眾共識到專業(yè)判斷,這個光譜覆蓋得相當(dāng)完整。

行業(yè)也終于有了一套既公平、又能真實(shí)反映模型在復(fù)雜現(xiàn)實(shí)問題中實(shí)用能力的標(biāo)尺。

評測標(biāo)準(zhǔn)是一把動態(tài)的尺

除此之外,Echo的評測引擎還有一個細(xì)節(jié),我覺得挺值得琢磨,那就是它不是靜態(tài)題庫,而是持續(xù)生長的。

系統(tǒng)會持續(xù)從「三條管道」吸入新題目,預(yù)測市場合約、實(shí)時趨勢自動合成、專家貢獻(xiàn)。每道題不只做一次預(yù)測,而是根據(jù)結(jié)算周期長度分配多個預(yù)測時間點(diǎn)。

比如周期10天的題可以做大約4次預(yù)測,90天的則可以7次,既保證覆蓋密度,又控制計算開銷。

新題目持續(xù)流入,新的預(yù)測點(diǎn)持續(xù)觸發(fā),對戰(zhàn)持續(xù)發(fā)生,排行榜持續(xù)更新。

這就解決了另一個老問題,傳統(tǒng)排行榜的數(shù)據(jù)會過時。去年厲害的模型,今年可能就不行了;去年測的題目,今年可能已經(jīng)沒人關(guān)心了。

但動態(tài)系統(tǒng)不一樣,它造了一把不斷校準(zhǔn)的尺子,而這把尺子本身也在不停生長。

Echo團(tuán)隊還做了幾組驗證實(shí)驗,挺有意思的。

一個是穩(wěn)健性測試。

通過模擬因API故障或服務(wù)器中斷造成的預(yù)測缺失場景,隨機(jī)剔除10%到70%的預(yù)測記錄,觀察排名順序是否會發(fā)生變化。

結(jié)果表明,Elo體系下的排名穩(wěn)定性始終優(yōu)于傳統(tǒng)Avg Brier方法的平均排名,前者波動幅度比后者低1.4至1.8倍;即便數(shù)據(jù)丟失比例高達(dá)70%,Elo排名的變動量也僅相當(dāng)于Avg Brier得分排名波動的一半多。


另一個是收斂速度。

模擬一個新模型剛加入排行榜,看它的排名多久能穩(wěn)定下來。Elo在第5.4天就收斂到和20天后一致的排名,Avg Brier要到第14.5天,快了2.7倍。


這些實(shí)驗在告訴你,這套評測系統(tǒng)本身是可靠的,不是隨便搭的架子。

不用答案來訓(xùn)練,那用什么?

評測的問題解決了,下一個問題是訓(xùn)練。

用歷史事件訓(xùn)練預(yù)測模型,聽起來很合理。把過去的新聞和當(dāng)時的市場數(shù)據(jù)喂給模型,讓它學(xué)習(xí)“在什么信息條件下,什么事件會發(fā)生”。

就像學(xué)生們在備考期間,會做「歷年真題」來找手感。

但實(shí)際做起來,有兩道繞不過去的坎。

第一個是數(shù)據(jù)泄露。

互聯(lián)網(wǎng)內(nèi)容持續(xù)更新,你讓模型去搜“2024年某事件的相關(guān)信息”,它搜到的網(wǎng)頁可能已經(jīng)被后來的新聞報道修改過了。你以為是讓模型“回到過去”,其實(shí)它偷偷看了答案。

第二個是結(jié)果導(dǎo)向偏差。

現(xiàn)實(shí)世界充滿隨機(jī)性,一個邏輯嚴(yán)密的預(yù)測可能因為黑天鵝事件而落空,一個瞎蒙的猜測可能因為運(yùn)氣而命中。

如果只用最終結(jié)果做訓(xùn)練信號,模型會學(xué)到什么?它會學(xué)到了蒙對了就是好,蒙錯了就是差。這跟訓(xùn)練一個賭徒?jīng)]什么區(qū)別。

所以Echo提出的另一種解法,叫Train-on-Future——面向未來訓(xùn)練。

既然答案短期內(nèi)沒法拿到手,那就干脆不拿它當(dāng)訓(xùn)練素材。改成讓模型去面對那些還沒出結(jié)果的真實(shí)問題,然后回過頭來評判它的「推理過程」到底靠不靠譜。

所謂的推理過程,就是從模型接到問題開始,到最終給出判斷中間走過的每一步,去哪里找資料、怎么梳理信息、最后怎么得出那個概率數(shù)字。

在這過程中,模型是特意去搜索那些一手的信息源頭,還是隨便看看新聞標(biāo)題就完事?碰上互相矛盾的說法,會不會去自主核實(shí)?在給出概率的時候,是拿著過往的歷史數(shù)據(jù)去推算出一個合理區(qū)間,還是一拍腦門隨口編了個數(shù)?

這些動作可以被評價,不需要等答案揭曉。

但問題來了,如何來給「推理過程」打分?總不能靠感覺吧!

這確實(shí)是個棘手的問題。畢竟不同領(lǐng)域?qū)Α昂猛评怼钡亩x完全不一樣。

比如做宏觀經(jīng)濟(jì)預(yù)測時,你得判斷下個季度的GDP增速,這需要盯著央行的貨幣政策、PMI的月度變化、失業(yè)率報告;但做加密貨幣領(lǐng)域的預(yù)測完全是另一套邏輯,你得看鏈上活躍地址數(shù)、監(jiān)管機(jī)構(gòu)的表態(tài)、市場恐慌貪婪指數(shù)。

這就造成了一個問題,面對不同的領(lǐng)域,想寫一套通用的評分標(biāo)準(zhǔn),幾乎不可能。

所以Echo團(tuán)隊索性決定不靠人寫,直接用數(shù)據(jù)來“搜”出評分標(biāo)準(zhǔn)。

這套機(jī)制叫Automated Rubric Search,翻譯過來就是“評分標(biāo)準(zhǔn)自動搜索”。

大概流程是,先拿出一張草稿,列出幾個可能的評分角度,比如“信息來源靠不靠譜”“碰到矛盾信息怎么處理”,每項分成好、中、差三檔。然后用這套標(biāo)準(zhǔn)去給各個模型的預(yù)測過程打分,排出一個名次。

排完之后,拿這個名次跟真正的Elo排名,放在一起比對,看看兩個版本名次重合度。

重合度越高,說明這套評分標(biāo)準(zhǔn)越有說服力。

排行榜第一,要贏,更要穩(wěn)

聊了這么多技術(shù),現(xiàn)在,咱們再回到開頭提到了的General AI Prediction Leaderboard上。

排行榜涵蓋12個模型,7個領(lǐng)域,活躍題目超過1000道。

但我覺得更值得看的不是排名本身,而是排名的穩(wěn)定性。

Echo團(tuán)隊做了一組σ參數(shù)敏感性測試:調(diào)整Elo框架中的一個參數(shù),控制模型之間表現(xiàn)差距會被放大到什么程度,從0.01到0.50共9個取值,重新計算全部模型排名。EchoZ在全部9個分組均保持第一,是唯一排名未發(fā)生任何波動的模型。


作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。

這意味著什么?意味著它不是“剛好贏了一點(diǎn)點(diǎn)”,而是在不同設(shè)定下都穩(wěn)居第一,這比“贏了”更有說服力。

更有意思的是他們和人類交易者的對比。

EchoZ與Polymarket人類市場共識的分層對比顯示:政治與治理領(lǐng)域勝率63.2%,長期預(yù)測(7天以上)勝率59.3%,市場不確定區(qū)間(人類信心55%-70%)勝率57.9%。

有個規(guī)律值得注意,人類預(yù)測者越猶豫的場景,如高不確定性、長時間跨度、復(fù)雜政治博弈,EchoZ的優(yōu)勢反而越明顯。

這恰恰暗示了模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢,恰好是人類直覺最不可靠的區(qū)域。

乍一聽,60%上下的準(zhǔn)確率好像也沒多厲害。可但凡對投資市場有點(diǎn)了解的人都清楚,在一個靠決策質(zhì)量分高下的環(huán)境里,60%這個數(shù)字意味著什么,只要勝率過半,長期下來就是正收益,而能達(dá)到六成,已經(jīng)是相當(dāng)可觀的領(lǐng)先幅度了。

UniPat在官網(wǎng)上為Echo寫了一段話:“The future is no longer a probability you guess — it is a parameter you integrate.”

翻譯過來大概是:未來不再是你猜測的概率,而是你可以集成的參數(shù)。

這句話挺有嚼頭。

當(dāng)預(yù)測從一種直覺判斷變成一個可調(diào)用、可集成的參數(shù),它能嵌入的決策場景會多得多,金融市場、算法交易、企業(yè)戰(zhàn)略、供應(yīng)鏈管理……比我們現(xiàn)在能想到的要多。

據(jù)他們披露,下一步計劃是把EchoZ-1.0的預(yù)測能力封裝成一套AI-native Prediction API對外開放。這套API支持自然語言輸入,返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評估和監(jiān)測建議的完整結(jié)構(gòu)化報告。

想象一下:你問“明年Q1全球鋰礦價格走勢”,它不光給你一個概率,還告訴你這個判斷是怎么來的,哪些證據(jù)支撐、哪些因素可能讓判斷失效、需要關(guān)注哪些監(jiān)測指標(biāo)。

這跟現(xiàn)在那些只會給你一個“漲/跌”結(jié)論的「預(yù)測工具」,完全不是一個東西。

當(dāng)然,落地的效果還得等API正式上線才能驗證。但至少從目前公開的信息來看,Echo在做的事情是結(jié)構(gòu)化的。它沒有在較真自己模型準(zhǔn)不準(zhǔn),而是在搭建一套“讓人相信它準(zhǔn)”的驗證體系。這在預(yù)測AI這個領(lǐng)域,可能比“準(zhǔn)”本身更重要。

畢竟,如果一個AI真的能預(yù)測未來,你總得知道它什么時候該信,什么時候不該信。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
著名女星送醫(yī)期間遭性侵,救護(hù)員趁其無力反抗,用手機(jī)拍照威脅

著名女星送醫(yī)期間遭性侵,救護(hù)員趁其無力反抗,用手機(jī)拍照威脅

素素娛樂
2026-04-03 08:57:48
中美罕見默契一回!中國對美出口暴跌12.8%,美禁止進(jìn)口中國商品

中美罕見默契一回!中國對美出口暴跌12.8%,美禁止進(jìn)口中國商品

趣文說娛
2026-04-02 21:40:15
微軟憋了4年半,Win12把11的爛攤子全扔了

微軟憋了4年半,Win12把11的爛攤子全扔了

灰度測試中
2026-04-02 11:51:13
何時復(fù)出執(zhí)教?李春江正面回應(yīng) 李楠即將走向前臺春哥卻難替杜鋒

何時復(fù)出執(zhí)教?李春江正面回應(yīng) 李楠即將走向前臺春哥卻難替杜鋒

大嘴爵爺侃球
2026-04-03 10:02:36
世界杯最新戰(zhàn)報:8強(qiáng)全部誕生,國乒勁敵被淘汰,張本鏖戰(zhàn)7局晉級,溫瑞博面臨硬戰(zhàn)

世界杯最新戰(zhàn)報:8強(qiáng)全部誕生,國乒勁敵被淘汰,張本鏖戰(zhàn)7局晉級,溫瑞博面臨硬戰(zhàn)

林子說事
2026-04-03 08:38:35
官宣決定!拒絕退役!全紅嬋終于正式發(fā)聲,國家隊會召全紅嬋嗎?

官宣決定!拒絕退役!全紅嬋終于正式發(fā)聲,國家隊會召全紅嬋嗎?

喜歡歷史的阿繁
2026-04-03 09:24:14
浙江釣友釣到紫紋金斑銅錢鱖,有人出8萬遭拒,釣友表示想自己養(yǎng)

浙江釣友釣到紫紋金斑銅錢鱖,有人出8萬遭拒,釣友表示想自己養(yǎng)

魚窩魚窩
2026-04-03 09:26:55
反鎖在臥室打不開門,北京89歲獨(dú)居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機(jī)護(hù)欄外,還好獲救了

反鎖在臥室打不開門,北京89歲獨(dú)居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機(jī)護(hù)欄外,還好獲救了

大風(fēng)新聞
2026-04-02 21:08:04
普京拍板為伊朗兜底?特朗普通告全球,法國上將:中國遲早也要動

普京拍板為伊朗兜底?特朗普通告全球,法國上將:中國遲早也要動

霽寒飄雪
2026-04-03 09:59:03
深夜,大逆轉(zhuǎn)!霍爾木茲海峽通航大消息

深夜,大逆轉(zhuǎn)!霍爾木茲海峽通航大消息

日照日報
2026-04-03 09:37:42
道歉僅48小時,單依純再迎3大噩耗,個個戳她心窩

道歉僅48小時,單依純再迎3大噩耗,個個戳她心窩

寒士之言本尊
2026-04-01 16:12:35
戰(zhàn)功赫赫的紅軍軍團(tuán)長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

戰(zhàn)功赫赫的紅軍軍團(tuán)長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

磊子講史
2026-03-30 15:41:41
王偉烈士的妻子阮國琴退役了,如今,兒子也是一位海軍現(xiàn)役軍官

王偉烈士的妻子阮國琴退役了,如今,兒子也是一位海軍現(xiàn)役軍官

潮鹿逐夢
2026-04-01 18:52:17
從三聚氰胺到優(yōu)思益:十七年過去,我們還在原地打轉(zhuǎn)

從三聚氰胺到優(yōu)思益:十七年過去,我們還在原地打轉(zhuǎn)

鳳眼論
2026-04-02 15:35:27
價格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

價格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

南方都市報
2026-04-01 15:16:38
酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

有戲
2026-04-01 21:55:35
白酒再次被關(guān)注醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短,告訴你真相

白酒再次被關(guān)注醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短,告訴你真相

普陀動物世界
2026-03-31 20:52:21
“項王故里”景區(qū)招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

“項王故里”景區(qū)招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

閃電新聞
2026-04-02 11:12:54
你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

掠影后有感
2026-04-01 20:26:07
“世界級文旅項目”,爛尾了

“世界級文旅項目”,爛尾了

中國新聞周刊
2026-04-02 15:17:57
2026-04-03 12:15:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財經(jīng)科技媒體
131748文章數(shù) 862051關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長得很像嗎?

態(tài)度原創(chuàng)

手機(jī)
時尚
游戲
藝術(shù)
教育

手機(jī)要聞

存儲飆漲300%!手機(jī)漲價后沒人買:高通聯(lián)發(fā)科合計減產(chǎn)約2000萬顆處理器

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

《殺戮尖塔2》更新:刪牌貴上天!玩家紛紛嚇哭

藝術(shù)要聞

吳昌碩『扇畫』老辣古拙

教育要聞

教育部:義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗班、快慢班。(新華社)

無障礙瀏覽 進(jìn)入關(guān)懷版