337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報道

編輯:元宇

【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數學與科學發現進入AI驅動新時代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子,甩出了一張前所未見的成績單。



一個AI,同一個大腦,八張不同語言的試卷,全部高分交卷。

在任何一個模型身上,這樣的成績實屬罕見。

從IMO金牌到區域賽全覆蓋

這次Deep Think拿下多個榜單高分,并非突然的單點爆發,而是一條已經持續了近一年的能力演進曲線。

首先登頂最硬核的推理賽場。

2025年7月,Gemini Deep Think首次在國際數學奧林匹克(IMO)達到金牌標準,42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

這兩個成績,DeepMind官方博客已經正式公布。

Google DeepMind隨后把這兩項成績都寫進了官方博客,作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

接著,Deep Think開始從「世界冠軍級單項突破」,走向「跨語言、跨學科、跨場景的系統驗證」。

2026年2月,Google連發三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學發現團隊,直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標:

Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達到84.6%(ARC Prize基金會官方驗證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強大推理能力,然后再用多語種、區域賽和跨學科奧賽成績,證明它的跨語言、跨領域穩定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

8語言成績單逐項細看

現在,把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數學奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項成績甚至超過了當屆最高得分對應的80%水平,達到官方所說的「金獎相當」標準。

法語同樣滿分,100%。

中文就有意思了。

第41屆中國數學奧林匹克(CMO),Deep Think拿到86.3%,相當出色。但中國信息學奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫出了AI推理能力的真實邊界。

在數學競賽里,模型面對的是抽象推導、證明構造和多步演繹,這恰好是Deep Think最擅長的能力帶。

但到了信息學競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束,并且在實現層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設計+工程化實現」同時過關。

其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里,Deep Think 也都實現了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看,這次最不尋常的一點其實不是某一門單科刷到滿分,而是同一個模型、同一種Deep Think推理系統,在多種語言的競賽試卷上,都交出了第一梯隊的成績。

這份成績單可靠嗎?

但這里有一個關鍵的缺失:

Conglong Li并沒有列出競品的具體對比數據:所有成績,全部來自Google內部評測。沒有第三方獨立復現,沒有競賽官方認證,評測方法完全沒有公開。

每道題是做一次還是做很多次取最優?推理時用了多少算力?有沒有人工提示工程介入?

這些直接影響成績含金量的細節,也都沒提。

還有一點容易被忽略:這些考試全部是各國區域選拔賽,不是國際決賽。

區域賽的題目難度和國際決賽之間,隔著一個量級。

研究員明確說了,這些成績「將被納入模型卡」,截至發稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

多語言科研公平性

被忽視的真正戰場

為什么Google要專門花精力做8種語言的區域賽評測?

當前AI推理能力的評測,幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數學家、物理學家、工程師,只要母語不是英語,在使用AI科研工具時都要先過一道語言關。

Google選的這8種語言不是隨機的。

日語、韓語、中文覆蓋東亞科研重鎮,印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起,這是全球科研產出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴格驗證,讓科學家專注于概念深度和創造性方向」。

結合這次的多語言成績,這句話的潛臺詞不難理解:這個倍增器,不僅限英語的科學家用。

更值得注意的是Deep Think在科研落地上已經走了多遠。

DeepMind公布了一個叫Aletheia的數學研究智能體,基于Deep Think驅動,能自主生成、驗證、修訂研究級數學問題的解法。


Aletheia由Deep Think驅動,能夠對研究級數學問題進行迭代式生成、驗證與修正

Aletheia已經參與產出了多篇研究論文,其中一篇完全由AI自主完成,計算了算術幾何中的特定結構常數。


另外,在700個開放數學問題的半自主評估中,它還獨立解決了4個此前未解的問題。

Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

在計算機科學領域,Deep Think幫助推翻了一個懸而未決十年的猜想,在物理學領域找到了宇宙弦引力輻射的新型解析解,在經濟學領域擴展了一個拍賣理論定理。


AI推理流程的示意圖,展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理,并通過自動化與人工驗證加以確認。

通過與專家合作解決18個研究難題,Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

這已經遠遠超出了「做競賽題」的范疇。

當競品還在卷英文benchmark排行榜的時候,Google已經在「AI科研加速器」領域找到了新戰場。

這件事請最重要的東西其實不是分數,它背后真正的信號是:AI科研工具的語言壁壘正在被當作一個工程問題來解決。

如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學家,將第一次和英語母語者站在同一條起跑線上。

這一次,Google已經把牌攤在了桌上。

至于競爭對手誰會跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
有些夫婦為了要個孩子能有多拼?網友:去趟普陀山試試

有些夫婦為了要個孩子能有多拼?網友:去趟普陀山試試

解讀熱點事件
2026-03-31 00:05:08
伊朗說同意談判但對美國“完全不信任”

伊朗說同意談判但對美國“完全不信任”

界面新聞
2026-04-08 09:32:23
美論壇:如果中國不再向美國出售任何東西,中國還能繼續繁榮嗎?

美論壇:如果中國不再向美國出售任何東西,中國還能繼續繁榮嗎?

真正能保護你的
2026-04-08 23:59:48
簽證被“倒查”!華人媽媽移民12年后被要求離境:只因十多年前一次遺漏

簽證被“倒查”!華人媽媽移民12年后被要求離境:只因十多年前一次遺漏

華人生活網
2026-04-09 02:36:26
廣東男籃球迷欣喜:戰勝青島之外另有六大原因

廣東男籃球迷欣喜:戰勝青島之外另有六大原因

佳佳說奇事故事
2026-04-09 06:23:33
圖片是清代正一品涼州將軍府衙門的一個門。

圖片是清代正一品涼州將軍府衙門的一個門。

慕容洞唐
2026-04-07 20:12:29
毛主席從不批評劉伯承和徐向前,一個是不忍批評,另一個無需批評

毛主席從不批評劉伯承和徐向前,一個是不忍批評,另一個無需批評

鶴羽說個事
2026-04-08 22:21:11
小孩子的瓜能有多炸裂?網友:我同桌男的,然后還是個手控

小孩子的瓜能有多炸裂?網友:我同桌男的,然后還是個手控

解讀熱點事件
2026-04-07 00:05:04
斯諾克世錦賽最新 傅家俊降速 10-1橫掃世界冠軍 中國3人出戰2人

斯諾克世錦賽最新 傅家俊降速 10-1橫掃世界冠軍 中國3人出戰2人

越嶺尋蹤
2026-04-08 07:55:01
直播間被指涉黃!中華老字號海河乳品道歉:相關店鋪商品已下架

直播間被指涉黃!中華老字號海河乳品道歉:相關店鋪商品已下架

界面新聞
2026-04-08 09:25:10
國家出手!全紅嬋已報警走了樊振東老路,陳芋汐擔心的事再次發生

國家出手!全紅嬋已報警走了樊振東老路,陳芋汐擔心的事再次發生

負面黑洞
2026-04-08 19:57:03
亞冠0-1,日本勁旅大阪鋼巴主場不敵泰國球隊,瀕臨出局

亞冠0-1,日本勁旅大阪鋼巴主場不敵泰國球隊,瀕臨出局

側身凌空斬
2026-04-08 19:54:25
這樣的“規則”太“霸王” !無法說話,四肢癱瘓,16歲女孩誤購演唱會門票求退票,平臺規則“概不退票”

這樣的“規則”太“霸王” !無法說話,四肢癱瘓,16歲女孩誤購演唱會門票求退票,平臺規則“概不退票”

新民晚報
2026-04-08 12:58:55
他敢寫,你敢讀嗎?揭開了那段被遮掩的歷史!

他敢寫,你敢讀嗎?揭開了那段被遮掩的歷史!

戰爭電影精選
2026-04-07 18:25:48
公關救不了一個想瘋的老板

公關救不了一個想瘋的老板

智遠同學
2026-04-07 08:40:23
又一家回憶沒了,溫州老牌海鮮店正式關門

又一家回憶沒了,溫州老牌海鮮店正式關門

溫百君
2026-04-08 18:39:34
唐嫣穩站FendiC位,孟子義敬酒被當空氣表情失控,娛樂圈太現實

唐嫣穩站FendiC位,孟子義敬酒被當空氣表情失控,娛樂圈太現實

手工制作阿殲
2026-04-08 17:10:00
華為10年花13820億做研發,有啥用?蘋果小米為啥跟華為不一樣?

華為10年花13820億做研發,有啥用?蘋果小米為啥跟華為不一樣?

老方
2026-04-08 21:11:34
騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

涵豆說娛
2026-04-08 18:36:49
不回休斯頓了?離開火箭,秒變準全明星!棄將攤牌:愿終老太陽隊

不回休斯頓了?離開火箭,秒變準全明星!棄將攤牌:愿終老太陽隊

熊哥愛籃球
2026-04-08 12:28:21
2026-04-09 07:04:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14926文章數 66754關注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

特朗普認為北約未通過“考驗” 將考慮“退群”

頭條要聞

特朗普認為北約未通過“考驗” 將考慮“退群”

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經要聞

天津海河乳業回應直播間涉黃

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態度原創

手機
教育
旅游
親子
數碼

手機要聞

蘋果“三年計劃”曝光,iPhone要大變樣了?

教育要聞

“新型啃老”席卷全國:孩子不工作也不伸手要錢,家長害怕毀一生

旅游要聞

視頻|入境游客眼中的上海長啥樣?外國游客:“每個人一生都要來一次上海”

親子要聞

胡圖圖說他差幾分就能兌換發卡

數碼要聞

最輕ThinkPad來了!ThinkPad X13 Gen 7發布

無障礙瀏覽 進入關懷版