337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報道

編輯:元宇

【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數學與科學發現進入AI驅動新時代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子,甩出了一張前所未見的成績單。



一個AI,同一個大腦,八張不同語言的試卷,全部高分交卷。

在任何一個模型身上,這樣的成績實屬罕見。

從IMO金牌到區域賽全覆蓋

這次Deep Think拿下多個榜單高分,并非突然的單點爆發,而是一條已經持續了近一年的能力演進曲線。

首先登頂最硬核的推理賽場。

2025年7月,Gemini Deep Think首次在國際數學奧林匹克(IMO)達到金牌標準,42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

這兩個成績,DeepMind官方博客已經正式公布。

Google DeepMind隨后把這兩項成績都寫進了官方博客,作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

接著,Deep Think開始從「世界冠軍級單項突破」,走向「跨語言、跨學科、跨場景的系統驗證」。

2026年2月,Google連發三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學發現團隊,直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標:

Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達到84.6%(ARC Prize基金會官方驗證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強大推理能力,然后再用多語種、區域賽和跨學科奧賽成績,證明它的跨語言、跨領域穩定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

8語言成績單逐項細看

現在,把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數學奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項成績甚至超過了當屆最高得分對應的80%水平,達到官方所說的「金獎相當」標準。

法語同樣滿分,100%。

中文就有意思了。

第41屆中國數學奧林匹克(CMO),Deep Think拿到86.3%,相當出色。但中國信息學奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫出了AI推理能力的真實邊界。

在數學競賽里,模型面對的是抽象推導、證明構造和多步演繹,這恰好是Deep Think最擅長的能力帶。

但到了信息學競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束,并且在實現層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設計+工程化實現」同時過關。

其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里,Deep Think 也都實現了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看,這次最不尋常的一點其實不是某一門單科刷到滿分,而是同一個模型、同一種Deep Think推理系統,在多種語言的競賽試卷上,都交出了第一梯隊的成績。

這份成績單可靠嗎?

但這里有一個關鍵的缺失:

Conglong Li并沒有列出競品的具體對比數據:所有成績,全部來自Google內部評測。沒有第三方獨立復現,沒有競賽官方認證,評測方法完全沒有公開。

每道題是做一次還是做很多次取最優?推理時用了多少算力?有沒有人工提示工程介入?

這些直接影響成績含金量的細節,也都沒提。

還有一點容易被忽略:這些考試全部是各國區域選拔賽,不是國際決賽。

區域賽的題目難度和國際決賽之間,隔著一個量級。

研究員明確說了,這些成績「將被納入模型卡」,截至發稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

多語言科研公平性

被忽視的真正戰場

為什么Google要專門花精力做8種語言的區域賽評測?

當前AI推理能力的評測,幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數學家、物理學家、工程師,只要母語不是英語,在使用AI科研工具時都要先過一道語言關。

Google選的這8種語言不是隨機的。

日語、韓語、中文覆蓋東亞科研重鎮,印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起,這是全球科研產出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴格驗證,讓科學家專注于概念深度和創造性方向」。

結合這次的多語言成績,這句話的潛臺詞不難理解:這個倍增器,不僅限英語的科學家用。

更值得注意的是Deep Think在科研落地上已經走了多遠。

DeepMind公布了一個叫Aletheia的數學研究智能體,基于Deep Think驅動,能自主生成、驗證、修訂研究級數學問題的解法。


Aletheia由Deep Think驅動,能夠對研究級數學問題進行迭代式生成、驗證與修正

Aletheia已經參與產出了多篇研究論文,其中一篇完全由AI自主完成,計算了算術幾何中的特定結構常數。


另外,在700個開放數學問題的半自主評估中,它還獨立解決了4個此前未解的問題。

Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

在計算機科學領域,Deep Think幫助推翻了一個懸而未決十年的猜想,在物理學領域找到了宇宙弦引力輻射的新型解析解,在經濟學領域擴展了一個拍賣理論定理。


AI推理流程的示意圖,展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理,并通過自動化與人工驗證加以確認。

通過與專家合作解決18個研究難題,Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

這已經遠遠超出了「做競賽題」的范疇。

當競品還在卷英文benchmark排行榜的時候,Google已經在「AI科研加速器」領域找到了新戰場。

這件事請最重要的東西其實不是分數,它背后真正的信號是:AI科研工具的語言壁壘正在被當作一個工程問題來解決。

如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學家,將第一次和英語母語者站在同一條起跑線上。

這一次,Google已經把牌攤在了桌上。

至于競爭對手誰會跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗的賠償有著落了!

伊朗的賠償有著落了!

阿七說史
2026-04-09 15:17:51
反轉來襲!陳光標松口,千萬捐款可交租,嫣然見曙光

反轉來襲!陳光標松口,千萬捐款可交租,嫣然見曙光

郭蛹包工頭
2026-04-09 12:53:59
伊朗最高領袖發聲

伊朗最高領袖發聲

第一財經資訊
2026-04-07 09:07:21
霍爾木茲海峽又變規矩了,6國船只可以安全通航?都是熟悉的國家

霍爾木茲海峽又變規矩了,6國船只可以安全通航?都是熟悉的國家

奧字侃劇
2026-04-09 15:09:47
中年人控制體重的3個方法,巨有效

中年人控制體重的3個方法,巨有效

增肌減脂
2026-04-09 16:50:11
喜賦鄭麗文主席今日上午參觀洋山深水港區

喜賦鄭麗文主席今日上午參觀洋山深水港區

千千千里馬
2026-04-09 14:32:57
河北姑娘在青島海邊夜拍時候光線不佳 這時圍上一群本地小伙兒……網友:隨浪花而來的是澎湃的善意

河北姑娘在青島海邊夜拍時候光線不佳 這時圍上一群本地小伙兒……網友:隨浪花而來的是澎湃的善意

閃電新聞
2026-04-09 12:45:54
父親肺炎急送ICU不幸離世! 女星崩潰爆哭吐最大遺憾

父親肺炎急送ICU不幸離世! 女星崩潰爆哭吐最大遺憾

ETtoday星光云
2026-04-09 16:42:24
7年敗光數億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

7年敗光數億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

以茶帶書
2026-03-30 18:03:47
為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

混沌錄
2026-04-09 16:05:22
烏克蘭無人機發射量反超俄?疑零部件有問題,俄主力導彈精度劇降

烏克蘭無人機發射量反超俄?疑零部件有問題,俄主力導彈精度劇降

鷹眼Defence
2026-04-07 17:28:48
深感痛心!深圳市衛健委深夜發布情況說明

深感痛心!深圳市衛健委深夜發布情況說明

梅斯醫學
2026-04-09 09:21:21
美媒披露特朗普發動伊朗戰爭內幕:“全憑直覺”,除萬斯外無人反對

美媒披露特朗普發動伊朗戰爭內幕:“全憑直覺”,除萬斯外無人反對

澎湃新聞
2026-04-08 20:56:27
隨著上海17連勝,廣東逆轉青島+廣廈掀翻山東,CBA積分榜一夜亂了

隨著上海17連勝,廣東逆轉青島+廣廈掀翻山東,CBA積分榜一夜亂了

侃球熊弟
2026-04-08 22:29:20
澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

鶴羽說個事
2026-03-25 21:56:09
浙媒:浙江隊就銅梁龍球員李鎮全的違規行為提出追責申請

浙媒:浙江隊就銅梁龍球員李鎮全的違規行為提出追責申請

懂球帝
2026-04-09 11:30:09
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
費玉清現狀:隱退7年,獨居臺北社交玩失聯,70歲無兒女生活樸素

費玉清現狀:隱退7年,獨居臺北社交玩失聯,70歲無兒女生活樸素

白面書誏
2026-04-09 15:07:09
趁你病要你命!鄭智遭1-5暴擊主場搶分 李金羽上門補刀劍指三連勝

趁你病要你命!鄭智遭1-5暴擊主場搶分 李金羽上門補刀劍指三連勝

刀鋒體育
2026-04-09 09:32:17
"豬八戒"馬德華攤牌了!透露陳麗華追悼會細節,遲重瑞狀態曝光

"豬八戒"馬德華攤牌了!透露陳麗華追悼會細節,遲重瑞狀態曝光

觀察鑒娛
2026-04-09 10:22:56
2026-04-09 17:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14933文章數 66756關注度
往期回顧 全部

科技要聞

Meta凌晨首發閉源大模型 扎克伯格又行了?

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

體育要聞

8萬人面前心臟驟停 現在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經要聞

談判基礎已被破壞!霍爾木茲海峽關閉

汽車要聞

文飛的回歸 給神行者帶來什么?

態度原創

健康
旅游
親子
教育
數碼

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

【評論】從“有假可休”到“敢休會休”,文旅繁榮差一個更合理的春秋假制度

親子要聞

“喪偶式育兒”缺位的不只是父親,媽媽也難辭其咎

教育要聞

省政府發文:高校需引進足球教練員

數碼要聞

機械師推出G7三模鼠標:超頻24000DPI,56g,首發價99元

無障礙瀏覽 進入關懷版