337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<small id="2ssss"></small>

<nav id="2ssss"><sup id="2ssss"></sup></nav>

<small id="2ssss"></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

谷歌Deep Think八語奧賽屠榜！自主攻克4大未解難題，科研壁壘崩塌

2026-04-08 12:05:15　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽，AI科研工具的語言壁壘正在被拆掉，數學與科學發現進入AI驅動新時代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」！

剛剛，Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子，甩出了一張前所未見的成績單。

一個AI，同一個大腦，八張不同語言的試卷，全部高分交卷。

在任何一個模型身上，這樣的成績實屬罕見。

從IMO金牌到區域賽全覆蓋

這次Deep Think拿下多個榜單高分，并非突然的單點爆發，而是一條已經持續了近一年的能力演進曲線。

首先登頂最硬核的推理賽場。

2025年7月，Gemini Deep Think首次在國際數學奧林匹克（IMO）達到金牌標準，42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

這兩個成績，DeepMind官方博客已經正式公布。

Google DeepMind隨后把這兩項成績都寫進了官方博客，作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

接著，Deep Think開始從「世界冠軍級單項突破」，走向「跨語言、跨學科、跨場景的系統驗證」。

2026年2月，Google連發三篇博客。

一篇介紹Gemini 3.1 Pro模型本體，一篇介紹Deep Think專用推理模式的重大升級，一篇來自DeepMind科學發現團隊，直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標：

Humanity's Last Exam拿下48.4%（無工具輔助），ARC-AGI-2達到84.6%（ARC Prize基金會官方驗證），Codeforces競賽編程Elo評分3455，2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。

這條路線非常清楚：先用IMO、ICPC這樣的世界級競賽，證明它的強大推理能力，然后再用多語種、區域賽和跨學科奧賽成績，證明它的跨語言、跨領域穩定遷移的通用深度推理能力。

Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

8語言成績單逐項細看

現在，把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數學奧賽本選（JMO Finals），滿分。

ICPC亞洲日本初賽，滿分。

其中，JMO本選這項成績甚至超過了當屆最高得分對應的80%水平，達到官方所說的「金獎相當」標準。

法語同樣滿分，100%。

中文就有意思了。

第41屆中國數學奧林匹克（CMO），Deep Think拿到86.3%，相當出色。但中國信息學奧賽（NOI）只有63.3%。

86.3%和63.3%之間的落差，畫出了AI推理能力的真實邊界。

在數學競賽里，模型面對的是抽象推導、證明構造和多步演繹，這恰好是Deep Think最擅長的能力帶。

但到了信息學競賽，問題就不只是「想明白」，還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束，并且在實現層面避免失誤。

前者更接近純推理，后者則要求「推理+算法設計+工程化實現」同時過關。

其它語種，韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里，Deep Think 也都實現了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看，這次最不尋常的一點其實不是某一門單科刷到滿分，而是同一個模型、同一種Deep Think推理系統，在多種語言的競賽試卷上，都交出了第一梯隊的成績。

這份成績單可靠嗎？

但這里有一個關鍵的缺失：

Conglong Li并沒有列出競品的具體對比數據：所有成績，全部來自Google內部評測。沒有第三方獨立復現，沒有競賽官方認證，評測方法完全沒有公開。

每道題是做一次還是做很多次取最優？推理時用了多少算力？有沒有人工提示工程介入？

這些直接影響成績含金量的細節，也都沒提。

還有一點容易被忽略：這些考試全部是各國區域選拔賽，不是國際決賽。

區域賽的題目難度和國際決賽之間，隔著一個量級。

研究員明確說了，這些成績「將被納入模型卡」，截至發稿，模型卡尚未正式更新。

所以，目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

多語言科研公平性

被忽視的真正戰場

為什么Google要專門花精力做8種語言的區域賽評測？

當前AI推理能力的評測，幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數學家、物理學家、工程師，只要母語不是英語，在使用AI科研工具時都要先過一道語言關。

Google選的這8種語言不是隨機的。

日語、韓語、中文覆蓋東亞科研重鎮，印地語、越南語覆蓋新興市場，法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起，這是全球科研產出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」，說它能「處理知識檢索和嚴格驗證，讓科學家專注于概念深度和創造性方向」。

結合這次的多語言成績，這句話的潛臺詞不難理解：這個倍增器，不僅限英語的科學家用。

更值得注意的是Deep Think在科研落地上已經走了多遠。

DeepMind公布了一個叫Aletheia的數學研究智能體，基于Deep Think驅動，能自主生成、驗證、修訂研究級數學問題的解法。

Aletheia由Deep Think驅動，能夠對研究級數學問題進行迭代式生成、驗證與修正

Aletheia已經參與產出了多篇研究論文，其中一篇完全由AI自主完成，計算了算術幾何中的特定結構常數。

另外，在700個開放數學問題的半自主評估中，它還獨立解決了4個此前未解的問題。

Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

在計算機科學領域，Deep Think幫助推翻了一個懸而未決十年的猜想，在物理學領域找到了宇宙弦引力輻射的新型解析解，在經濟學領域擴展了一個拍賣理論定理。

AI推理流程的示意圖，展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理，并通過自動化與人工驗證加以確認。

通過與專家合作解決18個研究難題，Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

這已經遠遠超出了「做競賽題」的范疇。

當競品還在卷英文benchmark排行榜的時候，Google已經在「AI科研加速器」領域找到了新戰場。

這件事請最重要的東西其實不是分數，它背后真正的信號是：AI科研工具的語言壁壘正在被當作一個工程問題來解決。

如果這條路走通了，全世界用日語、韓語、中文、印地語做研究的科學家，將第一次和英語母語者站在同一條起跑線上。

這一次，Google已經把牌攤在了桌上。

至于競爭對手誰會跟牌，相信我們很快也將看到。

參考資料：

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

吳泳銘成立阿里技術委員會，為何這四人入選？

虎嗅APP 2026-04-09 05:04:02
0 跟貼 0
AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

新智元 2026-04-07 09:43:43
0 跟貼 0

Meta首個“超級智能”模型亮相閉源路線大轉彎

財聯社 2026-04-09 03:43:09
0 跟貼 0

美AI搜索引擎公司轉投AI代理按量收費引營收單月暴增50%

財聯社 2026-04-09 03:18:07
0 跟貼 0
數學和英語好的人，成績一定是拔尖的，怎么自學數學和英語？

阿蘭回聲 2026-04-07 00:35:54
1 跟貼 1

072中考數學題，綜合了根式，倒數，相反數的知識

我服子佩 2026-04-07 13:26:06
1 跟貼 1

上海市競賽題，根式方程，會的不多

大力小學數學 2026-04-05 07:11:00
0 跟貼 0
066當年高考真題，并非出錯題了，根號下互為相反數如何處理

我服子佩 2026-04-07 13:24:43
1 跟貼 1

五年級數學，難倒全班同學

郎老師趣味數學課堂 2026-04-07 09:47:42
0 跟貼 0
051測測你的智商，數學游戲，用三個4表達15

我服子佩 2026-04-06 14:15:33
1 跟貼 1
062小學數學一道很普通的找規律填數字問題

我服子佩 2026-04-07 13:23:49
1 跟貼 1
032小升初數學提升，求兩個倒數之和為12的倒數，分數的拆分

我服子佩 2026-04-05 15:00:27
21 跟貼 21
小學數學裂項法求分數和

天天數理學習分享 2026-04-06 13:38:45
3 跟貼 3
080小學數學問題，拆分一個分數成為兩個倒數之差

我服子佩 2026-04-08 17:30:06
1 跟貼 1
記住兩個順口溜，數學猛漲30分。聽聽老師怎么說的

告白手工 2026-04-07 04:35:02
0 跟貼 0
小學數學求陰影部分面積不用全等也可以解

天天數理學習分享 2026-04-08 10:21:26
1 跟貼 1
057中學數學競賽題，不求方程的根，直接求出三次方

我服子佩 2026-04-06 15:33:58
1 跟貼 1
八年級數學，全軍覆沒

大力小學數學 2026-04-05 06:13:00
0 跟貼 0
官媒對王虹的稱呼變了，兩字之差釋放強烈信號，韋東奕說得太對

勇敢的人享受生活 2026-04-09 04:59:42
0 跟貼 0
050中考數學真題，給定變量之和，求一個高次冪表達式的值

我服子佩 2026-04-06 14:15:17
2 跟貼 2
048簡單的不等式題目，中考數學已知兩數和，求乘積最大值

我服子佩 2026-04-06 13:40:16
1 跟貼 1
六年級奧數題，三階幻方，尖子生被難哭

大力小學數學 2026-04-08 05:36:00
0 跟貼 0
小學奧數培優專題等差數列的應用，注意對于基本性質的了解要透徹

唐老師小課堂 2026-04-08 13:23:16
4 跟貼 4
小學數學分數求和估算簡單僅學一種思路

天天數理學習分享 2026-04-05 10:51:00
1 跟貼 1
“一段需要翻譯的加密對話”，你聽懂了嗎

斐林 2026-04-05 02:39:09
8 跟貼 8
中國主播用流利的英語懟的老外啞口無聲

超超說影視 2026-04-05 12:14:26
1 跟貼 1
幾何小白必看！等高模型輕松搞定陰影面積！

秒懂奧數李菁老師 2026-04-08 15:28:47
3 跟貼 3
25歲廣州女生拿下超14億元融資，尋找用AI做數學的同路人

每日經濟新聞 2026-04-07 08:54:41
8 跟貼 8
084初中數學競賽題，填入符號使等式成立，大把人做不出

我服子佩 2026-04-08 17:31:08
1 跟貼 1
數學老師講課畫三角形，結果最后畫出一張人臉，網友：最好笑的是其他人沒笑是因為沒聽課

安全與法 2026-04-08 11:47:43
0 跟貼 0
數學難題大挑戰，攜手突破難關！

天鏡云生m 2026-04-07 11:37:50
0 跟貼 0
中國數學水平落后美國80年

未來已來風云變幻 2026-04-08 04:49:32
0 跟貼 0
數學老師講解數學題，黑板上的題引人注目！

飛馳追夢 2026-04-06 06:52:15
1 跟貼 1
裸分進清華和保送進清華，哪個更牛逼？聽老師一語道破真相

萌寵教主 2026-04-08 02:25:00
0 跟貼 0
一個數除200余5，除300余1除400余10，這個數是多少

郎老師趣味數學課堂 2026-04-08 10:33:46
0 跟貼 0
高端數學靠的是天賦，努力是沒用的

涼心愛追劇 2026-04-05 12:44:08
7 跟貼 7
25-26浙江第四次聯考數學視頻講解

教育趣事收錄 2026-04-08 18:15:14
3 跟貼 3
倒三角符號在數學和物理公式里的意義

量子位 2026-01-08 13:59:54
0 跟貼 0
小馬格謎題大揭秘

文明不過星感冒v 2026-04-08 08:30:50
0 跟貼 0
小升初奧數培優專題等差數列的應用，直接法或公式法都可以求首項

唐老師小課堂 2026-04-08 13:33:58
1 跟貼 1

有些夫婦為了要個孩子能有多拼？網友：去趟普陀山試試

有些夫婦為了要個孩子能有多拼？網友：去趟普陀山試試

解讀熱點事件

2026-03-31 00:05:08

伊朗說同意談判但對美國“完全不信任”

伊朗說同意談判但對美國“完全不信任”

界面新聞

2026-04-08 09:32:23

美論壇：如果中國不再向美國出售任何東西，中國還能繼續繁榮嗎？

美論壇：如果中國不再向美國出售任何東西，中國還能繼續繁榮嗎？

真正能保護你的

2026-04-08 23:59:48

簽證被“倒查”！華人媽媽移民12年后被要求離境：只因十多年前一次遺漏

簽證被“倒查”！華人媽媽移民12年后被要求離境：只因十多年前一次遺漏

華人生活網

2026-04-09 02:36:26

廣東男籃球迷欣喜：戰勝青島之外另有六大原因

廣東男籃球迷欣喜：戰勝青島之外另有六大原因

佳佳說奇事故事

2026-04-09 06:23:33

圖片是清代正一品涼州將軍府衙門的一個門。

圖片是清代正一品涼州將軍府衙門的一個門。

慕容洞唐

2026-04-07 20:12:29

毛主席從不批評劉伯承和徐向前，一個是不忍批評，另一個無需批評

毛主席從不批評劉伯承和徐向前，一個是不忍批評，另一個無需批評

鶴羽說個事

2026-04-08 22:21:11

小孩子的瓜能有多炸裂？網友：我同桌男的，然后還是個手控

小孩子的瓜能有多炸裂？網友：我同桌男的，然后還是個手控

解讀熱點事件

2026-04-07 00:05:04

斯諾克世錦賽最新傅家俊降速 10-1橫掃世界冠軍中國3人出戰2人

斯諾克世錦賽最新傅家俊降速 10-1橫掃世界冠軍中國3人出戰2人

越嶺尋蹤

2026-04-08 07:55:01

直播間被指涉黃！中華老字號海河乳品道歉：相關店鋪商品已下架

直播間被指涉黃！中華老字號海河乳品道歉：相關店鋪商品已下架

界面新聞

2026-04-08 09:25:10

國家出手！全紅嬋已報警走了樊振東老路，陳芋汐擔心的事再次發生

國家出手！全紅嬋已報警走了樊振東老路，陳芋汐擔心的事再次發生

負面黑洞

2026-04-08 19:57:03

亞冠0-1，日本勁旅大阪鋼巴主場不敵泰國球隊，瀕臨出局

亞冠0-1，日本勁旅大阪鋼巴主場不敵泰國球隊，瀕臨出局

側身凌空斬

2026-04-08 19:54:25

這樣的“規則”太“霸王” ！無法說話，四肢癱瘓，16歲女孩誤購演唱會門票求退票，平臺規則“概不退票”

這樣的“規則”太“霸王” ！無法說話，四肢癱瘓，16歲女孩誤購演唱會門票求退票，平臺規則“概不退票”

新民晚報

2026-04-08 12:58:55

他敢寫，你敢讀嗎？揭開了那段被遮掩的歷史！

他敢寫，你敢讀嗎？揭開了那段被遮掩的歷史！

戰爭電影精選

2026-04-07 18:25:48

公關救不了一個想瘋的老板

智遠同學

2026-04-07 08:40:23

又一家回憶沒了，溫州老牌海鮮店正式關門

又一家回憶沒了，溫州老牌海鮮店正式關門

溫百君

2026-04-08 18:39:34

唐嫣穩站FendiC位，孟子義敬酒被當空氣表情失控，娛樂圈太現實

唐嫣穩站FendiC位，孟子義敬酒被當空氣表情失控，娛樂圈太現實

手工制作阿殲

2026-04-08 17:10:00

華為10年花13820億做研發，有啥用？蘋果小米為啥跟華為不一樣？

華為10年花13820億做研發，有啥用？蘋果小米為啥跟華為不一樣？

老方

2026-04-08 21:11:34

騙走50億被央視曝光！用小鮮肉的血抗衰,“撈金女王”這次真栽了

騙走50億被央視曝光！用小鮮肉的血抗衰,“撈金女王”這次真栽了

涵豆說娛

2026-04-08 18:36:49

不回休斯頓了？離開火箭，秒變準全明星！棄將攤牌：愿終老太陽隊

不回休斯頓了？離開火箭，秒變準全明星！棄將攤牌：愿終老太陽隊

熊哥愛籃球

2026-04-08 12:28:21

AI產業主平臺領航智能+時代

14926文章數 66754關注度

往期回顧全部

科技要聞

造出地表最強AI，卻死活不給你用！

頭條要聞

特朗普認為北約未通過“考驗” 將考慮“退群”

頭條要聞

特朗普認為北約未通過“考驗” 將考慮“退群”

體育要聞

40歲，但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假，一家四口幸福滿溢

財經要聞

天津海河乳業回應直播間涉黃

汽車要聞

20萬級滿配華為全家桶華境S是懂家庭的大六座

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

教育

旅游

親子

數碼

手機要聞

蘋果“三年計劃”曝光，iPhone要大變樣了？

教育要聞

“新型啃老”席卷全國：孩子不工作也不伸手要錢，家長害怕毀一生

旅游要聞

視頻｜入境游客眼中的上海長啥樣？外國游客：“每個人一生都要來一次上海”

親子要聞

胡圖圖說他差幾分就能兌換發卡

數碼要聞

最輕ThinkPad來了！ThinkPad X13 Gen 7發布

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<nav id="sss0s"></nav>

<tfoot id="sss0s"><noscript id="sss0s"></noscript></tfoot>

<tfoot id="sss0s"><noscript id="sss0s"></noscript></tfoot>

<tfoot id="sss0s"><dd id="sss0s"></dd></tfoot>

<tr id="sss0s"></tr><noscript id="sss0s"><dd id="sss0s"></dd></noscript>