337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

讓AI像人類一樣做高考數學題,夸克領跑、豆包緊隨

0
分享至

一年一度的高考落下帷幕。對大模型來說,這已經是它第三次參與這場本屬于人類考生的考試。

但和前兩年不同,之前人們喜歡安排大模型產品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數學。

一個有意思的變化在于,這兩天各種各樣的高考數學測評結果證明,今年大模型似乎有了質的飛躍——從純粹的文科生,成為了數學成績也不錯的理科生。

為驗證這一結果,我們也選取了四個AI產品——豆包、夸克、元寶和ChatGPT進行測評。



由于這幾家模型均具備多模態能力,所以我們將2025年全國新課標數學I卷的題目直接投喂給大模型,不做格式轉換,不開啟聯網搜索,所有測試模型只有一次答題機會。

關于考核標準,我們覺得如果讓AI參與考試,就應該把它們當作一個真正的考生考核

所以,本次測評拆解了三大維度

  • 結果正確率:AI考生能力的最直觀體現。
  • 答題速度:考試有時間限制,AI考生也應該注意時間安排。
  • 識別準確率:人類考生需要審題準確,不能出現看錯數字、符號等問題。所以有多模態能力的AI考生,也需要參與這一考核。

基于這三個維度,我們通過分別打分再計總分的形式,測試出AI考生們的高考數學的考試名次。

更細致的"閱卷規則"參考:



經過以上三個維度的綜合測試,最終AI考生們的全面考察結果如下:


*綜合測評圖


*綜合排名圖

如果單看純粹的卷面分,這幾家AI考生的數學分數都在110分以上。想起去年,AI們的高考數學題還經常不及格,真是今非昔比。

而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

誰答對了最多題?

直接的考試分數,是考生最關心的事情。

根據卷面分數,夸克、豆包和ChatGPT分列前三。

一個小插曲是,ChatGPT在難題中經常嘗試寫代碼解題,準確率較高。但考慮到高考現場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



解答題是讓各家AI考生有點為難的題目。尤其是16題,大家都有錯誤。

首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

豆包在這道題上犯錯的原因也有點令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

感覺這里豆包在審題上出現了理解偏差,不能將“m”和“n”區分開,正確理解m的含義。



在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發生在最后一步——“利用錯位相減法”得出最終結果的部分。

向上翻了一下思考過程,發現它有點“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結果錯誤。

誰答得最快,審題最清晰?

答題速度,屬于AI考生們的舒適區。

基本上,這四個AI考生的選擇題基本都能在60秒內出結果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

來到解答題,大家的耗時意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

不過在耗時更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認識別沒有問題后再開始解題。


*ChatGPT會自己放大圖片,來仔細檢查箭頭首尾在坐標軸上的位置

夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

這兩家做最難的解答題,單題最長耗費時間在4分鐘左右。



至于和多模態相關的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

不同的輸出風格,讓我找到AI老師

測到這里,本次AI考生的高考數學測評基本可以結束了。

但在就在核對答案的過程中,我還有一個不同尋常的發現。

參與測評的AI考生背后,基本都是推理模型。在仔細看大家的輸出時,我發現不同考生的思維輸出風格存在差異。而這種差異,會給真正想通過AI學習的考生,帶來不同的感覺和效果。

比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導性,比較像老師。元寶的內容,更像是數學學霸,很喜歡計算和公式。

拿頗具難度的第19題舉例。

同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現,而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點。



相比之下,豆包和元寶有點"做題機器"。

在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實只能用來對答案,難以引發思考。



元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計算步驟都更復雜一些,基本直奔計算而去,不會在表述中強調考點。


*元寶答案示例

如果從認真學習的角度,相信還是有更多人喜歡夸克老師的引導式畫風。



總之,這一次的測評中,我們真實把這四個AI考生真正當作人類測試。發現不管是腦力還是眼力,AI們的進步已經超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

歷史偉人錄
2026-03-15 20:20:22
被罵16年的獨裁者,卻用選票體面下臺:這記耳光打給誰?

被罵16年的獨裁者,卻用選票體面下臺:這記耳光打給誰?

斌聞天下
2026-04-15 07:40:03
失敗了這一生,卻偉大了千年

失敗了這一生,卻偉大了千年

最愛歷史
2026-04-12 13:02:51
國務院最新任免:免去孫衛東的外交部副部長職務

國務院最新任免:免去孫衛東的外交部副部長職務

上觀新聞
2026-04-14 15:24:08
加拿大真實養老現狀:從國內知名主任醫師到包餃子工,到底圖啥?

加拿大真實養老現狀:從國內知名主任醫師到包餃子工,到底圖啥?

天下霸奇
2026-04-15 09:10:54
活久見!網傳重慶全女健身房生意火爆,限女性顧客和男性教練進去

活久見!網傳重慶全女健身房生意火爆,限女性顧客和男性教練進去

火山詩話
2026-04-13 09:18:54
家屬講述沁陽男孩騎車遭繩索割喉細節:仍有一段氣管未找到

家屬講述沁陽男孩騎車遭繩索割喉細節:仍有一段氣管未找到

南方都市報
2026-04-14 19:49:19
科爾:這是追夢一年中最愛的時刻,為庫里依然站在這里感到開心

科爾:這是追夢一年中最愛的時刻,為庫里依然站在這里感到開心

懂球帝
2026-04-15 11:52:07
120W是“型號”不是功率?誤導消費者要付出代價

120W是“型號”不是功率?誤導消費者要付出代價

南方都市報
2026-04-13 00:36:10
馬競官方發meme調侃巴薩:摘掉獅子的頭套,發現其實是小狗

馬競官方發meme調侃巴薩:摘掉獅子的頭套,發現其實是小狗

懂球帝
2026-04-15 07:48:07
美國是如何把孔宋家族收割干凈?當時孔祥熙可是全球富豪榜第三名

美國是如何把孔宋家族收割干凈?當時孔祥熙可是全球富豪榜第三名

賤議你讀史
2026-04-14 18:37:12
羅志祥沒有猝死!但昔日的“時間管理大師”,如今真的快撐不住了

羅志祥沒有猝死!但昔日的“時間管理大師”,如今真的快撐不住了

好賢觀史記
2026-04-14 14:53:19
上海機器人批量進廠,8小時不間斷“打工”,拐點時刻或要等4年

上海機器人批量進廠,8小時不間斷“打工”,拐點時刻或要等4年

上觀新聞
2026-04-15 06:44:05
湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

云霄紀史觀
2026-04-14 02:08:48
賴在中國仁愛礁9000多天的菲律賓軍艦,現在已經不可能拖走了!

賴在中國仁愛礁9000多天的菲律賓軍艦,現在已經不可能拖走了!

共工之錨
2026-04-15 00:08:26
整天為印第安人叫屈,不如去黑龍江看看!海蘭泡先民更值得共情

整天為印第安人叫屈,不如去黑龍江看看!海蘭泡先民更值得共情

談史論天地
2026-04-11 14:10:03
“10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

“10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

妍妍教育日記
2026-04-15 08:25:03
抵制張敬軒風波升級!朱庭萱炮轟后,馬蹄露一封公開信炸翻評論區

抵制張敬軒風波升級!朱庭萱炮轟后,馬蹄露一封公開信炸翻評論區

談史論天地
2026-04-15 08:27:55
外國人扎堆來中國看病:住院3天賬單4萬美元,被歐美醫療逼瘋了!

外國人扎堆來中國看病:住院3天賬單4萬美元,被歐美醫療逼瘋了!

古事尋蹤記
2026-04-15 07:21:44
2026-04-15 12:28:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
127文章數 2關注度
往期回顧 全部

科技要聞

手機無死角上網?亞馬遜砸百億硬剛馬斯克

頭條要聞

媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

頭條要聞

媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

曾志偉辦73歲生日派對,逾百藝人到場

財經要聞

特朗普稱美國對伊朗的戰爭已經結束

汽車要聞

海豹08內飾首秀 大滿配“海王”旗艦

態度原創

本地
時尚
健康
手機
軍事航空

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

壞事做盡的瘋女人,集體翻紅了

干細胞抗衰4大誤區,90%的人都中招

手機要聞

國內售價約1.4萬元!蘋果首款折疊屏曝光:將采用石墨烯+VC散熱

軍事要聞

萬斯:對當前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關懷版