337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

被指又一次DeepSeek時刻,實測kimi K2 Thinking被這幾道題難住了

0
分享至

作者|子川

來源|AI先鋒官

日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。

新模型一經推出,好評如潮!

HuggingFace 聯合創始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。


知名學者Alvin Wang Graylin 也夸贊,其已經超越西方的閉源模型。


為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?

我們接著往下看。

根據AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現非常突出。

比如,在Artificial Analysis智能指數中,獲得67分。


這一成績使其領先于所有的其他開源模型,包括最近發布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。

在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。


在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。


這成績已經不是國產SOTA了,當之無愧又一次的DeepSeek時刻。


據介紹, K2 Thinking 的參數規模高達萬億。

但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。


那K2 Thinking的實際效果到底如何?

老規矩,我們實測一番。

由于現在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經無法測出模型的能力了。

于是我們決定用歷屆模型經常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)

測試題一:愛心視覺錯題

這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。

目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。


K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。

測試題二:數值比較

測試題很簡單,9.11-9.9=?

看這次K2 Thinking能否答對!


回答正確!并且還很貼心的把計算過程列出來了。

測試題三:數數題

“strawberryrrrrrr"中有幾個字母“r"。

同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。

為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。


依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。

測試題四:竹子過門

一根5米長的竹竿,能不能通過高2米、寬2米的城門?

同樣這道題我們也做了簡單從處理。


終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。

下面再來道非常燒腦的邏輯題。

測試題五:愛因斯坦斑馬問題

提示詞:

1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業,喝不同的飲料,養不同的寵物。

2、英國人住在紅色的房子里;

3、西

班牙人養了一條狗;

4、日本人是一個油漆工;

5、意大利人喜歡喝茶;

6、挪威人住在左邊的第一個房子里;

7、綠房子在白房子的右邊;

8、攝影師養了一只蝸牛;

9、外交官住在黃房子里;

10、中間房子里的那個人喜歡喝牛奶;

11、喜歡喝咖啡的人住在綠房子里;

12、挪威人住在藍色的房子旁邊;

13、小提琴家喜歡喝橘子汁;

14、養狐貍的人所住的房子與醫師的房子相鄰;

15、養馬的人所住的房子與外交官的房子相鄰。

先給大家公布正確的答案。


回答錯誤,再次難倒。


為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。

測試題六:使用 p5.js 創建一個精彩的動畫

整體體驗非常流暢,效果十分不錯。

上上難度,來一個非常經典的編程題。

測試題七:天氣卡片

提示詞:

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

基本上提示詞上所有的功能都實現了,而且呈現的動畫效果依舊流暢。

看來難度不夠,最后再來一個非常復雜的游戲編程題。

測試題八:3D打磚游戲

提示詞:

“創建一個完全由鼠標控制的3D打磚塊游戲:

1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值

2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線

3.游戲機制:計分系統:擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%

4.視覺特效:磚塊擊碎時觸發粒子爆炸效果;球體運動軌跡添加動態拖尾光效;擋板碰撞時出現環形沖擊波動畫

5.交互增強:實時顯示分數和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”

同樣這次功能都基本實現了,不過也出現些許bug,無法移動到最左側。

看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。

總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。

大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

小舟談歷史
2026-03-08 08:00:04
研究發現自慰或性行為有助于改善睡眠

研究發現自慰或性行為有助于改善睡眠

映射生活的身影
2026-03-27 19:44:25
杜埃梅開二度+國家隊處子球,姆巴佩替補失良機,法國3-1哥倫比亞

杜埃梅開二度+國家隊處子球,姆巴佩替補失良機,法國3-1哥倫比亞

釘釘陌上花開
2026-03-30 05:13:27
太狠了!為了“顏值碾壓”,20歲小伙拿錘砸自己的臉,“男人為了變好看,比女人還狠”

太狠了!為了“顏值碾壓”,20歲小伙拿錘砸自己的臉,“男人為了變好看,比女人還狠”

發現新西蘭
2026-03-30 11:56:56
600488,3分鐘垂直漲停!醫藥股,放量爆發!主力資金,近40億凈流入!

600488,3分鐘垂直漲停!醫藥股,放量爆發!主力資金,近40億凈流入!

證券時報e公司
2026-03-30 12:20:53
誰是下一個?紋身師曬顧客感染者咬痕紋身引熱議

誰是下一個?紋身師曬顧客感染者咬痕紋身引熱議

游民星空
2026-03-29 10:06:07
隨著雷霆橫掃尼克斯,火箭大勝,西部最新排名出爐!快船穩居第8

隨著雷霆橫掃尼克斯,火箭大勝,西部最新排名出爐!快船穩居第8

薇說體育
2026-03-30 11:16:26
弟弟5歲走失,20年后哥哥求職,看到老板戴父親遺物當場痛哭

弟弟5歲走失,20年后哥哥求職,看到老板戴父親遺物當場痛哭

源遠講堂
2025-11-04 09:22:19
難怪特朗普不想打,美媒道出1個壞消息,比停戰更嚴重的后果顯現

難怪特朗普不想打,美媒道出1個壞消息,比停戰更嚴重的后果顯現

尋途
2026-03-30 09:58:17
張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

談史論天地
2026-03-30 07:33:27
67歲大爺搭伙半年后散伙,大爺:她真的不要臉,大姐:是你太過分

67歲大爺搭伙半年后散伙,大爺:她真的不要臉,大姐:是你太過分

秀秀情感課堂
2026-03-28 17:35:03
印度蔬菜為何不被認可?蛇瓜畝產達5噸,幾十年來一直發展不起來

印度蔬菜為何不被認可?蛇瓜畝產達5噸,幾十年來一直發展不起來

西樓知趣雜談
2026-03-15 07:31:47
一票難求,波黑對意大利的附加賽門票在二手平臺已暴漲近75倍

一票難求,波黑對意大利的附加賽門票在二手平臺已暴漲近75倍

懂球帝
2026-03-30 00:26:09
立陶宛請求訪華,當面向中方認錯?中方已開出接受訪華的條件

立陶宛請求訪華,當面向中方認錯?中方已開出接受訪華的條件

忠于法紀
2026-03-30 10:27:11
復婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

復婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

阿廢冷眼觀察所
2026-03-29 18:46:36
為娶學生拋棄懷孕發妻,16年后出軌他人妻,卻說:我從不玩弄女性

為娶學生拋棄懷孕發妻,16年后出軌他人妻,卻說:我從不玩弄女性

歷史人文2
2026-03-28 13:24:06
10歲夏洛特的藍眼:血脈純正像女王也像戴安娜,梅根的女兒比不了

10歲夏洛特的藍眼:血脈純正像女王也像戴安娜,梅根的女兒比不了

笑傲春秋
2026-03-29 18:05:03
印度擬從俄羅斯采購250億美元軍事裝備

印度擬從俄羅斯采購250億美元軍事裝備

參考消息
2026-03-30 10:54:05
做人要學杜月笙,杜月笙為人處事有多厲害,看這3個小故事就懂了

做人要學杜月笙,杜月笙為人處事有多厲害,看這3個小故事就懂了

千秋文化
2026-03-25 21:25:24
不可錯過!3月30日下午15:30比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!3月30日下午15:30比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-30 11:47:37
2026-03-30 12:59:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
467文章數 69關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

教育
藝術
健康
數碼
公開課

教育要聞

寵物式育兒,必然養出廢物!

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

AMD Zen6來了!下代EPYC Venice工程樣品曝光:三款測試平臺齊亮相

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版