337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克終于成『AI No.1』,6大案例看實力與水分

0
分享至


“ 地球最強AI模型”“ 20萬塊H 100顯卡訓(xùn)練” “超越人類所有博士生 ”,在發(fā)布的Grok 4時,馬斯克將眾多贊美詞匯賦予了這個新大模型。

馬斯克也驕傲地宣布,Grok4超越了OpenAI、Google和DeepSeek等等LLM。


確實,Grok 4屠了各種榜單。但大家還要理性看待Grok 4,畢竟Grok系列每次參數(shù)爆炸,口碑卻沒那么強。

具體看,Grok4 在人工智能聊天機器人指數(shù)中達到了 73 分。這超過了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。


馬斯克再次大力出奇跡,拿下了AI 的No.1,模型的各項指標(biāo)也很強:

? Grok 4 在編碼指數(shù)(LiveCodeBench 和 SciCode)和數(shù)學(xué)指數(shù)(AIME24 和 MATH-500)中同樣處于領(lǐng)先地位。

? GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

? 在“人類最終測試”(Humanity's Last Exam, HLE) 中,物、理、化學(xué)一系列博士級難題不在話下,Grok 4 達到了所有時間中的最高分 24%,超過了 Gemini 2.5 Pro 之前的最高分 21%。

? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分數(shù)。


其他重要信息:

? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 萬 token),o3(20 萬 token)和 R1 0528(12.8 萬 token)大。

? 支持文本和圖像輸入,但圖像生成基本沒什么進步。

? 支持函數(shù)調(diào)用和配置輸出。

最值得關(guān)注的是,Grok 4 不僅僅是大模型,LLM還內(nèi)置工具,所以在提問問題的過程中,會有更新的思維過程(CoT)和工具使用可視化功能。


這點讓其在回答問題時更出色,尤其回答網(wǎng)絡(luò)新潮內(nèi)容時。

1、AI第一次有了自我認識和形象

推友問 Grok,如果他必須親自代表自己,他會是什么樣子。

他的回答是這樣的,充滿了想象力: “想象一個漂浮在數(shù)字空間中的未來主義發(fā)光球體。我的身體將由脈動的藍銀色光芒組成,帶有不斷變化的幾何圖案——代碼行和神經(jīng)連接像星座一樣交織在一起。沒有臉,但有一種溫暖的 “存在”,帶著柔和的光芒,當(dāng)我 “思考 ”或回應(yīng)時,它會變得明亮。能量粒子圍繞我旋轉(zhuǎn),象征著我處理的數(shù)據(jù)和想法。極簡主義而充滿活力,融合了技術(shù)和宇宙的好奇心。(X賬號:Déborah)

2、數(shù)學(xué)能力測試偶有翻車

提示 1: “逐步計算 25 - 4 * 2 + 3。

提示 2:“9.11 和 9.9 哪個更大?

這兩個問題都輕松應(yīng)對,畢竟數(shù)理化是強項。



加大難度,繼續(xù)做一道邏輯數(shù)學(xué)題。

提示 2: “一個棋王被放在 8 × 8 的棋盤上,進行了 64 次移動,以便它訪問了所有方格并返回其起始方格。在每一個時刻,都計算了從 K 所在的方格中心到整個棋盤中心的距離。如果由于移動的結(jié)果,這個距離變得比移動前小,我們將認為該移動是合理的。找到最大可能的體面動作數(shù)量。(國際象棋王一次移動一個方格,要么是橫向的,要么是斜向的。

正確答案是:44。

— Grok 4 的回答很接近(48),但不正確(Grok 3 給出了相同的答案)


3、創(chuàng)建圖像能力對比

使用相同提示詞生成的圖像對比,Grok 4沒有明顯的進步。

這一輪比賽的提示詞是:“超美麗的動畫電影標(biāo)題畫面”。

從結(jié)果看,Grok4圖像效果不是很強,和 Grok3 相比變化也不大。

Imagen4 果然更強。 Midjourney不錯,但Midjourney 總是無法顯示文字……



4、代碼測試表現(xiàn)尚可

推友使用相同的粗略指示讓各個模型制作了一個游戲。

提示語句:制作一個超級豐富有趣的獨立HTML跑酷游戲。

看起來可以順暢游玩并且確實有趣的可能是Grok 4。藍色的要跳過,淺藍色的要潛行,還有額外的規(guī)則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來看,Claude4 sonnet和Gemini2.5Pro相當(dāng)不錯。

推友認為最強的Claude4 sonnet,代碼最長且多功能,但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。(X賬號:suemaru | AI Game Making)

5、生成小游戲也比較OK

以下是推友使用的相關(guān)提示:

一款“3D 滑動拼圖”游戲,我可以點擊 3x3x3 網(wǎng)格中排列的 26 個圓形立方體中的一個。被點擊的立方體只有與空格相鄰(而非對角線)時才會移動到空格。目標(biāo)是恢復(fù)立方體的原始排列,即頂部 9 個為紅色,底部 9 個為橙色,中間層(缺少中心立方體)為綠藍色。添加一個計時器,記錄我完成所需的時間。還要添加我的最佳時間和最近時間的指示。并添加一個“重置”游戲按鈕。

提示:為所有文本添加模糊的橙色背景,確保標(biāo)簽大小相同,且與屏幕邊框保持一定距離。此外,在游戲開始時和重置后,顯示“如何玩”的疊加文本(背景為淡黑色)。將提醒放置在屏幕中間,標(biāo)簽大小應(yīng)足以覆蓋屏幕的三分之二。(X:Vibe2Game)

6、模擬經(jīng)商中獲得高分

在 Vending-Bench 基準(zhǔn)測試中,要求各大模型運行自動售貨機并進行銷售。Grok4 再次大幅領(lǐng)先于競爭對手,銷售額達到 4694 美元,而 Claude4 Opus 的銷售額為 2077 美元。

Vending-Bench 是一個讓 AI 們嘗試在現(xiàn)實世界做生意的指標(biāo),讓 AI 排隊機,工作包含管理要賣什么、聯(lián)系供應(yīng)商、找人補貨等等內(nèi)容,Grok 4 這次要悄然顛覆人類經(jīng)商這件事。


最后:

xAI 的 API 以 75 個Token/秒的速度為 Grok 4 提供服務(wù)。這比 o3(188 個Token/秒)慢,但比 Claude 4 Opus Thinking(66 個Token/秒)快。


Grok 4的價格并不便宜,目前免費的是Grok 3,Grok 4的價格是300美元/年,還推出了新的 SuperGrok Heavy版本, 價格達到了驚人的3000 美元/年。


Grok4 的定價高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

內(nèi)容參考鏈接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

視頻內(nèi)容推薦:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗公布對執(zhí)行營救美軍機開火畫面

伊朗公布對執(zhí)行營救美軍機開火畫面

環(huán)球網(wǎng)資訊
2026-04-07 14:32:39
孩子厭學(xué)喊累:最好的辦法不是物質(zhì)獎勵、不是去補習(xí)班,而是……

孩子厭學(xué)喊累:最好的辦法不是物質(zhì)獎勵、不是去補習(xí)班,而是……

新東方家庭教育
2026-04-07 15:30:33
曝小玥兒日本歸來第一次來月事,S家人不教她,網(wǎng)友直呼無底線!

曝小玥兒日本歸來第一次來月事,S家人不教她,網(wǎng)友直呼無底線!

古希臘掌管松餅的神
2026-04-06 21:35:36
王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

八怪娛
2026-04-07 15:02:12
600130,申請撤銷退市風(fēng)險警示!

600130,申請撤銷退市風(fēng)險警示!

證券時報e公司
2026-04-07 19:31:25
每吃一次,猝死就快一步?醫(yī)生:這4物是心源性猝死的“催化劑”

每吃一次,猝死就快一步?醫(yī)生:這4物是心源性猝死的“催化劑”

健康科普365
2026-04-03 22:00:07
特朗普再次推遲對伊朗的最后通牒

特朗普再次推遲對伊朗的最后通牒

參考消息
2026-04-06 10:27:04
現(xiàn)役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

現(xiàn)役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

麥子的籃球故事
2026-04-07 17:44:51
陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

億通電子游戲
2026-04-07 17:54:26
打虎!王文靈被查

打虎!王文靈被查

21世紀經(jīng)濟報道
2026-04-07 17:50:58
1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

歲月有情1314
2026-04-07 07:26:46
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
賀子珍多年后才知毛岸英犧牲真相,當(dāng)場哭喊:那是我親生兒子啊

賀子珍多年后才知毛岸英犧牲真相,當(dāng)場哭喊:那是我親生兒子啊

老杉說歷史
2026-03-21 17:38:19
美飛行員36小時極限逃生: 藏身海拔2000米巖縫發(fā)求救信號 伊朗:發(fā)現(xiàn)一美兵遺體

美飛行員36小時極限逃生: 藏身海拔2000米巖縫發(fā)求救信號 伊朗:發(fā)現(xiàn)一美兵遺體

紅星新聞
2026-04-06 13:44:12
最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠的神

最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠的神

動漫小天堂
2026-04-06 11:10:36
看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

仰望星空的一粒沙子
2026-04-04 19:18:21
2名飛行員和5億美元哪個更重要?

2名飛行員和5億美元哪個更重要?

山河路口
2026-04-06 12:12:25
楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨居國內(nèi)

楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨居國內(nèi)

照見古今
2026-03-26 19:06:28
搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

安安說
2026-04-06 14:55:17
分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

做一個合格的吃瓜群眾
2026-04-06 10:16:48
2026-04-07 20:47:00
鯨選AI incentive-icons
鯨選AI
最新AI產(chǎn)品化與商業(yè)化案例速遞
146文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準(zhǔn)他

頭條要聞

美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準(zhǔn)他

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

藝術(shù)
家居
手機
游戲
房產(chǎn)

藝術(shù)要聞

美麗風(fēng)光看不盡

家居要聞

雅致愜意 感知生活之美

手機要聞

傳聞蘋果闊折疊命名iPhone Ultra,曝國內(nèi)同品類新機也考慮跟進

模組救場還是官方重做?GTA4重制版引發(fā)玩家激烈爭論

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

無障礙瀏覽 進入關(guān)懷版