337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

千問版Gemini3,來了

0
分享至


作者 | Yoky
郵箱 | yokyliu@pingwest.com

第一個國產(chǎn)版Gemini3,來了。

1月26日,阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking。

據(jù)介紹,Qwen3-Max-Thinking總參數(shù)超萬億、預(yù)訓(xùn)練數(shù)據(jù)量高達36T Tokens,在科學(xué)知識(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項權(quán)威評測中刷新了全球紀(jì)錄。它在數(shù)學(xué)推理AIME 25和HMMT 25上拿到了國內(nèi)首個雙滿分,甚至在“人類最后的測試”HLE中得分58.3,大幅超過GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。


更關(guān)鍵的是時間點。如果你最近關(guān)注AI圈,會發(fā)現(xiàn)各家大模型廠商都在憋大招,阿里搶在這個節(jié)骨眼上發(fā)布Qwen3-Max-Thinking,擺明了就是要搶“國產(chǎn)第一個Gemini 3”的名號。

榜單數(shù)據(jù)再好看,到底能不能媲美Gemini3?

試了幾次Qwen生成代碼,前幾次任務(wù)失敗率還挺高的,但只要碰到阿里擅長的場景,表現(xiàn)就完全不一樣。比如讓它做一個賣水果的電商網(wǎng)站,商品分類、加購物車、一起結(jié)算這些功能,基本一次就寫出來了,而且邏輯很完整,體驗也流暢。很明顯,電商這種場景它見得太多了,淘寶天貓的數(shù)據(jù)喂得夠飽,所以做起來特別順手。

但換成其他類型的任務(wù),成功率就不太穩(wěn)定了。如果你的需求正好在它的舒適區(qū)里,那體驗確實要相對好;如果偏離了,可能得多試幾次調(diào)整提示詞。

我還專門測試了一個更復(fù)雜的交互案例:用攝像頭做體感控制的打氣球游戲,這也是Gemini 3展示過的經(jīng)典demo。具體需求是:用手勢控制屏幕上的準(zhǔn)星,做捏合動作(拇指和食指并攏)來射擊從下往上飄的氣球,還要有天空背景、云層漂移、擊中特效、連擊反饋這些細(xì)節(jié)。

千問的表現(xiàn)讓我有點意外。整個游戲的框架它一次就搭出來了:天空漸變背景、氣球從底部生成往上飄、大小不同速度不同、UI顯示分?jǐn)?shù)和連擊數(shù),這些基礎(chǔ)邏輯都沒問題。

交互效果做得挺有意思。伸出食指,屏幕上的準(zhǔn)星就會跟著手移動,拇指和食指捏合就能開火。擊中氣球的瞬間,屏幕會輕微震動,氣球爆開時有粒子特效散開,還有“啵”的一聲音效,反饋感做得很足。連續(xù)擊中會顯示combo數(shù)字,這種即時反饋確實有代入感。

但實際玩起來有個明顯的問題:瞄不準(zhǔn)。手指明明對著一個氣球,但準(zhǔn)星位置總是偏的,打了好幾發(fā)才能碰巧打中。這應(yīng)該是手部追蹤和屏幕坐標(biāo)映射之間有偏差,或者校準(zhǔn)算法不夠精確。雖然Qwen做出了體感控制的完整流程:攝像頭調(diào)用、手勢識別、射擊反饋這些環(huán)節(jié)都跑通了,但核心的“指哪打哪”這個精度沒做好,導(dǎo)致游戲性打了折扣。

不過,千問這次最厲害的地方,不是參數(shù)有多大,而是它“想問題”的方式變了。在關(guān)鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴展(Test-time Scaling)機制,推理性能提升的同時還更經(jīng)濟。

打個比方,以前的AI做數(shù)學(xué)題是這樣的:同時寫10份答案,然后投票看哪個對的人多,就選哪個。這種方法很笨,浪費算力,而且10份答案里可能犯的都是同一個錯誤。

Qwen3改成了人類的做法:先做一遍,做完看看哪里不對,總結(jié)一下經(jīng)驗,再重新做。就像你做錯題本一樣,第二遍肯定比第一遍做得好。結(jié)果就是,在那個需要用工具解決問題的測試?yán)铮琎wen拿了58.3分,Gemini只有45.8分,差了一大截。

在調(diào)用工具層面,千問的做法是把工具使用能力“訓(xùn)練進”模型里,在完成初步的工具使用微調(diào)后,通義團隊對模型進一步在大量多樣化任務(wù)上進行了基于規(guī)則獎勵與模型獎勵的聯(lián)合強化學(xué)習(xí)訓(xùn)練,使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進行思考的能力。

它用三步訓(xùn)練法:先教會用工具,再在各種任務(wù)里強化練習(xí),最后形成條件反射。好處很明顯:用起來又快又順,不用每次都去讀工具說明書,而且模型自己知道該在什么時候用什么工具。這就是為什么Qwen在HLE測試?yán)锉菺emini高出12分,特別是需要連續(xù)用好幾個工具解決復(fù)雜問題的時候,這種“肌肉記憶”優(yōu)勢就體現(xiàn)出來了。

對比之下,Gemini走的是傳統(tǒng)軟件工程的路子:模型只負(fù)責(zé)理解你要干什么,具體調(diào)工具靠外部API框架。這樣做最大的好處是靈活:Google想接入沃爾瑪?shù)馁徫锕δ埽挥弥匦掠?xùn)練模型,插個API就行。但代價是每次用工具都要走“理解意圖—翻譯成API調(diào)用—執(zhí)行—解析結(jié)果”這一整套流程,慢而且容易出錯。

千問的代碼生成能力,已超越單純的“語法翻譯器”,更像一位理解你意圖的技術(shù)伙伴。它不僅能將需求轉(zhuǎn)化為可運行的代碼,更具備工程直覺:知道何時優(yōu)化性能、何時簡化實現(xiàn)、何時添加容錯機制。

這種“度”的把握,恰恰是AI從“工具”走向“協(xié)作者”的關(guān)鍵躍遷。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
韓軍稱朝鮮向半島東部海域發(fā)射10余枚彈道導(dǎo)彈

韓軍稱朝鮮向半島東部海域發(fā)射10余枚彈道導(dǎo)彈

界面新聞
2026-03-14 14:01:58
向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

娛說瑜悅
2026-03-12 12:56:30
楊瀚森替補出場48秒,徹底看清斯普利特!開拓者失去中國球迷支持

楊瀚森替補出場48秒,徹底看清斯普利特!開拓者失去中國球迷支持

球場沒跑道
2026-03-14 12:47:43
湖人正式進入“無詹時代”,雷迪克:多日溝通后,詹姆斯已理解東契奇和里夫斯

湖人正式進入“無詹時代”,雷迪克:多日溝通后,詹姆斯已理解東契奇和里夫斯

天光破云來
2026-03-14 07:11:18
暴跌93%,裁員5萬人,又一汽車巨頭爆雷!

暴跌93%,裁員5萬人,又一汽車巨頭爆雷!

蔣東文
2026-03-12 20:49:04
云南凌晨通報:成立調(diào)查組

云南凌晨通報:成立調(diào)查組

星島記事
2026-03-14 09:24:21
拆遷難度極大!青島這條快速路暫不開工

拆遷難度極大!青島這條快速路暫不開工

苗苗情感說
2026-03-13 20:55:31
杰倫-布朗:不明白阿德巴約為什么被批評,要批評也該是奇才

杰倫-布朗:不明白阿德巴約為什么被批評,要批評也該是奇才

懂球帝
2026-03-14 12:35:06
后續(xù)!女子飛上海看病被拒載:總部領(lǐng)導(dǎo)承認(rèn)失誤,航司客服回應(yīng)

后續(xù)!女子飛上海看病被拒載:總部領(lǐng)導(dǎo)承認(rèn)失誤,航司客服回應(yīng)

離離言幾許
2026-03-14 16:10:39
印度因霍爾木茲海峽關(guān)閉請求中國放寬尿素出口限制,外交部回應(yīng)

印度因霍爾木茲海峽關(guān)閉請求中國放寬尿素出口限制,外交部回應(yīng)

澎湃新聞
2026-03-13 15:36:25
什么樣的人能讓家族越走越興旺 看網(wǎng)友講述后 難怪我家過得不好

什么樣的人能讓家族越走越興旺 看網(wǎng)友講述后 難怪我家過得不好

侃神評故事
2026-03-13 19:30:05
委內(nèi)瑞拉總統(tǒng)馬杜羅獄中細(xì)節(jié)曝光引發(fā)全球嘩然,曾被美軍突襲擄走,徹夜高喊“我是總統(tǒng),我們正遭受虐待”

委內(nèi)瑞拉總統(tǒng)馬杜羅獄中細(xì)節(jié)曝光引發(fā)全球嘩然,曾被美軍突襲擄走,徹夜高喊“我是總統(tǒng),我們正遭受虐待”

觀威海
2026-03-14 14:43:10
血虧!阿森納當(dāng)年免費放走的天才,如今實力碾壓薩卡

血虧!阿森納當(dāng)年免費放走的天才,如今實力碾壓薩卡

瀾歸序
2026-03-14 05:12:54
伊朗高官說以色列空襲因恐懼絕望

伊朗高官說以色列空襲因恐懼絕望

財聯(lián)社
2026-03-14 05:58:05
終于輪到中國揚眉吐氣!4天3大喜訊,其中一個細(xì)節(jié),讓人更熱血

終于輪到中國揚眉吐氣!4天3大喜訊,其中一個細(xì)節(jié),讓人更熱血

書紀(jì)文譚
2026-03-13 21:10:21
中東亂局越演越烈,美國非但沒栽坑,反手洗空全球三十萬億債務(wù)

中東亂局越演越烈,美國非但沒栽坑,反手洗空全球三十萬億債務(wù)

阿捤武器裝備科普
2026-03-14 11:30:11
生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

古事尋蹤記
2026-03-14 07:12:04
什么叫滅國級轟炸?

什么叫滅國級轟炸?

安安說
2026-03-12 11:12:23
下樹,這身材真絕絕子!

下樹,這身材真絕絕子!

貴圈真亂
2026-03-14 13:20:14
“把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

“把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

世界圈
2026-03-14 08:44:52
2026-03-14 17:51:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2927文章數(shù) 10462關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
親子
教育

審美提升|| 來和時髦尖子生學(xué)幾招

本地新聞

坐標(biāo)北京,過敏季反向遷徒

房產(chǎn)要聞

不容易啊!海口終于又要賣地了!

親子要聞

寶媽穿緊身裙現(xiàn)身親子運動會,外形吸睛靚麗,網(wǎng)友直言你來選美呢

教育要聞

你是不是那個家里最聽話的孩子

無障礙瀏覽 進入關(guān)懷版