![]()
智東西
作者 陳駿達(dá)
編輯 心緣
智東西4月20日報(bào)道,今天,阿里發(fā)布了其下一代旗艦?zāi)P偷脑缙陬A(yù)覽版:Qwen3.6-Max-Preview。在第三方評測榜單Artificial Analysis的智能指數(shù)排名中,Qwen3.6-Max-Preview的得分為52分,小幅超過GLM-5.1、MiniMax-M2.7,成為這一榜單上得分最高的國產(chǎn)模型。
![]()
阿里并未披露這一模型的過多技術(shù)細(xì)節(jié),比如參數(shù)量、支持何種模態(tài)等等。不過根據(jù)我們的初步體驗(yàn),這應(yīng)該是一個(gè)純文本模型,支持思考和非思考模式,不支持圖像等多模態(tài)內(nèi)容。
與之前發(fā)布的Qwen3.6-Plus相比,Qwen3.6-Max-Preview模型在智能體編程、世界知識和指令遵循方面均有明顯可感的提升。
比如,我們讓兩個(gè)模型分別打造了一個(gè)3D賽車游戲。Qwen3.6-Max-Preview打造的項(xiàng)目,雖然談不上精美,但核心運(yùn)行邏輯正常,是一個(gè)還不錯(cuò)的原型,后續(xù)可以基于這一項(xiàng)目進(jìn)行迭代。
![]()
Qwen3.6-Plus的結(jié)果基本沒有可玩性,畫面粗糙,暫時(shí)還沒在這一任務(wù)中展現(xiàn)出從0到1完成項(xiàng)目的能力。
![]()
Qwen3.6-Max-Preview還支持preserve_thinking功能,也就是在消息中保留所有前序輪次的思考內(nèi)容。這一功能推薦用于智能體任務(wù)。
阿里上一次更新旗艦?zāi)P褪窃?個(gè)月前,當(dāng)時(shí)發(fā)布的模型是Qwen3.5-Max-Preview,也是預(yù)覽版。今天發(fā)布的Qwen3.6-Max-Preview已在Qwen Studio上線供用戶體驗(yàn),同時(shí)也很快將上線阿里云百煉API。
體驗(yàn)鏈接:https://chat.qwen.ai/
一、智能體編程能力有提升,實(shí)測能one-shot復(fù)刻“macOS”
據(jù)阿里介紹,Qwen3.6-Max-Preview最大的性能提升在于智能體編程能力。
在六項(xiàng)主流編程基準(zhǔn)測試(SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench和SciCode)中,Qwen3.6-Max-Preview取得了最高得分。這些測試覆蓋了真實(shí)軟件工程、終端與命令行交互、綜合編程技能、OpenClaw類Agent以及科學(xué)計(jì)算等核心能力。
![]()
智東西第一時(shí)間用幾個(gè)案例考察了Qwen3.6-Max-Preview的智能體編程能力,也就是其理解用戶高層次需求,自主規(guī)劃任務(wù)實(shí)現(xiàn)路徑,并最終交付完整項(xiàng)目的能力。
案例1:模擬macOS桌面環(huán)境
提示詞:生成一個(gè)macOS桌面環(huán)境,包含文件管理、瀏覽器、筆記等核心功能。
拿到這一任務(wù)后,Qwen3.6-Max-Preview首先進(jìn)行了規(guī)劃,它意識到了自己無法構(gòu)建真實(shí)的操作系統(tǒng)或完整復(fù)刻,但可通過前端技術(shù)呈現(xiàn)其視覺與交互特征,并據(jù)此設(shè)定了可行的任務(wù)目標(biāo),包括重點(diǎn)實(shí)現(xiàn)外觀與行為的仿真。
使用過程中,能感覺到Qwen3.6-Max-Preview的token效率不錯(cuò),沒有浪費(fèi)過多的token在無謂的反復(fù)思考和自我核驗(yàn)上,而是很快進(jìn)行到正式的開發(fā)環(huán)節(jié)。
Qwen3.6-Max-Preview用大概3分鐘完成了原型的開發(fā)。其模擬出的macOS桌面效果逼真,交互方式與原版差異不大,瀏覽器功能也可以正常使用。
![]()
同樣的任務(wù)交給Qwen3.6-Plus,它也能做出個(gè)大概的外觀,甚至還配上了壁紙,乍一看效果更好。但實(shí)際使用后,Qwen3.6-Plus打造的系統(tǒng)還有不少bug,像是瀏覽器、便簽這樣的系統(tǒng)“應(yīng)用”是無法正常運(yùn)行的。
![]()
這兩個(gè)模型的差異在于,Qwen3.6-Max-Preview能勝任更復(fù)雜的項(xiàng)目,考慮全面,而Plus更適合快速做原型,在具體的細(xì)節(jié)實(shí)現(xiàn)上還沒有完全做到位。
案例2:打造MarkDown編輯器
如果說上方的這一案例更像是開放性的開發(fā)任務(wù),那么下面這一案例則對技術(shù)要求做了十分詳細(xì)的規(guī)定,不僅考察模型的編程能力,也對指令遵循提出了要求。
提示詞:
![]()
Qwen3.6-Max-Preview和Qwen3.6-Plus都在理解提示詞上花了不少時(shí)間,最終Qwen3.6-Plus先行交付了開發(fā)結(jié)果。其實(shí),一開始Qwen3.6-Plus未能實(shí)現(xiàn)右側(cè)的實(shí)時(shí)渲染和代碼塊功能,是在我們再次要求后才實(shí)現(xiàn)的,體現(xiàn)出它對仍然存在忽視部分提示詞要求的可能。
![]()
Qwen3.6-Max-Preview則一次性完成了下方這一編輯器的開發(fā),提示詞中定義的快捷鍵、鏈接插入功能、代碼塊功能等都正常運(yùn)轉(zhuǎn),并在示例文本中得到體現(xiàn),讓用戶可以一眼了解這一編輯器所支持的核心功能。
![]()
這一案例證明,在需要精確遵循復(fù)雜指令的任務(wù)中,Qwen3.6-Max-Preview表現(xiàn)更優(yōu),體現(xiàn)出更強(qiáng)的指令理解與交付能力;而Qwen3.6-Plus雖然速度占優(yōu),但對細(xì)節(jié)的遺漏增加了溝通與修正成本。
其實(shí),測試智能體編程能力的最佳場景,是將模型接入Claude Code或是OpenClaw這樣的Agent,在本地進(jìn)行大型項(xiàng)目的開發(fā),不過由于Qwen3.6-Max-Preview的API暫未完全開放,我們并未進(jìn)行這一測試。
二、成功破解洗車難題,講解復(fù)雜論文深入淺出
除了智能體編程能力之外,我們也對Qwen3.6-Max-Preview的其他能力維度做了考察。
比如,在邏輯推理方面,它可以看穿洗車店難題中的陷阱,直接給出判斷:“既然目的是洗車,那肯定是開車去呀——畢竟車得過去才能洗嘛。”
![]()
長文本能力方面,我們向Qwen3.6-Max-Preview甩了一篇復(fù)雜的大模型基礎(chǔ)設(shè)施相關(guān)的論文,讓它通俗地解釋這篇論文的核心內(nèi)容。這類任務(wù)不僅要求模型能捕捉長上下文中的核心信息,也考察了其邏輯理解與語境轉(zhuǎn)換能力。
拿到任務(wù)后,Qwen3.6-Max-Preview決定用交通調(diào)度的類比來拆解這篇論文的核心思想。它的幾個(gè)類比都較為準(zhǔn)確,也抓住了論文提出的核心問題與解決思路,用詞中沒有堆砌原文的大量術(shù)語,而是做了解釋,讓非技術(shù)背景的讀者也能理解這篇論文的內(nèi)容。
![]()
結(jié)語:頭部開源玩家,重新思考開源戰(zhàn)略
目前,阿里已推出千問3.6系列的多個(gè)版本,包括Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并開源了Qwen3.6-35B-A3B。值得注意的是,此前阿里旗下的Max系列模型(如Qwen3-Max)也屬于開源范疇。
從這一新模式來看,阿里似乎調(diào)整了其開源策略:僅將小尺寸模型開源,而將超大參數(shù)量或高性能版本保留為商用產(chǎn)品。
這種“開源小尺寸+商業(yè)化大尺寸”的混合模式,正逐漸成為許多大模型廠商的共同選擇。它或許也代表著開源生態(tài)與商業(yè)利益之間的一次再平衡。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.