Qwen3.6超大杯來了！我用這個(gè)“半成品”模型，親手造了一個(gè)macOS桌面

2026-04-20 19:08:36　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西4月20日報(bào)道，今天，阿里發(fā)布了其下一代旗艦?zāi)Ｐ偷脑缙陬A(yù)覽版：Qwen3.6-Max-Preview。在第三方評測榜單Artificial Analysis的智能指數(shù)排名中，Qwen3.6-Max-Preview的得分為52分，小幅超過GLM-5.1、MiniMax-M2.7，成為這一榜單上得分最高的國產(chǎn)模型。

阿里并未披露這一模型的過多技術(shù)細(xì)節(jié)，比如參數(shù)量、支持何種模態(tài)等等。不過根據(jù)我們的初步體驗(yàn)，這應(yīng)該是一個(gè)純文本模型，支持思考和非思考模式，不支持圖像等多模態(tài)內(nèi)容。

與之前發(fā)布的Qwen3.6-Plus相比，Qwen3.6-Max-Preview模型在智能體編程、世界知識和指令遵循方面均有明顯可感的提升。

比如，我們讓兩個(gè)模型分別打造了一個(gè)3D賽車游戲。Qwen3.6-Max-Preview打造的項(xiàng)目，雖然談不上精美，但核心運(yùn)行邏輯正常，是一個(gè)還不錯(cuò)的原型，后續(xù)可以基于這一項(xiàng)目進(jìn)行迭代。

Qwen3.6-Plus的結(jié)果基本沒有可玩性，畫面粗糙，暫時(shí)還沒在這一任務(wù)中展現(xiàn)出從0到1完成項(xiàng)目的能力。

Qwen3.6-Max-Preview還支持preserve_thinking功能，也就是在消息中保留所有前序輪次的思考內(nèi)容。這一功能推薦用于智能體任務(wù)。

阿里上一次更新旗艦?zāi)Ｐ褪窃?個(gè)月前，當(dāng)時(shí)發(fā)布的模型是Qwen3.5-Max-Preview，也是預(yù)覽版。今天發(fā)布的Qwen3.6-Max-Preview已在Qwen Studio上線供用戶體驗(yàn)，同時(shí)也很快將上線阿里云百煉API。

體驗(yàn)鏈接：https://chat.qwen.ai/

一、智能體編程能力有提升，實(shí)測能one-shot復(fù)刻“macOS”

據(jù)阿里介紹，Qwen3.6-Max-Preview最大的性能提升在于智能體編程能力。

在六項(xiàng)主流編程基準(zhǔn)測試（SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench和SciCode）中，Qwen3.6-Max-Preview取得了最高得分。這些測試覆蓋了真實(shí)軟件工程、終端與命令行交互、綜合編程技能、OpenClaw類Agent以及科學(xué)計(jì)算等核心能力。

智東西第一時(shí)間用幾個(gè)案例考察了Qwen3.6-Max-Preview的智能體編程能力，也就是其理解用戶高層次需求，自主規(guī)劃任務(wù)實(shí)現(xiàn)路徑，并最終交付完整項(xiàng)目的能力。

案例1：模擬macOS桌面環(huán)境

提示詞：生成一個(gè)macOS桌面環(huán)境，包含文件管理、瀏覽器、筆記等核心功能。

拿到這一任務(wù)后，Qwen3.6-Max-Preview首先進(jìn)行了規(guī)劃，它意識到了自己無法構(gòu)建真實(shí)的操作系統(tǒng)或完整復(fù)刻，但可通過前端技術(shù)呈現(xiàn)其視覺與交互特征，并據(jù)此設(shè)定了可行的任務(wù)目標(biāo)，包括重點(diǎn)實(shí)現(xiàn)外觀與行為的仿真。

使用過程中，能感覺到Qwen3.6-Max-Preview的token效率不錯(cuò)，沒有浪費(fèi)過多的token在無謂的反復(fù)思考和自我核驗(yàn)上，而是很快進(jìn)行到正式的開發(fā)環(huán)節(jié)。

Qwen3.6-Max-Preview用大概3分鐘完成了原型的開發(fā)。其模擬出的macOS桌面效果逼真，交互方式與原版差異不大，瀏覽器功能也可以正常使用。

同樣的任務(wù)交給Qwen3.6-Plus，它也能做出個(gè)大概的外觀，甚至還配上了壁紙，乍一看效果更好。但實(shí)際使用后，Qwen3.6-Plus打造的系統(tǒng)還有不少bug，像是瀏覽器、便簽這樣的系統(tǒng)“應(yīng)用”是無法正常運(yùn)行的。

這兩個(gè)模型的差異在于，Qwen3.6-Max-Preview能勝任更復(fù)雜的項(xiàng)目，考慮全面，而Plus更適合快速做原型，在具體的細(xì)節(jié)實(shí)現(xiàn)上還沒有完全做到位。

案例2：打造MarkDown編輯器

如果說上方的這一案例更像是開放性的開發(fā)任務(wù)，那么下面這一案例則對技術(shù)要求做了十分詳細(xì)的規(guī)定，不僅考察模型的編程能力，也對指令遵循提出了要求。

提示詞：

Qwen3.6-Max-Preview和Qwen3.6-Plus都在理解提示詞上花了不少時(shí)間，最終Qwen3.6-Plus先行交付了開發(fā)結(jié)果。其實(shí)，一開始Qwen3.6-Plus未能實(shí)現(xiàn)右側(cè)的實(shí)時(shí)渲染和代碼塊功能，是在我們再次要求后才實(shí)現(xiàn)的，體現(xiàn)出它對仍然存在忽視部分提示詞要求的可能。

Qwen3.6-Max-Preview則一次性完成了下方這一編輯器的開發(fā)，提示詞中定義的快捷鍵、鏈接插入功能、代碼塊功能等都正常運(yùn)轉(zhuǎn)，并在示例文本中得到體現(xiàn)，讓用戶可以一眼了解這一編輯器所支持的核心功能。

這一案例證明，在需要精確遵循復(fù)雜指令的任務(wù)中，Qwen3.6-Max-Preview表現(xiàn)更優(yōu)，體現(xiàn)出更強(qiáng)的指令理解與交付能力；而Qwen3.6-Plus雖然速度占優(yōu)，但對細(xì)節(jié)的遺漏增加了溝通與修正成本。

其實(shí)，測試智能體編程能力的最佳場景，是將模型接入Claude Code或是OpenClaw這樣的Agent，在本地進(jìn)行大型項(xiàng)目的開發(fā)，不過由于Qwen3.6-Max-Preview的API暫未完全開放，我們并未進(jìn)行這一測試。

二、成功破解洗車難題，講解復(fù)雜論文深入淺出

除了智能體編程能力之外，我們也對Qwen3.6-Max-Preview的其他能力維度做了考察。

比如，在邏輯推理方面，它可以看穿洗車店難題中的陷阱，直接給出判斷：“既然目的是洗車，那肯定是開車去呀——畢竟車得過去才能洗嘛。”

長文本能力方面，我們向Qwen3.6-Max-Preview甩了一篇復(fù)雜的大模型基礎(chǔ)設(shè)施相關(guān)的論文，讓它通俗地解釋這篇論文的核心內(nèi)容。這類任務(wù)不僅要求模型能捕捉長上下文中的核心信息，也考察了其邏輯理解與語境轉(zhuǎn)換能力。

拿到任務(wù)后，Qwen3.6-Max-Preview決定用交通調(diào)度的類比來拆解這篇論文的核心思想。它的幾個(gè)類比都較為準(zhǔn)確，也抓住了論文提出的核心問題與解決思路，用詞中沒有堆砌原文的大量術(shù)語，而是做了解釋，讓非技術(shù)背景的讀者也能理解這篇論文的內(nèi)容。

結(jié)語：頭部開源玩家，重新思考開源戰(zhàn)略

目前，阿里已推出千問3.6系列的多個(gè)版本，包括Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash，并開源了Qwen3.6-35B-A3B。值得注意的是，此前阿里旗下的Max系列模型（如Qwen3-Max）也屬于開源范疇。

從這一新模式來看，阿里似乎調(diào)整了其開源策略：僅將小尺寸模型開源，而將超大參數(shù)量或高性能版本保留為商用產(chǎn)品。

這種“開源小尺寸+商業(yè)化大尺寸”的混合模式，正逐漸成為許多大模型廠商的共同選擇。它或許也代表著開源生態(tài)與商業(yè)利益之間的一次再平衡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.