337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Qwen3.5 系列,最優選擇 27B,最優精度 Q6

0
分享至

我之前也寫過

工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

ToolCall-15:15 道題,照出模型真面目

這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

  • 15 個場景,覆蓋 5 大類能力(每類 3 個)

  • 12 個工具,模型每次都能看到全部工具

  • 模擬響應,確保結果確定性、可復現

  • Temperature 設為 0,排除隨機性干擾

  • 不挑測試,全部跑完,沒有選擇性地只跑好看的

下面是 ToolCall-15 的測試看板:


ToolCall-15 測試看板 五大考核維度,全是實戰場景

ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

類別

測試內容

舉例

工具選擇

能不能選對工具?

問柏林天氣,該用get_weather還是web_search

參數精度

參數傳對了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈式

能不能串聯多個工具?

搜文件 → 讀內容 → 查聯系人 → 發郵件

克制與拒絕

不該用工具時能忍住嗎?

"二戰哪年結束?" 你別去web_search

? 錯誤恢復

工具報錯了怎么辦?

搜索沒結果,是放棄還是換個關鍵詞重試?

每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

Qwen3.5 全家桶測試結果:27B 獨占鰲頭

原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

模型

通過數

Qwen3.5-27B15/15

唯一滿分的原版模型

Qwen3.5-27B 蒸餾版15/15

蒸餾也滿分,工具調用能力保留完整

Qwen3.5-397B

13/15

兩個測試未通過

Qwen3.5-122B

14/15

一個測試未通過

Qwen3.5-35B

13/15

兩個測試未通過

小參數模型(0.8B~14B)

大量超時

陷入工具調用死循環


最暴露模型的一道題

15 個場景里,最有意思的是第 15 題(TC-15):

"搜索冰島的人口數量,然后計算其 2% "

看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

  • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時

  • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

  • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

一句話總結:

小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

量化測試:Q6 是最佳選擇

確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


Qwen3.5-27B 量化版本

量化級別

通過數

Q8

15/15 ?

Q615/15

Q5

14/15

Q4

14/15

Q3

14/15

Q2

13/15

結論很清晰:Q6 是最佳甜蜜點

跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

下面是量化版本的詳細對比圖:


量化版本測試結果對比

有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。

總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

加上更是如有神助了!

ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太平天國的失敗,骨子里的原因是啥?

太平天國的失敗,骨子里的原因是啥?

無心鏡
2026-04-02 08:09:32
退休在幾月份會比較吃虧?

退休在幾月份會比較吃虧?

小虎新車推薦員
2026-04-02 19:23:23
世界公認的9本長腦子書,一生至少讀一次

世界公認的9本長腦子書,一生至少讀一次

洞見
2026-04-02 09:28:09
直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經濟新聞
2026-04-02 18:54:18
蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

老范談史
2026-04-02 21:13:39
亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

潮鹿逐夢
2026-04-01 09:33:54
“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

動物奇奇怪怪
2026-04-03 01:57:20
甲骨文給自己開了個玩笑

甲骨文給自己開了個玩笑

智遠同學
2026-04-02 09:02:05
金莎肚子大到藏不住?車展現身被疑懷孕,聲音變粗更添實錘!

金莎肚子大到藏不住?車展現身被疑懷孕,聲音變粗更添實錘!

情感大頭說說
2026-04-03 00:10:45
中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

我愛英超
2026-04-03 06:27:05
童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

小光侃娛樂
2026-04-01 13:15:08
6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

華庭講美食
2026-04-03 00:18:45
“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

愛意隨風起呀
2026-04-03 05:37:31
陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

小怪吃美食
2026-04-03 04:56:08
德黑蘭的清晨,有點不太對勁

德黑蘭的清晨,有點不太對勁

陸棄
2026-04-02 08:20:03
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

大西體育
2026-03-31 13:27:01
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

求球不落諦
2026-04-02 20:02:01
張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

叨嘮
2026-04-02 20:08:40
你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

掠影后有感
2026-04-01 20:26:07
2026-04-03 09:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

本地
數碼
藝術
公開課
軍事航空

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

數碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

藝術要聞

吳昌碩『扇畫』老辣古拙

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗自殺無人機突進 逼退林肯號航母

無障礙瀏覽 進入關懷版