網易首頁 > 網易號 > 正文申請入駐

你是否也曾榨干過DeepSeek？

2025-04-20 22:07:36　來源: 柳胖胖

北京舉報

分享至

在今年深度體驗AI大模型的3個月里，我發現無論他回答的對不對，大多數時候，他基本都能在1分鐘內能生成回答（很多時候是秒答），無論回答質量如何，是否有幻覺，他都能很快給你答完就是了。

但是，有這么一類問題，他的答案普遍簡短，有的短到只有一個單詞，長的也不超過10個單詞，卻常常讓 DeepSeek深度思考五分鐘以上，過程中動不動還爆出數千字以上的思維鏈。

比如下面這個問題：

中間的思維鏈就更長了，接近5000字，我就不全截圖了，你可以想象它在將近5分鐘里，一直在生成思維鏈，全文包含79個wait：

還有下面這個問題，花了將近6分鐘

這兩個問題，別看題目不長，答案也都很短，大模型花了這么久，但是依然做錯了。

這些問題，都來自一個測試，就是OpenAI在4月上旬發布的BrowseCamp，瀏覽競賽。

這個測試，主要就測一個能力：定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了，就是要看看大模型們瀏覽網頁和搜索信息的能力，到底強到什么地步了？因為現有的測試比如SimpleQA，其實已經被“刷爆”了。

但是，基本上沒太多人討論這個 BrowseCamp，它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

瀏覽競賽里的問題集的最大特點，就是答案簡單，但是，題干一定會用最虛無縹緲的特征描述，把簡單的答案層層包裹起來。

比如，答案是一個歷史名人，但是，題干是這個人最冷僻、最不為人所知的信息點，甚至是有很大誤導性的信息點，比如這個描述同時也有很多其它人符合或者是很籠統的描述，最終，你會很難猜這個人是誰。

比如劉備，大家都知道，如果問桃園三結義里的大哥是誰，那就太好猜了。

如果這么問：某河北籍男子，身高1米88，15歲外出求學，中年創業多次失敗，兒子很不成器，晚年因為要給弟弟報仇，63歲客死他鄉。

是不是難了很多？

當然，理論上，還要加入更多的限制性條件，讓答案唯一。

以上信息，還算是很好找的，所有信息都在一個百度百科的網頁里都有了（因為就是我幾分鐘內現編的，如果信息有誤請找百度）。

但問題是，在不知道答案是劉備的前提下，而且題干的信息給得更朦朧更誤導一點的話，大模型往往需要橫跨數十個甚至上百個網頁，才有可能定位到其中某個信息，然后開始驗證，排除，再查找，再驗證...最后，答錯了。

官方論文里的另一個例題：請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文，其第一作者本科畢業于達特茅斯學院（Dartmouth College），第四作者本科畢業于賓夕法尼亞大學（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

這些問題在知道答案的時候，都很容易確認，就是1分鐘的事情，但是不知道答案的話，模型就得暴力搜索數千篇論文了。

這是官方所謂的“驗證的不對稱性 asymmetry of verification ”：驗證容易，解答困難。但是，這就恰恰符合了這個測試的目標：大模型的檢索能力。

雖不完美，卻也有效。它不是考驗 next token predidtion的能力，畢竟題干和答案都很短，也不太考驗推理能力，因為不太需要什么深度研究分析（不過普遍來說推理模型的表現還是會更好），只要找得到信息，就能回答正確。

下圖顯示了 BrowseCamp的整體測試結果：花的時間越久，正確率越高，這也是之前DeepSeek會花那么久的原因之一，但是，正確率最高的模型，也就50%左右，而且嚴格來說，它還不算一個模型，而是agent

瀏覽競賽里的問題，實在也不好編，官方說，現在攏共只有1266個問題。官網放出了5道例題，我分別讓DeepSeek V3、R1不開聯網、R1開聯網，分別測試了5個問題，每次都新開對話窗口，一共15次測試，全軍覆沒。（注意，這并非是說 DeepSeek一道都做不對，而是正確率大概率很低）

而且，在沒有聯網的情況下，出現了前述的超長回答時間的問題，理論上，這種自我榨干的情況不該出現，它應該早一點發現自己其實根本無法作答，然后再給出一個它認為最有可能正確的猜測即可（注：R1的表現比V3好）。

那么，到底什么模型表現最好呢？很遺憾，OpenAI還只測試了自家的模型，暫時沒啥橫向可比性，雖然我認為瀏覽網頁和尋找信息的能力，肯定是agent們包含的各種 tool use能力里最重要的一個。

新上線的o3，不提它在視覺理解方面的能力，就因為相比o1有了browsing功能（當然還有更強的推理能力），正確率提高了很多。（o1在沒有聯網功能的情況下，僅靠內部知識庫，答對了其中10%的問題）

我的三個小心得：

1、無論現有大模型在browsing方面表現如何，它們都在飛快進步和提升；

2、一旦遇到這種要查很多資料的任務，先讓大模型做一遍，做對最好，沒做對也沒關系，它的搜索過程和給出的回答，還是能給你節約不少時間；

3、不要只問一次，在看了它第一遍的回答后，自己找找資料，思考思考，再繼續給更多提示詞，問第二次，第三次，榨干它，很快，你也會接近答錯了

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.