337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

你是否也曾榨干過DeepSeek?

0
分享至

在今年深度體驗AI大模型的3個月里,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。

但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。

比如下面這個問題:


中間的思維鏈就更長了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個wait:


還有下面這個問題,花了將近6分鐘


這兩個問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯了。

這些問題,都來自一個測試,就是OpenAI在4月上旬發布的BrowseCamp,瀏覽競賽。

這個測試,主要就測一個能力:定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了,就是要看看大模型們瀏覽網頁和搜索信息的能力,到底強到什么地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。

但是,基本上沒太多人討論這個 BrowseCamp,它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

瀏覽競賽里的問題集的最大特點,就是答案簡單,但是,題干一定會用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。

比如,答案是一個歷史名人,但是,題干是這個人最冷僻、最不為人所知的信息點,甚至是有很大誤導性的信息點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜這個人是誰。

比如劉備,大家都知道,如果問桃園三結義里的大哥是誰,那就太好猜了。

如果這么問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。

是不是難了很多?

當然,理論上,還要加入更多的限制性條件,讓答案唯一。

以上信息,還算是很好找的,所有信息都在一個百度百科的網頁里都有了(因為就是我幾分鐘內現編的,如果信息有誤請找百度)。

但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個信息,然后開始驗證,排除,再查找,再驗證...最后,答錯了。

官方論文里的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業于達特茅斯學院(Dartmouth College),第四作者本科畢業于賓夕法尼亞大學(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數千篇論文了。

這是官方所謂的“驗證的不對稱性 asymmetry of verification ”:驗證 容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。

雖不完美,卻也有效。它不是考驗 next token predidtion的能力,畢竟題干和答案都很短,也不太考驗推理能力,因為不太需要什么深度研究分析(不過 普遍來說推理模型的表現還是會更好),只要找得到信息,就能回答正確。

下圖顯示了 BrowseCamp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent


瀏覽競賽里的問題,實在也不好編,官方說,現在攏共只有1266個問題。官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話窗口,一共15次測試,全軍覆沒。(注意,這并非是說 DeepSeek一道都做不對,而是正確率大概率很低)

而且,在沒有聯網的情況下,出現了前述 的超長回答時間的問題,理論上,這種自我榨干的情況不該出現,它應該早一點發現自己其實根本無法作答,然后再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。

那么,到底什么模型表現最好呢?很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個。


新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)


我的三個小心得:

1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;

2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍, 做對最好,沒做對也沒關系,它的搜索過程和給出的回答,還是能給你節約不少時間;

3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨干它,很快,你也會接近答錯了

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

李昕言溫度空間
2025-11-09 14:50:17
74年印度吞并錫金,中國拒絕錫金的求助:有三原因,第一個很重要

74年印度吞并錫金,中國拒絕錫金的求助:有三原因,第一個很重要

鶴羽說個事
2026-04-06 21:59:54
1938年老蔣制造黃河決堤,日軍淹死數量驚人,真實情況你可能不信

1938年老蔣制造黃河決堤,日軍淹死數量驚人,真實情況你可能不信

浩舞默畫
2026-04-06 09:22:04
特朗普要把研究員逼瘋了

特朗普要把研究員逼瘋了

虎嗅APP
2026-04-09 03:18:05
蘋果8號員工干了49年:裁員名單繞著他走,因為賠不起

蘋果8號員工干了49年:裁員名單繞著他走,因為賠不起

世界圈
2026-04-04 13:13:03
馬斯克:特斯拉FSD V15安全性將遠超人類水平

馬斯克:特斯拉FSD V15安全性將遠超人類水平

IT之家
2026-04-09 12:03:05
事態嚴重!282人組團霸凌全紅嬋,群里暗藏教練記者,證據鏈曝光

事態嚴重!282人組團霸凌全紅嬋,群里暗藏教練記者,證據鏈曝光

一盅情懷
2026-04-09 15:58:05
黎巴嫩宣布4月9日為全國哀悼日

黎巴嫩宣布4月9日為全國哀悼日

財聯社
2026-04-09 06:21:05
男子套圈套中鸚鵡帶回家 父親隨后感染“鸚鵡熱” 救治25天花費已超18萬元

男子套圈套中鸚鵡帶回家 父親隨后感染“鸚鵡熱” 救治25天花費已超18萬元

閃電新聞
2026-04-08 22:05:56
楊玉敏去世

楊玉敏去世

吉刻新聞
2026-04-09 14:24:10
陳芋汐收到威脅短信,曾稱不會動搖和全紅嬋關系,回旋鏢太猛烈!

陳芋汐收到威脅短信,曾稱不會動搖和全紅嬋關系,回旋鏢太猛烈!

眼光很亮
2026-04-09 14:29:42
陳麗華離世,最讓她魂牽夢繞的,既不是子女,也不是遲重瑞

陳麗華離世,最讓她魂牽夢繞的,既不是子女,也不是遲重瑞

小光侃娛樂
2026-04-09 12:45:03
美伊關鍵聯絡人曝光,去年指揮“銅墻鐵壁”行動,抵御印度越境襲擊有功晉升元帥,系巴基斯坦65年來首位

美伊關鍵聯絡人曝光,去年指揮“銅墻鐵壁”行動,抵御印度越境襲擊有功晉升元帥,系巴基斯坦65年來首位

魯中晨報
2026-04-08 15:37:05
真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

派大星紀錄片
2025-07-15 13:28:11
1000斤巨豬跨境入侵!中俄邊境8條通道緊急應對,300萬野豬泛濫!

1000斤巨豬跨境入侵!中俄邊境8條通道緊急應對,300萬野豬泛濫!

三農雷哥
2026-04-08 22:52:49
現場無紅毯,無儀仗隊!大陸一句話講清鄭麗文訪問的性質!

現場無紅毯,無儀仗隊!大陸一句話講清鄭麗文訪問的性質!

阿龍聊軍事
2026-04-08 08:54:27
彭偉國:33歲退役,坐寶馬開酒樓,財富自由,每天在約球和找美食

彭偉國:33歲退役,坐寶馬開酒樓,財富自由,每天在約球和找美食

白面書誏
2026-04-08 13:59:47
身體這處毛發變白,暗示活得不長?看看你白了沒有

身體這處毛發變白,暗示活得不長?看看你白了沒有

白話電影院
2026-04-05 22:42:04
軍銜最高的12位開國女軍官,都是什么軍銜?

軍銜最高的12位開國女軍官,都是什么軍銜?

幽州校尉
2026-03-28 07:31:51
張嘉譯西安別墅慶生,染完頭發直接年輕10歲,年紀越大越有魅力!

張嘉譯西安別墅慶生,染完頭發直接年輕10歲,年紀越大越有魅力!

柒佰娛
2026-04-09 09:52:39
2026-04-09 16:47:00
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
221文章數 387關注度
往期回顧 全部

科技要聞

Meta凌晨首發閉源大模型 扎克伯格又行了?

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

體育要聞

8萬人面前心臟驟停 現在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經要聞

談判基礎已被破壞!霍爾木茲海峽關閉

汽車要聞

文飛的回歸 給神行者帶來什么?

態度原創

時尚
親子
本地
房產
家居

ED網紅病,正在掏空年輕女性

親子要聞

“喪偶式育兒”缺位的不只是父親,媽媽也難辭其咎

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

房產要聞

利潤暴跌44%!那個春節被罵慘了的海峽股份 正在經歷什么?

家居要聞

清新自然 復古風尚

無障礙瀏覽 進入關懷版