337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

姚順雨騰訊首研成果:構建CL-bench、提出大模型新方向

0
分享至




“即使是如今最強的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學習。”

公司情報專家《財經涂鴉》獲悉,2月3日,騰訊混元官網技術博客(Tencent HY Research)發表名為《從上下文中學習,遠比我們想象的要難》的文章,系統介紹了騰訊混元團隊聯合復旦大學的一項新研究。

這是姚順雨加入騰訊擔任首席AI科學家后團隊首次發布研究成果,也是騰訊混元技術博客首次公開。這一博客的推出,旨在分享騰訊混元研究員在前沿技術研究和實踐中的探索與經驗,呈現創新思路與技術洞察。

過去幾年,大語言模型快速進化,如今的前沿模型,已經是頂級的“做題家”:它們能解開奧數級別的難題,能推演復雜的編程邏輯,甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。然而,在面臨真實世界的任務時,模型表現還有待提升。

回看我們人類的日常工作:開發者掃過從未見過的工具文檔,就能立刻開始調試代碼;玩家拿起新游戲的規則書,在實戰中邊玩邊學;科學家從復雜的實驗日志中篩選數據,推導出新的結論和定律。這些場景中,人類并不只依賴多年前學到的“死知識”,而是在實時地從眼前的上下文(Context)中學習。

在這篇論文里,騰訊混元和復旦大學聯合研究團隊提到,要讓大模型學會“從上下文中學習”,遠比我們想象的要難。并且,即便抹平了上下文帶來的信息差,模型也未必能解決問題,這說明模型在上下文利用上,依然存在顯著的能力短板。

為了衡量現有模型距離真正的“上下文學習者”還有多遠,研究團隊構建了CL-bench,這是一個專門評測語言模型能否從上下文中學習新知識并正確應用的基準。CL-bench包含由資深領域專家精心制作的500個復雜上下文、1,899個任務和31,607個驗證標準。

CL-bench只包含一個簡單但苛刻的要求:解決每個任務要求模型必須從上下文中學習到模型預訓練中不存在的新知識,并正確應用。

通過實驗,論文發現,世界上排名前十的語言模型在CL-bench上的任務解決率平均只有17.2% ,也就是說即使是如今最強的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學習。

這也為大語言模型后續的迭代指出了一個可能的方向,強化模型從上下文中進行學習的能力。

官方技術博客還提到,如果模型的上下文學習能力能像之前其他能力那樣被提升上去,人類在AI系統中的角色將發生轉變:我們不再是主要的數據提供者(training data provider),而變成了上下文提供者(context provider)。未來,競爭的焦點將從“誰能把模型訓練得更好”,轉向“誰能為任務提供最豐富、最相關的上下文”。

研究團隊也強調,模型如何記憶很可能成為2026年大模型發展的另一個核心主題,并且,一旦上下文學習與記憶變得可靠,模型或許就能實現自主學習,它們將自主準備上下文,從中學習并自我鞏固。

在加入騰訊之前,姚順雨曾經發布過一篇名為《The Second Half》的博客,重點提到大模型下半場的重頭戲是“評估”,此后在多次公開講話中,他也提到了打造實用模型的目標,這可以視為他在騰訊混元團隊的重點研發思路之一。本次CL-bench的推出,將成為模型上文學習能力評估的主要基準,為大模型學習更多解決現實世界難題提供幫助。

作者:蘇打

編輯:tuya

出品:財經涂鴉(ID:caijingtuya)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哈弗茨:進球功勞要給馬丁內利;拉亞是世界最佳門將

哈弗茨:進球功勞要給馬丁內利;拉亞是世界最佳門將

懂球帝
2026-04-08 05:36:07
妻子聚會被初戀拉進洗手間半小時,回家后問我吃醋嗎,我直接離婚

妻子聚會被初戀拉進洗手間半小時,回家后問我吃醋嗎,我直接離婚

千秋文化
2026-03-13 21:04:41
世錦賽戰報:四連鞭,傅家俊5-1!再爆大冷預警,中國39歲新秀6-3

世錦賽戰報:四連鞭,傅家俊5-1!再爆大冷預警,中國39歲新秀6-3

羅納爾說個球
2026-04-07 22:30:47
大批美軍或準備抗命,專家發現特朗普已失去理智,可能下令扔核彈

大批美軍或準備抗命,專家發現特朗普已失去理智,可能下令扔核彈

軍機Talk
2026-04-07 18:37:19
為什么沒人聯合打以色列,答案很簡單:不是沒人想打,是沒人敢打

為什么沒人聯合打以色列,答案很簡單:不是沒人想打,是沒人敢打

娛樂圈的嗶嗶王
2026-04-08 05:48:40
高效!阿爾瓦雷斯7次歐冠淘汰賽首發斬6球3助攻

高效!阿爾瓦雷斯7次歐冠淘汰賽首發斬6球3助攻

懂球帝
2026-04-07 07:28:11
菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養肝正當季!

菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養肝正當季!

環京快爆
2026-04-07 08:16:07
切爾西曼城搶瘋了!爭冠名帥成香餑餑,他要取代瓜迪奧拉?

切爾西曼城搶瘋了!爭冠名帥成香餑餑,他要取代瓜迪奧拉?

瀾歸序
2026-04-08 05:48:45
王曉蓉自曝做手術、復診,王中磊寧愿看球賽都不陪,憋兩年才說出

王曉蓉自曝做手術、復診,王中磊寧愿看球賽都不陪,憋兩年才說出

阿傖說事
2026-04-07 23:33:49
熱門中概股收盤多數下跌 納斯達克金龍中國指數收跌0.94%

熱門中概股收盤多數下跌 納斯達克金龍中國指數收跌0.94%

每日經濟新聞
2026-04-08 05:18:05
催生病妻子做飯后續:孩子推搡護母,親戚勸刪視頻,寶媽不再隱忍

催生病妻子做飯后續:孩子推搡護母,親戚勸刪視頻,寶媽不再隱忍

潮鹿逐夢
2026-04-07 15:06:59
10天飆漲100%!A股7連板牛股遭爆炒,公司緊急公告

10天飆漲100%!A股7連板牛股遭爆炒,公司緊急公告

21世紀經濟報道
2026-04-07 23:47:58
A股:周二夜晚突發2大消息!A股明天要迎更大暴風雨行情嗎?

A股:周二夜晚突發2大消息!A股明天要迎更大暴風雨行情嗎?

風風順
2026-04-08 03:00:03
浴巾發現用過的“偉哥”……女子住桔子酒店,一夜換三次房

浴巾發現用過的“偉哥”……女子住桔子酒店,一夜換三次房

政法頻道
2026-04-07 12:56:31
中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

混沌錄
2026-04-05 16:44:05
業內人士談上海二手房大幅跳價:此時漲價,未必是最優解

業內人士談上海二手房大幅跳價:此時漲價,未必是最優解

中國能源網
2026-04-07 11:47:05
2個證件正在發放,每個人都有,沒有的抓緊時間去領

2個證件正在發放,每個人都有,沒有的抓緊時間去領

普陀動物世界
2026-04-08 02:38:05
NASA局長稱,如果沒有特朗普,“阿爾忒彌斯二號”任務不可能成功

NASA局長稱,如果沒有特朗普,“阿爾忒彌斯二號”任務不可能成功

混沌錄
2026-04-07 21:38:06
百萬粉網紅狗頭蘿莉推出7777元商務套餐, 已經賣出777元老板套餐

百萬粉網紅狗頭蘿莉推出7777元商務套餐, 已經賣出777元老板套餐

墜入二次元的海洋
2026-04-08 05:31:18
川崎工程師吐真言:整個日本摩托圈,看到張雪倆字,心就咯噔一下

川崎工程師吐真言:整個日本摩托圈,看到張雪倆字,心就咯噔一下

童叔不飆車
2026-04-06 23:47:22
2026-04-08 07:03:00
財經涂鴉 incentive-icons
財經涂鴉
公司情報專家
4816文章數 8852關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普稱美方正就伊朗戰爭進行“激烈談判”

頭條要聞

特朗普稱美方正就伊朗戰爭進行“激烈談判”

體育要聞

霸氣!趙心童:斯諾克的未來定屬于中國 20年后50%選手都是中國人

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

本地
親子
家居
公開課
軍事航空

本地新聞

跟著歌聲游安徽,聽古村回響

親子要聞

6歲女孩確診性早熟!醫生:小心這些“營養品”和“餐具”

家居要聞

雅致愜意 感知生活之美

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍營救飛行員出動155架飛機

無障礙瀏覽 進入關懷版