337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

美團(tuán)上線首個(gè)開源并可體驗(yàn)的“重思考”模型,工具調(diào)用能力登頂

0
分享至

1月16日,美團(tuán)LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,
LongCat-Flash-Thinking-2601現(xiàn)已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調(diào)用)、TIR(工具交互推理)等核心評測基準(zhǔn)上,均達(dá)到開源模型SOTA水平。

值得一提的是,該模型在工具調(diào)用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調(diào)用的隨機(jī)復(fù)雜任務(wù)中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實(shí)場景下新工具的適配訓(xùn)練成本;同時(shí),新模型支持“重思考”模式,可同時(shí)啟動(dòng)8個(gè)“大腦”執(zhí)行任務(wù),確保思考周全、決策可靠。

目前,該功能可在 https://longcat.ai網(wǎng)站免費(fèi)體驗(yàn)。

“重思考”功能全新上線 智能體工具調(diào)用能力登頂開源 SOTA

據(jù)介紹,全新推出的“重思考”模式,已讓“龍貓”學(xué)會(huì)了“深思熟慮”再行動(dòng)。

具體來看,當(dāng)遇到高難度問題時(shí),新模型會(huì)把思考過程拆分成“并行思考”和“總結(jié)歸納”兩步進(jìn)行:

并行思考階段,與人類面對難題會(huì)同時(shí)嘗試多種解法相似,“重思考”模式下的模型,會(huì)在保證思路多樣性的同時(shí),獨(dú)立梳理出多條推理路徑尋找最優(yōu)解;總結(jié)歸納階段,則會(huì)對多條路徑進(jìn)行梳理、優(yōu)化與合成,并將優(yōu)化結(jié)果重新輸入,形成閉環(huán)迭代推理,推動(dòng)思考持續(xù)深化。

除此之外,LongCat團(tuán)隊(duì)在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓
LongCat-Flash-Thinking-2601實(shí)現(xiàn)了“想清楚再行動(dòng)”的結(jié)果。

經(jīng)過全面嚴(yán)謹(jǐn)?shù)脑u估,
LongCat-Flash-Thinking-2601模型在編程、數(shù)學(xué)推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異:



LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

· 編程能力:
LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊(duì),代碼基礎(chǔ)能力扎實(shí)。

· 數(shù)學(xué)推理能力:在開啟“重思考”模式后表現(xiàn)突出,
LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達(dá)到當(dāng)前SOTA。

· 智能體工具調(diào)用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領(lǐng)域工具調(diào)用場景下表現(xiàn)優(yōu)異,適配實(shí)際應(yīng)用需求。

· 智能體搜索能力:在BrowseComp任務(wù)中取得73.1分(全模型最優(yōu)),RW Search 評測獲79.5分,
LongCat-Flash-Thinking-2601具備強(qiáng)勁的信息檢索與場景適配能力,達(dá)到開源領(lǐng)先水平。

為了更好測試智能體模型的泛化能力,團(tuán)隊(duì)還提出了一種全新的評測方法——通過構(gòu)建一套自動(dòng)化任務(wù)合成流程,支持用戶基于給定關(guān)鍵詞,為任意場景隨機(jī)生成復(fù)雜任務(wù),并為每個(gè)生成的任務(wù)配備對應(yīng)的工具集與可執(zhí)行環(huán)境。由于這類環(huán)境中的工具配置具有高度隨機(jī)性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。

實(shí)驗(yàn)結(jié)果表明,
LongCat-Flash-Thinking-2601在絕大多數(shù)任務(wù)中保持領(lǐng)先性能,印證了其在智能體場景下優(yōu)秀的泛化能力。

技術(shù)解密:從“靶場”到“實(shí)戰(zhàn)”的訓(xùn)練哲學(xué)

對于新模型的技術(shù)思路,LongCat團(tuán)隊(duì)解釋稱,傳統(tǒng)智能體往往僅在數(shù)個(gè)簡單模擬環(huán)境里訓(xùn)練,這帶來的問題就像只在靶場訓(xùn)練的士兵,到了真實(shí)“戰(zhàn)場”可能會(huì)掉鏈子。而基于“環(huán)境擴(kuò)展+多環(huán)境強(qiáng)化學(xué)習(xí)”核心技術(shù),團(tuán)隊(duì)為模型打造了多樣化的“高強(qiáng)度練兵場”,構(gòu)建了多套高質(zhì)量訓(xùn)練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關(guān)系圖譜與復(fù)雜聯(lián)動(dòng),支撐起高度復(fù)雜的任務(wù)場景。實(shí)驗(yàn)也證明,訓(xùn)練環(huán)境越豐富,模型在未知場景中的泛化能力越強(qiáng)。

得益于這套方案,
LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準(zhǔn)測試中穩(wěn)居前列。尤其在復(fù)雜隨機(jī)的分布外任務(wù)中,性能優(yōu)于 Claude-Opus-4.5-Thinking。

此外,LongCat團(tuán)隊(duì)針對性擴(kuò)展自研強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,在保留原有高效異步訓(xùn)練特性的基礎(chǔ)上,實(shí)現(xiàn)大規(guī)模多環(huán)境智能體的穩(wěn)定并行訓(xùn)練,通過均衡搭配多環(huán)境任務(wù)、按難度與訓(xùn)練進(jìn)度智能分配算力,最大化提升訓(xùn)練效率與資源利用率;該團(tuán)隊(duì)還從復(fù)雜度、多樣性雙維度嚴(yán)控訓(xùn)練任務(wù),配套專屬數(shù)據(jù)庫及優(yōu)化方案,杜絕模型“偏科”與訓(xùn)練漏洞,讓這套全流程方案持續(xù)賦能模型,使其穩(wěn)居智能體能力第一梯隊(duì)。

該團(tuán)隊(duì)還表示,現(xiàn)實(shí)世界的智能體環(huán)境充滿不確定性,API調(diào)用失敗、返回異常信息、觀測數(shù)據(jù)不完整等“噪聲”問題,極易導(dǎo)致模型決策失誤。為此,團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)的過程中主動(dòng)注入多類噪聲,模擬API的調(diào)用失敗、返回錯(cuò)誤信息、數(shù)據(jù)缺失等場景,并用課程學(xué)習(xí)的方式循序漸進(jìn)地進(jìn)行模型訓(xùn)練,在訓(xùn)練過程中逐步增加噪聲的類型與強(qiáng)度——類比教新手騎車,首先會(huì)讓其在平坦路面做練習(xí),等技能成熟后再逐步增加路面的復(fù)雜度。



帶噪聲/無噪聲評測集下的模型表現(xiàn)對比(資料圖)

經(jīng)過系統(tǒng)化的抗干擾訓(xùn)練,
LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強(qiáng)的環(huán)境適應(yīng)能力,在復(fù)雜場景中,也能穩(wěn)定發(fā)揮、高效完成任務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醫(yī)生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

醫(yī)生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

39健康網(wǎng)
2026-04-09 20:21:08
為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

混沌錄
2026-04-07 17:48:09
拿命奪冠僅賺九萬,張雪與法國棄將憑啥打臉傳統(tǒng)車企

拿命奪冠僅賺九萬,張雪與法國棄將憑啥打臉傳統(tǒng)車企

阿器談史
2026-04-10 17:23:10
“趙一鳴”被指918間諜:愛國不是“降智”的擋箭牌

“趙一鳴”被指918間諜:愛國不是“降智”的擋箭牌

虔青
2026-04-10 13:53:06
讓全紅嬋卸下防備的人,不是陳若琳,不是爸媽,是第一次見的她

讓全紅嬋卸下防備的人,不是陳若琳,不是爸媽,是第一次見的她

童叔不飆車
2026-04-10 19:24:50
現(xiàn)在朝鮮的女人們也穿上黑絲襪了,很美

現(xiàn)在朝鮮的女人們也穿上黑絲襪了,很美

微微熱評
2026-04-10 13:07:53
白宮發(fā)言人:美方不接受伊朗10項(xiàng)停戰(zhàn)條款,特朗普直接把條款扔進(jìn)了垃圾桶

白宮發(fā)言人:美方不接受伊朗10項(xiàng)停戰(zhàn)條款,特朗普直接把條款扔進(jìn)了垃圾桶

極目新聞
2026-04-09 15:12:43
人民幣匯率瘋了,還會(huì)繼續(xù)?

人民幣匯率瘋了,還會(huì)繼續(xù)?

拾榴詢財(cái)
2026-04-10 13:12:21
卡位戰(zhàn)大勝吉林33分!沒想到賽后杜鋒這樣說,難得盛贊一優(yōu)點(diǎn)

卡位戰(zhàn)大勝吉林33分!沒想到賽后杜鋒這樣說,難得盛贊一優(yōu)點(diǎn)

奇跡行者在刷野
2026-04-11 04:00:34
涉嫌嚴(yán)重違紀(jì)違法,江蘇2名干部被查

涉嫌嚴(yán)重違紀(jì)違法,江蘇2名干部被查

東南西北侃
2026-04-09 18:28:30
馮唐 9 年前火遍全網(wǎng)的文章,成年人應(yīng)該每年都讀一遍

馮唐 9 年前火遍全網(wǎng)的文章,成年人應(yīng)該每年都讀一遍

互聯(lián)網(wǎng)思維
2026-04-09 23:49:40
金價(jià)要重現(xiàn)歷史了,要有心理準(zhǔn)備,月初金價(jià)可能將重現(xiàn)2015年歷史

金價(jià)要重現(xiàn)歷史了,要有心理準(zhǔn)備,月初金價(jià)可能將重現(xiàn)2015年歷史

南宗歷史
2026-04-06 20:53:06
“窮養(yǎng)女真可憐”,買10分鐘商務(wù)坐拍了9分鐘,鞋子讓人無語

“窮養(yǎng)女真可憐”,買10分鐘商務(wù)坐拍了9分鐘,鞋子讓人無語

蝴蝶花雨話教育
2026-04-10 12:52:50
陳紫函傲人胸圍,這“奶白肌”身材是完美無缺?

陳紫函傲人胸圍,這“奶白肌”身材是完美無缺?

娛樂領(lǐng)航家
2026-03-12 19:30:08
以色列宣布:不停火,將繼續(xù)在黎作戰(zhàn),伊朗已虛弱,真主黨已被孤立!特朗普最新表態(tài),伊朗發(fā)聲!內(nèi)塔尼亞胡腐敗案將恢復(fù)審理

以色列宣布:不停火,將繼續(xù)在黎作戰(zhàn),伊朗已虛弱,真主黨已被孤立!特朗普最新表態(tài),伊朗發(fā)聲!內(nèi)塔尼亞胡腐敗案將恢復(fù)審理

每日經(jīng)濟(jì)新聞
2026-04-10 20:48:29
俄軍敗退基輔四周年!莫斯科竟還讓烏克蘭主動(dòng)撤出頓巴斯

俄軍敗退基輔四周年!莫斯科竟還讓烏克蘭主動(dòng)撤出頓巴斯

項(xiàng)鵬飛
2026-04-02 20:36:35
中美俄雷達(dá)差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

中美俄雷達(dá)差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

阿器談史
2026-04-02 15:36:40
細(xì)思極恐!美國30年前不打中國,不是仁慈,是算錯(cuò)了一筆致命大賬

細(xì)思極恐!美國30年前不打中國,不是仁慈,是算錯(cuò)了一筆致命大賬

賤議你讀史
2026-04-08 00:31:32
“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

未央看點(diǎn)
2026-04-10 00:09:12
告訴你一個(gè)鐵律:被人欺負(fù)時(shí),要把事情鬧大,他們就是賭你會(huì)沉默

告訴你一個(gè)鐵律:被人欺負(fù)時(shí),要把事情鬧大,他們就是賭你會(huì)沉默

富書
2026-04-09 11:45:17
2026-04-11 07:55:00
讀懂?dāng)?shù)字財(cái)經(jīng)
讀懂?dāng)?shù)字財(cái)經(jīng)
用數(shù)據(jù),說點(diǎn)財(cái)經(jīng)人話
1885文章數(shù) 3569關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

推動(dòng)停火 巴基斯坦被指取得近年來最大的外交勝利之一

頭條要聞

推動(dòng)停火 巴基斯坦被指取得近年來最大的外交勝利之一

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開經(jīng)濟(jì)形勢專家和企業(yè)家座談會(huì)

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
時(shí)尚
游戲
公開課

數(shù)碼要聞

聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

房產(chǎn)要聞

28條新規(guī)落地!好房子,終于有了“廣州標(biāo)準(zhǔn)”!

今日熱點(diǎn):陳添祥長文道歉;夏克立曾給前經(jīng)紀(jì)人傳上廁所照片……

任天堂獨(dú)占傳統(tǒng)不再!經(jīng)典作品跨平臺引粉絲不滿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版