337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

美團新模型LongCat-Flash-Thinking-2601重思考模式拉風,附一手對比實測

0
分享至

作者|子川

來源|AI先鋒官

近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601。


據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。

LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)

簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。

給大家看一個簡單的例子就明白了。


提示詞:1+1為什么不等于2


可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。


除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。


那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

數學推理方面,開啟重思考模式后更猛。

AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。

智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分。

最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。

此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞:
創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。

而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。

功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

提示詞:請創建一個現代化的登錄頁面,包含以下功能:

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項

- Google第三方登錄

- 注冊鏈接

要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。

它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。

Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。

此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。

目前該模型已經上線,感興趣的用戶可以去體驗一下。

  • 體驗鏈接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

軍機Talk
2026-03-30 11:02:14
廣東省將會出現下一個 “深圳”,并不是廣州,而是這個城市

廣東省將會出現下一個 “深圳”,并不是廣州,而是這個城市

娛樂的硬糖吖
2026-03-28 05:37:04
國際奧委會宣布只有生理女性才能參加女子比賽,是川普的一大勝利

國際奧委會宣布只有生理女性才能參加女子比賽,是川普的一大勝利

壹家言
2026-03-29 07:25:16
被驅逐的伊朗大使拒離境后被強行從館內拖出,頭部疑被打

被驅逐的伊朗大使拒離境后被強行從館內拖出,頭部疑被打

桂系007
2026-03-30 04:00:12
吳向飛再回應李榮浩:這些年只要我參與的訴訟,最終對方全部敗訴

吳向飛再回應李榮浩:這些年只要我參與的訴訟,最終對方全部敗訴

小徐講八卦
2026-03-30 07:47:00
最慘白酒股!51元跌至1.7元,76人公司人均年薪180萬,卻面臨退市

最慘白酒股!51元跌至1.7元,76人公司人均年薪180萬,卻面臨退市

財經智多星
2026-03-29 17:36:52
41歲美女老板朱明月去世,生前常熬夜,喜歡吃燒烤,身價幾千萬

41歲美女老板朱明月去世,生前常熬夜,喜歡吃燒烤,身價幾千萬

180視角
2026-03-30 08:54:24
“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

妍妍教育日記
2026-03-29 07:40:03
紅巖烈士遺屬宋振華逝世,系“小蘿卜頭”宋振中胞兄

紅巖烈士遺屬宋振華逝世,系“小蘿卜頭”宋振中胞兄

澎湃新聞
2026-03-30 11:44:26
全國豬價跌破5元 創歷史新低

全國豬價跌破5元 創歷史新低

財聯社
2026-03-29 18:02:12
天下只有一種生意掙錢,就是收租

天下只有一種生意掙錢,就是收租

記憶承載
2026-03-29 11:32:40
母親做膽結石手術月余后身亡,女子發帖討公道被拘賠款5萬,涉事醫生曾涉一級甲等醫療事故,廈門市衛健委已對該案立案核查

母親做膽結石手術月余后身亡,女子發帖討公道被拘賠款5萬,涉事醫生曾涉一級甲等醫療事故,廈門市衛健委已對該案立案核查

大風新聞
2026-03-30 11:56:07
比亞迪:比利潤下滑19%更可怕的,是裁員10萬人

比亞迪:比利潤下滑19%更可怕的,是裁員10萬人

詩與星空
2026-03-30 08:00:11
萬科多名高管被帶走,大清算開始了?

萬科多名高管被帶走,大清算開始了?

新浪財經
2026-03-30 01:51:44
申京36+14+7火箭大勝送鵜鶘5連敗,杜蘭特20+6穆雷19分

申京36+14+7火箭大勝送鵜鶘5連敗,杜蘭特20+6穆雷19分

湖人崛起
2026-03-30 09:25:00
全紅嬋接受采訪談體重管理:每天只吃一頓餓得不行,但體重一直都減不下去,接受不了這么胖的自己,但沒有辦法喝水就胖

全紅嬋接受采訪談體重管理:每天只吃一頓餓得不行,但體重一直都減不下去,接受不了這么胖的自己,但沒有辦法喝水就胖

極目新聞
2026-03-30 11:06:59
下周將啟程訪問大陸,鄭麗文:為兩岸和平穩定跨出成功第一步

下周將啟程訪問大陸,鄭麗文:為兩岸和平穩定跨出成功第一步

海峽導報社
2026-03-30 12:17:04
楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

醉臥浮生
2026-03-30 08:30:08
1斤低至4.9元!豬肉價格持續“跳水”,養一頭要虧225元,行業預計下半年回暖

1斤低至4.9元!豬肉價格持續“跳水”,養一頭要虧225元,行業預計下半年回暖

紅星資本局
2026-03-29 20:10:11
【列國鑒】記者觀察:伊朗戰事持續一月,特朗普政府陷入四重困境

【列國鑒】記者觀察:伊朗戰事持續一月,特朗普政府陷入四重困境

新華社
2026-03-29 13:47:07
2026-03-30 13:12:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
467文章數 69關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

健康
時尚
本地
家居
游戲

干細胞抗衰4大誤區,90%的人都中招

來到1980的周也,好毛利蘭

本地新聞

用Color Walk的方式解鎖城市春日

家居要聞

東方法式美學 現代簡約

《王者榮耀》3A新作搶注昵稱!昵稱唯一 先到先得

無障礙瀏覽 進入關懷版