倒反天罡了朋友!
Cursor新模型不僅性能超越Claude,而且價格更是直接“腳踝斬”(都不說腰斬了)。
![]()
眾所周知,Cursor作為模型提供商,早期還靠供應Claude模型狠狠吸了一波粉。
結果現在,它自己搞出了一款編程模型,而且轉身就把Claude拉下馬了——
其最新編程模型Composer 2,不僅能力超越Claude Opus 4.6,關鍵是價格降了非常多。
就這么說吧,別人降價是“腰斬”,它這直接是“腳踝斬”。
![]()
那么問題來了,Cursor憑啥能在大家都“漲價”的時候把價格打下去呢?
(注:隨著“龍蝦”爆火,全球大模型Token消耗量呈指數級增長,所以從年初開始,國內外云廠商和大模型公司都在集體漲價。)
答案,Cursor也隨之公布了——
一種新的強化學習方法。
比Opus 4.6更強,價格還down down down!
先說目前已經在Cursor上線的Composer 2。
從名字英譯“編曲家”你就能猜出來了,這款模型主打的是“編程家”(bushi。
鑒于“龍蝦”爆火后編程消耗的Token用量一路激增,所以Cursor當下只有一個目標——
性價比、性價比、還是性價比。
![]()
何謂性價比?自然是“兼顧智能與成本的最優組合”。
能力方面,Cursor表示:
- Composer 2在我們衡量的所有基準測試上都取得了大幅提升,其中包括Terminal-Bench 2.0和SWE-bench Multilingual。
比如在衡量智能體終端操作能力的Terminal-Bench 2.0上,其水平目前已經躍居GPT-5.4和Claude Opus 4.6之間。
![]()
而且從Composer模型的迭代來看,其進化速度正不斷加快。
![]()
定價方面,標準版Composer 2的輸入價格為0.5美元/百萬tokens(約合人民幣3.5元)、輸出價格為2.5美元/百萬tokens(約合人民幣17.2元)。
你瞅,和Claude Opus 4.6相比,幾乎真到了“腳踝”的程度。
![]()
與此同時,Cursor還推出了一個“智能水平相同但速度更快的變體”——Composer 2 Fast。
這款默認模型的定價為,每百萬輸入tokens 1.5美元(約合人民幣10.3元)、每百萬輸出tokens 7.5美元(約合人民幣51.7元)。
和Claude Opus 4.6相比,它不僅延續了價格優勢,而且速度更是一騎絕塵。
而據Cursor透露,它之所以能在性能和價格之間取得平衡,核心還是靠引入了一種新的強化學習方法。
劃重點,該方法不是推理技巧,而是實實在在訓練出來的能力。
![]()
引入“做筆記”強化學習方法
如果用一句話來總結這種新方法,那便是:
讓模型學會“自己給自己做會議紀要”,從而把原本記不住的超長任務,一步步接著干下去。
Cursor的原話如下:
![]()
雖然這種名為“自我總結的強化學習方法”聽起來有點拗口,但思路其實很清晰。
它核心解決的問題是——
如今大多數AI編程助手都很能干活了,但一旦任務變長、變復雜,就會開始不停掉鏈子。
這背后的原因呢,大家也都很清楚:上下文裝不下。
一個復雜工程任務動輒就是上萬行代碼、上百步操作,而模型的上下文窗口總是有限的,所以很多任務根本跑不到終點。
而為了突破上下文瓶頸,目前業界圍繞“壓縮”有兩種主流解法:
- 要么做摘要,總結一波再繼續;
- 要么直接通過滑動上下文窗口,丟棄較早的上下文。
又或者一些比較新的探索嘗試——在潛在空間中壓縮,將上下文壓縮成向量而非文本(這種方法雖然比文本壓縮慢但準確率更高)。
但不管是哪種,初步看下來都不夠靠譜,它們都有可能導致模型遺忘上下文中的關鍵信息,從而在推進長時間運行的任務時降低其效果。
換言之,任務越長,模型越容易跑偏。
而Cursor的解法是——首先總結很重要,其次把這種總結能力內化成模型自己的能力也很重要。
所以他們給自家模型加了一套“self-summary(自我總結)”的機制:
模型干活干到一半,不是被動壓縮,而是主動停下來給自己寫一段“階段總結”,俗稱“做筆記”。
具體流程大致如下:
1、Composer基于提示詞持續生成,直到達到固定的token長度觸發點。
2、插入一個合成查詢,要求模型總結當前上下文。
3、給模型提供一定的草稿思考空間,讓它構思最佳總結,然后生成壓縮后的上下文。
4、Composer使用壓縮后的上下文回到步驟1;該上下文包含總結以及對話狀態(規劃狀態、剩余任務、之前總結的次數等) 。
![]()
這里面比較關鍵的一點是,模型的自我總結能力不是推理技巧,而是訓練出來的。
在強化學習過程中,這種總結能力會被算進獎勵里:
- 總結得好→后面任務更容易成功→獎勵更高
- 總結丟信息→任務失敗→被懲罰
結果就是,模型慢慢搞清了:什么信息值得留下,什么可以丟掉。
具體效果可以看和傳統方法的對比。
在一組高難度軟件工程任務上,“傳統摘要法”光是總結提示詞就要寫幾千個tokens,而且壓縮后的結果也不短,平均需要5000+tokens。
而Composer的提示詞非常簡單,基本就一句話“Please summarize the conversation”,且壓縮后的輸出平均只有1000個tokens。
在同樣的任務上,后者token用量只有傳統方法的1/5,而且壓縮帶來的錯誤直接減少約50%。
換句話說,壓縮得更狠,但信息更關鍵。
![]()
更有意思的是,它真能解決長鏈條任務。
Cursor拿出了一道難倒一眾模型的經典難題——把Doom游戲跑在MIPS架構上。
- 我已經提供了 /app/doomgeneric/,也就是 doom 的源代碼。我還編寫了一個特殊的 doomgeneric_img.c,希望您使用它;它會將繪制的每一幀寫入 /tmp/frame.bmp。最后,我還提供了 vm.js,它會讀取一個名為 doomgeneric_mips 的文件并運行它。其余部分請您自行解決……
由于需要模型自己改代碼、編譯調試、反復試錯……所以很多模型到后來基本都直接卡死了。
但Composer在經過170輪交互后,找到了精確的解法,并在過程中將10w+tokens總結壓縮到了1000個。
![]()
總之,一系列內部測試表明:
- 通過將壓縮整合進訓練循環,Composer學會了一種顯式機制,能夠高效地將關鍵信息向后傳遞,并在高難度任務上變得更有能力。
而且前面不是說了Cursor節奏很快,這不,Cursor研究員也已經開始放出Composer 3的消息了。
![]()
只能說發展到現在,Cursor以后也是有雙重身份的“人”了。其CEO表示:
- Cursor是一個典型的新公司,既不是純粹的應用程序開發商,也不是模型提供商。
![]()
就是不知道能不能等一個開源?反正抱抱臉聯創兼CEO已經去幫大家求了(抱拳jpg)。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.