3 月 19 日,Cursor 發布了自研新模型 Composer 2。官方博客稱它來自「our first continued pretraining run」,跑分超過了 Claude Opus 4.6。
一天之內,技術社區就發現了問題:Composer 2 的底層,基于 Kimi 的開源模型 Kimi K2.5 微調。但 Cursor 的博客里一個字都沒提。
一個估值 500 億美元的硅谷 AI 編程工具,核心能力跑在一家中國公司的開源模型上,而且一開始還沒說,這事兒,怎么看都有點意思。
但 Cursor 只是最新的一個信號。同樣是本周:
Cloudflare 把 K2.5 上架到全球邊緣計算平臺 Workers AI,內部實測成本降低 77%;
老黃邀請楊植麟作為唯一的中國獨立大模型公司創始人在 GTC 2026 演講;
馬斯克一周內兩度公開點贊 Kimi;
而 Kimi 自己,正以投前估值 180 億美元(約合人民幣 1200 億),進行新一輪 10 億美元融資,Kimi 已成為中國最快的十角獸公司之一。
1 月 29 日開源發布,3 月 20 日 Cursor 事件引爆。不到兩個月,Kimi K2.5 跑進了硅谷從應用層到基礎設施層的核心工具鏈。
它是怎么做到的?
??關注 Founder Park,最及時最干貨的創業分享
超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的 AI 產品曝光渠道
01Cursor 的新模型,底層是 Kimi
3 月 19 日,Cursor 發布 Composer 2。
官方博客寫得很漂亮。CursorBench 得分 61.3,超過 Claude Opus 4.6 的 58.2;SWE-bench Multilingual 73.7,相比上一代 Composer 1.5 的 65.9 大幅提升。博客用了一個精心措辭的說法:「我們的第一次繼續預訓練」——給人的感覺是,Cursor 自己從頭訓練了一個編程模型。
但很快有推特網友注意到了問題,發現 Composer 2 底層是 K2.5。
開發者們開始比對 Composer 2 的輸出特征和已知開源模型的行為模式,結論指向了 Kimi K2.5。隨后的信息逐步浮出水面:Composer 2 約 25% 的預訓練來自 K2.5 的基座模型,Cursor 在此基礎上做了微調和續訓,推理部署由 Fireworks 完成。
![]()
馬斯克同日在 X 上轉發了相關討論。
事件發酵后,雙方先后出面,將合作定性為授權合作。
Cursor 聯合創始人 Aman Sanger 回應得很直接:「一開始沒在博客里提到 Kimi 的底座,是我們的疏忽。下一個模型我們會改正。」
這件事為什么重要?
先看一個背景:Cursor 此前只用 OpenAI、Anthropic 和 Google 的模型。它對模型供應商的篩選標準在行業里是出了名的嚴。
現在,一家估值 500 億美元的硅谷明星產品,選擇了一個中國公司的開源模型來構建自己的核心編程能力。而且不是「加入可選列表」——是把 K2.5 的權重作為預訓練基座,在上面搭建自己的模型。
Composer 2 的定價也耐人尋味:標準版 0.50/M input tokens、2.50/M output tokens,比 K2.5 的官方 API 定價(0.60/3.00)還低。Cursor 之所以能把價格打到「一折」,正是因為 K2.5 本身的成本結構足夠低。
The Decoder 在 3 月 21 日的報道中分析了 Cursor 最初不披露的原因:「不披露很可能出于競爭定位的考慮……承認依賴(外部模型)會動搖其獨立 AI 能力的說法。」
但反過來看,Cursor 選擇 K2.5 本身就是最好的技術背書。如果 K2.5 不夠好,一個對模型要求如此苛刻的產品不會冒險用它。不是中國公司在模仿硅谷產品——是硅谷產品基于中國模型來構建核心能力。
Cursor 事件引爆當天,馬斯克在 X 上轉發并評論。這是他一周內第二次公開提及 Kimi。
![]()
馬斯克的第一次轉發,是因為一篇論文。
3 月 16 日,Kimi 團隊在 arXiv 發布了 Attention Residuals 論文,挑戰 Transformer 沿用近十年的殘差連接設計。Kimi 官方賬號的推文在 X 上迅速引爆——480 萬閱讀,2500 次轉發,1.3 萬點贊,登上 Twitter 全球熱搜,傳播聲量不亞于一次模型發布。
馬斯克轉發點贊,Andrej Karpathy 評論:「我們一直沒真正把'Attention is All You Need'這個標題當回事。」OpenAI 聯合創始人 Jerry Tworek 只說了兩個詞:「deep learning 2.0」。
02不止 Cursor:硅谷的基礎設施也在接入 Kimi
Cursor 是應用層的標志性事件。但 Kimi 同時也打進了硅谷的基礎設施層和算力層。
Cloudflare 接入 Kimi,成本降低 77%
在 Cloudflare 公布數據之前,硅谷已經有人喊出了更大的數字。
K2.5 發布不久,All-In Podcast 的 Chamath Palihapitiya 在節目中說了一段很有沖擊力的話:「我覺得大家還沒意識到這個 Kimi K2.5 時刻有多重要……把下一代系統和開源結合起來,AI 的成本能砍掉 90%。」
他甚至宣布:「我把所有 OpenAI 的賬戶都取消了。25000 美元,沒了。」
這是硅谷頂級投資人在一檔累計播放量超過 10 億的播客里,公開為一個中國開源模型站臺。Chamath 的預測是「省 90%」——而 Cloudflare 隨后用自己的生產數據給出了驗證。
Cloudflare 在 Workers AI 平臺上架了 Kimi K2.5。Workers AI 是全球最大的邊緣計算平臺之一,開發者通過它調用 AI 模型,請求在離用戶最近的節點上執行。此前平臺上的模型清一色來自美國公司——Meta 的 Llama、Google 的 Gemma。K2.5 是第一個來自中國的大語言模型。
但真正有說服力的不是「上架」這個動作本身,而是 Cloudflare 自己的使用數據。
Cloudflare 在官方博客中披露:他們內部的安全審查 agent 每天處理超過 70 億個 token,在一個代碼庫中就識別出了 15 個以上的確認問題。此前這個 agent 使用中等價位的閉源模型,年費約 240 萬美元。切換到 Kimi K2.5 后,成本降低了 77%。
Chamath 說「省 90%」,Cloudflare 實測「省 77%」。一個是投資人的判斷,一個是工程團隊的賬本——量級基本對上了。
被 Cloudflare 選中,不只是「多了一個渠道」,Kimi 被編進了全球開發者的默認工具箱。
黃仁勛與 Kimi:從 CES 到 GTC
黃仁勛對 Kimi 的關注不是從 GTC 才開始的。
1 月初的 CES 上,黃仁勛就用 Kimi 模型來驗證下一代芯片的性能表現。對 NVIDIA 來說,選擇哪個模型來做芯片的「驗貨工具」,本身就是一個技術判斷——它需要足夠吃算力、足夠考驗架構,才能充分測試硬件的極限。
兩個月后的 GTC 2026,黃仁勛再次選擇了 Kimi。3 月 18 日,也就是 Cursor 事件的前一天,他邀請楊植麟在 GTC 做了一場演講,主題是:「我們如何擴展 Kimi K2.5」。同時,NVIDIA 在 GTC 上用 Kimi 模型展示了推理能力——從驗貨到展示,Kimi 成了 NVIDIA 在兩場最重要的年度大會上反復使用的模型。
![]()
GTC2026 上,老黃用 KIMI 模型展示推理能力。
楊植麟是唯一受邀現場演講的中國獨立大模型公司創始人。此前,中國的獨立大模型公司幾乎沒有先例。
楊植麟在演講中首次系統披露了 K2.5 的完整技術路線圖。他說了一句很關鍵的話:「很多通用技術標準正在成為 scaling 的瓶頸。」
翻譯過來就是:不能只靠堆算力和堆數據了,要改底層。
他提到的關鍵技術創新包括優化器改進、注意力機制重構(包括后來發表的 Attention Residuals 論文)和殘差連接的重新設計——都是模型架構層面的「地基工程」。
把這些信號放在一起看:應用層,Cursor 選 K2.5 做底層;基礎設施層,Cloudflare 把 K2.5 部署到全球邊緣節點;算力層,NVIDIA 從 CES 到 GTC 連續兩次用 Kimi 做展示;投資圈,Chamath 在 All-In 播客上公開喊出「K2.5 時刻」。
三層信號,指向同一個結論:硅谷 AI 圈的核心工具鏈正在接入 Kimi。
03Kimi 做對了什么?
硅谷的工具鏈為什么會選一個中國開源模型?具體來說,有兩個原因。
技術路線:從底層架構入手
K2.5 的模型架構是 MoE 架構。總參數 1 T,但每次推理只激活其中的 32B——384 個專家模塊中選 8 個工作,剩下的「休息」。這意味著你得到的是一個萬億參數級別模型的能力,但只付 320 億參數的推理成本。
這是 Cursor 和 Cloudflare 選擇它的直接原因:性能在第一梯隊,成本只有同級別閉源模型的幾分之一。
編程場景的數據很能說明問題。K2.5 在 SWE-Bench Verified 上達到 76.8%,LiveCodeBench v6 上達到 85.0%——后者超過了 DeepSeek-V3.2 的 83.3%。不是一個「還行」的模型,基本在編程場景的第一梯隊。Cursor 基于它微調出的 Composer 2 跑分超過了 Claude Opus 4.6,側面驗證了基座模型的質量。
更值得關注的是 Kimi 團隊在底層架構上的持續創新。3 月 16 日,他們發布了一篇關于注意力殘差(Attention Residuals)的論文。傳統 Transformer 的殘差連接用固定權重把每一層的輸出簡單累加,層數越深,早期層的貢獻就越被稀釋。Kimi 的做法是用 softmax 注意力替代固定權重,讓模型能根據當前輸入動態決定「回看」哪些層的信息。
效果很直接:在 GPQA-Diamond(研究生級別科學推理)上提升 7.5 個百分點,相當于多用 25% 的算力訓練。
楊植麟在 GTC 演講中把這條路線概括為一句話:「很多通用技術標準正在成為 scaling 的瓶頸。」意思是,美國主流路線習慣于堆更多的 GPU、喂更多的數據來提升模型能力,但這條路的邊際收益在遞減。Kimi 選擇的是另一條路——改底層架構,讓同樣的算力產出更多的智能。
Cloudflare 的 77% 成本降低就是這條技術路線最直接的商業驗證。不是性能打折換便宜,是同等性能下成本只有四分之一。
開源找到了自己的生態位
開源模型,目前可能只在榜單上打敗了閉源。
事實上,Anthropic 的 Claude、OpenAI 的 GPT、Google 的 Gemini,在絕對能力的天花板上仍然領先。如果你需要的是當前最強的通用推理能力,閉源模型依然是第一選擇。
但 K2.5 的案例證明了另一件事:開源模型已經找到了自己的應用市場和不可替代的競爭力。
具體來說,是三個閉源模型覆蓋不了的生態位。
第一,性價比驅動的大規模部署。Cloudflare 的安全審查 agent 每天跑 70 億個 token,一年省下約 185 萬美元。這種量級的調用場景,用閉源模型的 API 定價根本不現實。開源模型可以自部署、可以量化壓縮、可以針對特定場景優化推理成本——這些都是閉源 API 做不到的。
第二,可定制性。Cursor 基于 K2.5 的權重微調出了自己的編程模型。這件事在閉源世界里不可能發生——你沒法拿到 Claude 或 GPT 的權重,也就沒法在它們的基礎上做深度定制。開源模型的權重是公開的,企業可以根據自己的場景做微調、做蒸餾、做特定領域的優化。Cursor 的 Composer 2 本身就是開源可定制性的最佳證明。
第三,透明度和信任。開發者能看到權重、能審計模型行為、能本地部署不出內網。對安全敏感的企業和政府場景,這不是「nice to have」,是剛需。
K2.5 在 HuggingFace 上的下載量已經超過 356 萬,GitHub 上有 127 個項目集成了它,ollama 也已支持 K2.5。
開源不是在跟閉源打同一場仗。它找到了閉源模型覆蓋不了的場景——大規模部署、深度定制、可審計——然后在這些場景里建立了自己的優勢。而 Kimi K2.5,是目前在這條路線上跑得最快的。
04Kimi 正在從模型公司,變成 Agent 基礎設施公司
Kimi 內部也在快速出牌。
早在 K2 thinking 發布時,Kimi 就提出了「模型即 Agent」的路線。當時聽著像愿景。過去兩個月的產品動作證明,這可能是產品路線圖。
Agent Swarm 是 K2.5 帶來的最激進的產品嘗試。一個編排器可以動態調度最多 100 個子 Agent,并行執行 1500 步任務,速度比單 Agent 快 3 到 4.5 倍。寫一份深度研究報告、批量檢索上百家公司信息——以前要拆成幾十個對話窗口慢慢磨的活,現在一次性扔給集群。想解決的是「一個 Agent 不夠用怎么辦」。
Kimi CLI 作為終端里的 AI 編程助手,已經在開發者社區攢下了一批核心用戶。GUI 版本正在試水,他們想把同樣的能力推向非技術人群,讓更多人來用。
春節期間上限的 KimiClaw,基于自家模型快速上線了一鍵部署版的 Openclaw,一個 24/7 在線的 Agent 環境,不用搭服務器,不用碰命令行。配合 K2.5 模型,使用的感覺意外還不錯。
Kimi 正在從一個模型公司,變成一個 Agent 基礎設施公司。
數據也在驗證這條路線。據 Similarweb 數據,kimi.com 的訪問量已達歷史新高,最近三個月累計訪問量突破 1.2 億次。這個數字說明,Kimi 不只是在開發者社區有口碑——它正在成為一個有規模的消費級產品。
外部被硅谷工具鏈選中,證明了模型能力;內部全面轉向 Agent,是在模型能力之上搭建產品層;用戶端的增長數據同步跟上。三條線同時加速。
從 1 月 29 日開源發布,到 3 月 20 日 Cursor 事件引爆,不到兩個月。
這兩個月里發生的所有事情——Cursor 用它做底層、Cloudflare 用它省 77% 的錢、黃仁勛從 CES 到 GTC 連續兩次用它做展示、Chamath 在播客里喊出「K2.5 時刻」、馬斯克兩度點贊——指向同一個信號:硅谷的核心生態工具鏈,開始基于中國開源模型構建。
這不是因為中國模型在所有維度上超越了閉源模型。閉源的 Claude、GPT、Gemini 在絕對能力的天花板上仍然領先。但在大規模部署、深度定制、成本控制這些實打實的生產環境需求面前,開源模型找到了自己的生態位——閉源模型覆蓋不了的生態位。
![]()
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.