![]()
7 天把 Google TurboQuant 跑進 llama.cpp,一位開發者與 Claude Code、Codex 協同開發的開源項目火了。
Google Research 于 2026 年 3 月 24 日發布 TurboQuant,定位是一套面向大模型與向量檢索場景的高壓縮量化算法,核心目標是顯著降低內存占用。
![]()
GitHub 上一個名為 turboquant_plus 的第三方項目迅速引發關注。
![]()
據第三方 X 用戶 BuBBliK 總結,該項目在 7 天內完成了從 Python 原型到 llama.cpp/Metal 優化的推進;而從作者 GitHub README 來看,項目已完成 C port、Metal kernel 集成,并在 Qwen 3.5 35B-A3B 上驗證了 4.6x KV cache 壓縮等結果。
![]()
倉庫首頁顯示,這一項目自稱是 “TurboQuant (ICLR 2026)” 的實現版本,面向本地大模型推理,README 中寫明其重點是將 KV Cache 壓縮用于本地 LLM 推理,并計劃繼續擴展到自適應比特分配、時間衰減壓縮和 MoE 感知壓縮等方向。 ?
![]()
從項目描述來看,turboquant_plus 并不只是論文復現。
README 明確寫道,該項目可將 Transformer 的 KV Cache 壓縮約 3.8 倍到 6.4 倍,提供 turbo2、turbo3、turbo4 三種格式,并在 Apple Silicon 上給出接近 q8_0 的 prefill 表現和約 0.9 倍的長上下文 decode 吞吐。
作者還額外加入了名為 “Sparse V” 的 attention-gated 解碼優化,稱其可在 32K 上下文下帶來最高 22.8% 的 decode 提升,并已在 Qwen 3.5 35B-A3B 上完成端到端驗證。 ?
真正讓這個項目出圈的,不只是性能數字,而是它背后的開發方式。
作者 Tom Turney 在 X 上公開發文稱,自己已將 Google 的 TurboQuant 論文實現進 llama.cpp,并適配了 Apple Silicon 的 Metal kernels;在同一條帖文的說明里,他又特別補充,文中所說的 “I”,實際是“和 claudecode、codex 一起”,自己做的更多是 “steering and babysitting”。
![]()
這是一個由獨立開發者主導、以 Claude Code 和 Codex 作為核心編程助手共同完成的個人開源項目。
turboquant_plus 這類項目的出現,并不是簡單的“AI 幫忙補代碼”,而是 AI 編程工具開始進入真實的底層系統工程流程。 ?
Google 3 月 24 日才發布算法介紹,幾天內就有個人開發者借助多款 AI 編程工具,把論文快速推進到 llama.cpp、Metal、Apple Silicon、本地 35B 模型驗證這一層級,說明 AI 編程助手正在顯著放大個人開發者的工程杠桿。
過去外界對 AI 編程的想象,更多停留在前端頁面、腳本生成或原型搭建;而這一次,討論對象已經變成 KV Cache 壓縮、解碼路徑、Metal kernel 和長上下文推理性能。 ?
這個項目真正值得關注的,不只是“TurboQuant 被復現了”,而是它展示了一種越來越清晰的新范式。
前沿論文發布后,個人開發者已經可以借助 Claude Code、Codex 這類 agentic 編程工具,在極短時間內把學術成果推向可運行、可測試、可傳播的工程實現。 ?
參考資料:
1)https://github.com/TheTom/turboquant_plus
2)
3)
云頭條聲明:如以上內容有誤或侵犯到你公司、機構、單位或個人權益,請聯系我們說明理由,我們會配合,無條件刪除處理。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.