網易首頁 > 網易號 > 正文申請入駐

太贊了！一程序員 + Claude 7 天干出來「打崩內存股的谷歌算法」。。。（已開源）

2026-04-01 15:30:51　來源: 云頭條

北京舉報

分享至

7 天把 Google TurboQuant 跑進 llama.cpp，一位開發者與 Claude Code、Codex 協同開發的開源項目火了。

Google Research 于 2026 年 3 月 24 日發布 TurboQuant，定位是一套面向大模型與向量檢索場景的高壓縮量化算法，核心目標是顯著降低內存占用。

GitHub 上一個名為 turboquant_plus 的第三方項目迅速引發關注。

據第三方 X 用戶 BuBBliK 總結，該項目在 7 天內完成了從 Python 原型到 llama.cpp/Metal 優化的推進；而從作者 GitHub README 來看，項目已完成 C port、Metal kernel 集成，并在 Qwen 3.5 35B-A3B 上驗證了 4.6x KV cache 壓縮等結果。

倉庫首頁顯示，這一項目自稱是 “TurboQuant (ICLR 2026)” 的實現版本，面向本地大模型推理，README 中寫明其重點是將 KV Cache 壓縮用于本地 LLM 推理，并計劃繼續擴展到自適應比特分配、時間衰減壓縮和 MoE 感知壓縮等方向。 ?

從項目描述來看，turboquant_plus 并不只是論文復現。

README 明確寫道，該項目可將 Transformer 的 KV Cache 壓縮約 3.8 倍到 6.4 倍，提供 turbo2、turbo3、turbo4 三種格式，并在 Apple Silicon 上給出接近 q8_0 的 prefill 表現和約 0.9 倍的長上下文 decode 吞吐。

作者還額外加入了名為 “Sparse V” 的 attention-gated 解碼優化，稱其可在 32K 上下文下帶來最高 22.8% 的 decode 提升，并已在 Qwen 3.5 35B-A3B 上完成端到端驗證。 ?

真正讓這個項目出圈的，不只是性能數字，而是它背后的開發方式。

作者 Tom Turney 在 X 上公開發文稱，自己已將 Google 的 TurboQuant 論文實現進 llama.cpp，并適配了 Apple Silicon 的 Metal kernels；在同一條帖文的說明里，他又特別補充，文中所說的 “I”，實際是“和 claudecode、codex 一起”，自己做的更多是 “steering and babysitting”。

這是一個由獨立開發者主導、以 Claude Code 和 Codex 作為核心編程助手共同完成的個人開源項目。

turboquant_plus 這類項目的出現，并不是簡單的“AI 幫忙補代碼”，而是 AI 編程工具開始進入真實的底層系統工程流程。 ?

Google 3 月 24 日才發布算法介紹，幾天內就有個人開發者借助多款 AI 編程工具，把論文快速推進到 llama.cpp、Metal、Apple Silicon、本地 35B 模型驗證這一層級，說明 AI 編程助手正在顯著放大個人開發者的工程杠桿。

過去外界對 AI 編程的想象，更多停留在前端頁面、腳本生成或原型搭建；而這一次，討論對象已經變成 KV Cache 壓縮、解碼路徑、Metal kernel 和長上下文推理性能。 ?

這個項目真正值得關注的，不只是“TurboQuant 被復現了”，而是它展示了一種越來越清晰的新范式。

前沿論文發布后，個人開發者已經可以借助 Claude Code、Codex 這類 agentic 編程工具，在極短時間內把學術成果推向可運行、可測試、可傳播的工程實現。 ?

參考資料：

1）https://github.com/TheTom/turboquant_plus

2）

3）

云頭條聲明：如以上內容有誤或侵犯到你公司、機構、單位或個人權益，請聯系我們說明理由，我們會配合，無條件刪除處理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.