兩天前,AI芯片創業公司 Taalas 發布了一篇頗具宣言意味的文章:《The Path to Ubiquitous AI》(《通往無處不在的 AI 之路》,原文附后)
![]()
核心觀點只有一句話:AI 要真正普及,必須解決兩個問題,延遲和成本。
該文指出,如今的AI基礎設施正在走向一種“數據中心+電廠”的畸形路徑。
房間大小的服務器、數百千瓦功耗、液冷系統、HBM堆疊、復雜封裝、成公里長的電纜。
這被認為不是AI的終局。
因為真正普及的技術,必須變得更簡單、更快、更便宜。
為此,Taalas提出一個極端方向,為每一個模型,生產專用芯片。
也就是說,不搞通用 GPU,而是“模型即芯片”。
為此, Taalas 開發了一個平臺,可以將任何 AI 模型轉化為定制硅芯片。“從收到一個全新的模型開始,只需兩個月,就能將其硬件化”。
據介紹,Taalas的核心開發理念有三點,即極致專用化、計算與存儲融合,及激進簡潔。
他們發布的首款產品,是硬編碼的 Llama 3.1 8B,性能表現十分搶眼。
據介紹,該產品由 24 人團隊完成,僅花費 3000 萬美元。
![]()
比如,17,000 tokens/秒、接近現有方案 10 倍速度、成本降低約 20 倍、功耗降低約 10 倍……
Taalas由此還提出“即時 AI”的概念。
一些資深開發者在 X 上的發帖,“17000 tokens/s…,等待模型思考的時代結束了”。
![]()
Basecamp 創始人 DHH 試用后稱,“感覺像作弊一樣快”。
半導體行業投資人 Pierre Lamond 稱,團隊做芯片的經驗業內頂級,認為他們的方向能 1000倍成本改善,從而推動AI成為基礎設施級能力。
Cambrian-AI首席分析師 Karl Freund 在 Forbes 專欄里稱,早期用戶把它的性能形容為“insane(瘋狂)”。
![]()
他指出,如果被大規模數據中心采用,可能會改變行業格局。
![]()
Freund 的擔憂是,每個模型一顆芯片,那么模型升級是否意味著換硬件?數據中心是否愿意承擔這種不靈活?
因此他認為,模型即芯片方向很有吸引力,但能否成為主流還說不好。
行業媒體 Financial Express分析指出,這種架構更適合穩定、高規模、單模型場景,在多模型頻繁迭代環境中可能受限。
而目前大模型的狀態,更顯然是后者。
但如果未來進入一個“少數基礎模型長期統治”的階段,那GPU是否仍是最優解?
盡管有所爭議,但Taalas在 AI 基礎設方向與架構的探索值得反思。
比如,這是否意味著AI算力可能發生第三次的路線分裂?
第一次分裂,是 CPU → GPU。
深度學習爆發后,通用CPU迅速被淘汰。并行計算取代串行計算,成為基礎設施底座。
NVIDIA 憑借GPU完成市值躍遷,成為AI時代最大贏家。
第二次分裂,是自建GPU → AI 云。
模型越來越大,企業越來越難自己部署,算力被抽象為API。
GPU不再只是硬件,而成為云服務的一部分。
亞馬遜Web Services、微軟 Azure、谷歌 Cloud 、阿里云、字節火山云等,成為 AI 基礎設施代名詞。
第三次分裂,會不會是 Taalas 提出的,模型即芯片?
不再依賴HBM、復雜封裝,也不依賴液冷,不是“更強GPU”,而是“推理專用ASIC的極端版本”。
或者,更本質的,Taalas 路線真正可能改變的,是AI的邊際成本曲線?
以下為Taalas博文原文
《通往無處不在的 AI 之路》
作者:Ljubisa Bajic
許多人相信,AI 確實已經進入真正可用的階段。在一些狹窄領域,它的表現已經超過人類。如果使用得當,它將成為前所未有的人類創造力與生產力放大器。
但它的大規模普及仍然受到兩個關鍵障礙的限制:高延遲和天文級成本。
與語言模型的交互速度遠遠跟不上人類思考的節奏。編程助手可能要思考幾分鐘,這會打斷程序員的心流狀態,限制人與 AI 的高效協作。而自動化的智能體應用需要的是毫秒級響應,而不是按人類節奏慢慢輸出。
在成本方面,部署現代模型需要巨大的工程投入和資本支出:占據整間房間的超級計算機,耗電數百千瓦,依賴液冷、先進封裝、堆疊內存、復雜 I/O,以及成公里的線纜。這最終擴展為城市規模的數據中心園區和配套網絡,帶來極高的運營成本。
雖然當下的趨勢似乎指向一個由數據中心和電廠構成的“反烏托邦未來”,但歷史往往走向另一條路。過去的技術革命,往往始于笨重而夸張的原型,隨后被更實用的突破所取代。
例如 ENIAC——一個充滿真空管和電纜、占據整間房間的龐然大物。它讓人類第一次見識到計算的魔力,但速度慢、成本高、無法擴展。晶體管的出現帶來了快速演進:從工作站、個人電腦到智能手機,最終實現了無處不在的計算,世界并沒有被 ENIAC 式機器所淹沒。
通用計算之所以進入主流,是因為它變得易于制造、速度更快、成本更低。
AI 也必須走同樣的道路。
關于 Taalas
成立于兩年半前,Taalas 開發了一個平臺,可以將任何 AI 模型轉化為定制硅芯片。從收到一個全新的模型開始,只需兩個月,就能將其硬件化。
由此生成的“硬核模型”(Hardcore Models),在速度、成本和功耗方面,相比軟件實現提升一個數量級。
Taalas 的工作基于三大核心原則:
1. 極致專用化
在計算發展史上,深度首款產品由 24 人團隊完成專用化始終是關鍵任務實現極致效率的最佳路徑。
AI 推理是人類面臨過的最重要計算負載之一,也是最適合專用化的領域。
其計算需求推動一個方向:為每一個模型生產最優的專用芯片。
2. 存儲與計算融合
現代推理硬件受到一個人為分割的限制:內存與計算分離,而且運行速度完全不同。
這種分離源于一個長期矛盾:
DRAM 密度更高、成本更低,但訪問片外 DRAM 的速度比片上內存慢數千倍;而計算芯片又無法采用 DRAM 工藝制造。
這種分割帶來了現代推理硬件的大量復雜性:先進封裝、HBM 堆疊、巨大的 I/O 帶寬、不斷上升的功耗,以及液冷系統。
Taalas 打破了這一邊界。通過在單芯片上統一存儲與計算,并達到 DRAM 級密度,其架構實現了前所未有的性能水平。
3. 激進簡化
通過消除存儲與計算的分離,并為每個模型定制芯片,Taalas 從第一性原理重新設計了整個硬件棧。
結果是一個不依賴復雜或前沿工藝的系統:無需 HBM、先進封裝、3D 堆疊、液冷或高速 I/O。
工程上的簡潔,帶來了系統總成本數量級的下降。
首批產品
![]()
基于上述理念,Taalas 打造了全球最快、成本和功耗最低的推理平臺。
目前發布的首款產品,是一個硬編碼的 Llama 3.1 8B 模型,既提供聊天演示,也提供推理 API 服務。
這款硅基 Llama 實現:
每用戶 17K tokens/秒
接近當前最先進方案的 10 倍速度
構建成本降低 20 倍
功耗降低 10 倍
![]()
之所以選擇 Llama 3.1 8B,是因為它體積適中且開源,便于快速硬化部署。
雖然模型為速度進行了大量硬編碼,但仍支持可配置上下文窗口,并通過 LoRA 進行微調。
第一代芯片采用自定義 3-bit 基礎數據類型,并結合 3-bit 與 6-bit 量化,因此在質量上相較 GPU 基準略有下降。
第二代硅平臺將采用標準 4-bit 浮點格式,在保持高性能的同時改善質量問題。
即將推出的模型
第二個模型將是一個中型推理型 LLM,仍基于第一代 HC1 平臺,預計今年春季進入實驗室并很快上線服務。
隨后,將基于第二代 HC2 平臺制造一個前沿級模型。HC2 具有更高密度和更快執行速度,計劃于冬季部署。
即時 AI,觸手可及
首個模型并非最前沿,但團隊仍以 Beta 形式發布,希望開發者體驗:當 LLM 推理達到亞毫秒級速度、接近零成本時,會帶來什么可能性。
他們相信,這將使許多此前不可行的應用成為現實,并鼓勵開發者探索新的應用場景。
關于團隊與方法
Taalas 的核心團隊規模很小,成員多為合作超過二十年的長期伙伴。團隊增長緩慢,重視專業能力、使命一致性和工程紀律。
實質重于聲勢
工藝重于規模
嚴謹重于冗余
在許多深科技創業公司依靠龐大團隊、巨額融資和市場聲量“圍城式推進”的環境中,Taalas 選擇的是一次精準打擊。
首款產品由 24 人團隊完成,僅使用 3000 萬美元(總融資超過 2 億美元)。這證明:明確目標與專注執行,可以勝過蠻力投入。
未來,團隊將持續開放迭代,盡早發布系統,讓開發者參與驗證與完善。
結語
創新始于對既有假設的質疑,以及對被忽視路徑的探索,這正是 Taalas 選擇的方向。
他們的技術在性能、能效和成本上實現了躍遷式提升,并代表一種不同于主流的架構理念——重新定義 AI 系統的構建與部署方式。
真正的顛覆性技術,最初往往并不熟悉。團隊將致力于推動行業理解并采用這一新范式。
從硬編碼的 Llama 開始,并快速擴展到更強模型,Taalas 正在消除 AI 普及的兩大核心障礙:高延遲與高成本。
他們已經把即時、超低成本的智能交到開發者手中,現在,期待看到人們將用它創造什么。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.