![]()
由于SRAM在最新的工藝節點中無法實現可擴展性,業界必須評估其對所有計算形式的影響。
SRAM 是所有計算系統的重要組成部分,但它未能跟上邏輯電路的擴展步伐,造成了越來越棘手的問題,而這些問題在過去五年中變得更加嚴重。
早在1990年,亨尼西和帕特森就出版了《計算機體系結構:量化方法》一書。作者當時就已清楚地認識到,內存容量和性能將成為未來處理能力發展的關鍵瓶頸(見圖1)。幾十年來,硬件架構一直在回避這個問題,通常使用SRAM作為緩存,并輔以容量更大的片外DRAM。雖然這使得內存看起來更大,但速度往往慢得多。這就是所謂的“內存墻”。
![]()
圖1:內存墻的早期識別。來源:Hennessy & Patterson,《計算機體系結構:定量方法》。
在所有計算形式中,程序和數據都存儲在靜態隨機存取存儲器(SRAM)中。處理器從該存儲器中讀取指令。這些指令告訴處理器要對同樣存儲在該存儲器中的數據執行哪些操作。
SRAM 比處理器內部臨時存儲數據的寄存器更便宜。雖然寄存器單元可以使用與 SRAM 相同數量的晶體管,但寄存器使用更昂貴的解碼和訪問機制,這種機制無法隨著寄存器組大小的增加而擴展。
SRAM 存儲器由一系列存儲單元組成,周圍環繞著電路,這些電路能夠以隨機方式讀取和存儲數據。在許多情況下,周圍的邏輯電路是半定制的,因為它會隨著存儲陣列規模的增大而變化。事實上,許多存儲器速度的提升都來自于這些電路的改進,而不是存儲陣列本身的改進。
隨著SRAM容量和性能的提升幾乎停滯不前,未來前景愈發黯淡。這意味著,隨著制程節點的不斷縮小,相同容量的SRAM所占用的芯片面積比例卻越來越高。隨著越來越多的芯片達到光刻工藝的極限,這種狀況難以承受,制造商不得不比以往更多地依賴外部存儲器。而外部存儲器的速度要慢得多。
在人工智能時代,訪問模式發生了變化,這也迅速成為主要的限制因素。
臺積電承認SRAM微縮存在一些問題,但該公司聲稱其新的2nm納米片技術(見圖2)已有所改進。然而,很難獲得確鑿的數據來支持這一說法。過去,實際結果往往低于大規模應用前公布的數據。
![]()
圖2:臺積電 SRAM 單元尺寸(數據來自公開渠道)。來源:半導體工程
雖然這可以被視為內存問題,但歸根結底是計算問題。“性能并非受限于計算能力,”Eliyan的首席執行官兼聯合創始人Ramin Farjadrad 表示,“在很多情況下,大多數功能的處理器利用率只有 20%,甚至更低。性能主要受限于內存和內存帶寬。這就是所謂的內存墻。”
SRAM 微縮
人們很容易認為,當晶體管尺寸縮小時,由六個晶體管組成的SRAM 單元的尺寸和性能也會隨之降低。“SRAM 微縮停滯不前,是因為傳統的 6T 位單元達到了物理極限和工藝偏差極限,” Synopsys嵌入式存儲器IP 首席產品經理 Daryl Seitzer 表示。“SRAM 位單元的設計初衷是實現高密度存儲,但它存在一個固有的缺陷,即讀寫需求相互沖突。訪問晶體管與存儲晶體管之間存在競爭,這種競爭需要仔細平衡,并考慮工藝偏差。隨著幾何尺寸的縮小,工藝偏差對位單元讀寫特性的影響比例會越來越大。”
問題遠不止于此。“隨著制程節點的縮小,靜電控制和隨機波動成為主要制約因素,阻礙了單元面積的相應縮小,”Arteris產品管理高級經理Andre Bonnardot 表示。“此外,由于導線電阻和位線電容的增加,SRAM 的速度已經達到瓶頸,而 Vdd 在最近的制程節點中幾乎沒有降低。邏輯電路可以通過器件和布線方面的創新繼續縮小尺寸,但 SRAM 卻無法做到這一點。”
隨著制程節點的更新,這些問題愈發嚴重。“在先進的2nm及以下制程工藝上,SRAM位單元的密度提升幅度已降至不足15%。”Cadence硅解決方案集團研究員Gopi Ranganathan表示,“這遠低于我們在65nm到5nm工藝技術迭代過程中所經歷的50%到100%的逐代縮小幅度。這種下降可歸因于先進制程節點上器件、柵極觸點、MEOL以及V0/V1的尺寸極其狹窄,而進一步有意義的尺寸縮小受到工具的限制以及硅良率的制約。”
其影響是成本更高、性能更低。“主要表現為存儲器密度擴展速度落后于傳統存儲器,”Quadric首席技術官Nigel Drego 表示。“每平方毫米門數(Gate/mm2)的發展速度超過了每平方毫米兆字節數(MB/mm2 )。此外,由于線路延遲和物理定律與 SoC 設計人員的需求不符,訪問速度也受到影響。然而,巧妙的架構調整可以緩解邏輯和 SRAM 速度之間的依賴性。”
自20 世紀 80 年代以來,這種差距一直在擴大,那么如今的計算機技術與二十年前相比如何呢?Eliyan 公司的 Farjadrad 表示:“計算機或處理器的性能提升了近五個數量級。但這些計算機需要處理來自內存的數據。內存帶寬甚至沒有提升 100 倍,因此,計算機實際處理或能夠處理的數據量與實際輸入的數據量之間存在超過 1000 倍的差距。”
這不僅僅是前沿人工智能技術的問題。最終,它將影響到所有領域——甚至包括小型微控制器(MCU)和微處理器(MPU)——尤其是在人工智能向邊緣應用發展的過程中。“在某種程度上,它變得無法擴展,屆時SRAM將占據芯片總面積的更大比例,”瑞薩電子首席產品營銷經理Kavita Char表示。“這是我們必須考慮的問題。這也會影響芯片用戶,因為他們必須考慮哪些功能可以在芯片上實現,以及何時需要使用外部存儲器。隨著芯片幾何尺寸的縮小,成本也會越來越高。”
目前尚不清楚N2的位單元面積是否比上一代產品更優。“SRAM近期的性能提升主要得益于邏輯電路尺寸的縮小,并將其應用于SRAM宏的解碼和控制電路,”Synopsys嵌入式存儲器IP高級產品經理Rahul Thukral表示。“這需要設計上的創新,而我們能夠在位單元尺寸未縮小的情況下實現這樣的面積優勢。隨著環柵(GAA)技術的改進以及器件寬度控制靈活性的提高,預計未來性能將進一步提升。GAA晶體管能夠提供更好的靜電控制,從而降低漏電并改善讀寫性能,預計還將帶來更多改進。對于最初的2nm工藝,存儲器面積正在改善,其中大部分性能提升來自解碼和數據通路電路中的邏輯器件。然而,隨著GAA晶體管的進一步縮小,位單元面積有望進一步縮小,預計在后續節點中位單元面積將進一步降低。”
Arteris公司的Bonnardot表示:“我們認為SRAM擴展速度的放緩正處于系統架構的拐點。當內存密度增長放緩時,簡單地增加緩存就變得不經濟了。”
對軟件的影響
對軟件的影響范圍廣泛,挑戰了長期以來“軟件生產力是優化最重要的目標”這一觀念。如今,許多領域都在質疑這一觀點,尤其是在越來越多的產品走向軟件定義化之后。“依賴于海量本地SRAM和多層快速緩存的處理器架構將受到最大的影響,”Quadric公司的Drego表示。“CPU無法避免這些硬件密集型的內存架構,因為我們手機、筆記本電腦和數據中心中的CPU被設計用于運行具有非結構化內存引用的隨機用戶代碼,并同時處理數十個線程。”
對于這類公司而言,選擇余地不多。“SRAM 現在占據了芯片面積和成本的更大比例,”Bonnardot 表示。“大型寄存器文件和緩存層次結構不再能夠自由擴展,這加大了對芯片尺寸、良率、能效和數據傳輸效率的壓力。這使得瓶頸從計算密度轉移到了內存架構和互連效率。軟件必須假定內存的層次結構更加復雜,速度也更加分散。局部性、分塊、分區和流量可預測性變得更加重要,而延遲差異則成為系統級性能的限制因素。”
人工智能也無法擺脫這些問題。“隨著人工智能模型規模和上下文長度的增長,內存帶寬和片上緩存成為性能瓶頸,”Synopsys公司的Seitzer表示。“這在LLM推理中表現得尤為明顯,鍵值緩存帶寬成為瓶頸。因此,軟件必須優化數據局部性、內存感知調度、量化、稀疏性和內存分層,因為計算能力的提升已無法彌補內存擴展速度的緩慢。”
人工智能架構的一些差異可以被利用。“人工智能引擎,尤其是人工智能推理處理器,可以長時間處理結構良好的代碼,其運行時間比頻繁切換任務的CPU長幾個數量級,”Drego說道。“智能人工智能架構將內存管理推入離線編譯器,這些編譯器可以調度顯式的代碼驅動的DMA傳輸,用于傳輸人工智能模型的權重和激活值。整個人工智能推理處理引擎都可以構建成不需要任何數據緩存的架構。這減輕了使用最高速度、最高功耗的SRAM來設計分層緩存、緩存標簽和轉換緩沖區的壓力。隨著越來越多的工作負載依賴于人工智能模型,先進SoC芯片面積中越來越大的部分可以避免SRAM密度/速度瓶頸,從而將這一設計挑戰限制在關鍵的CPU子模塊中。”
或許業內并非所有人都注意到了這一點。“對于人工智能模型來說,有一個叫做算術強度的概念,”Eliyan公司的Farjadrad說道,“它指的是處理器在內存上運行的函數或操作的數量。遺憾的是,近期人工智能模型的算術強度遠低于以往。因此,從內存到處理器的帶寬需求更大了。”
3D SRAM
如果SRAM 無法擴展,那么使用最昂貴的工藝節點就毫無意義。目前,人們越來越傾向于將 SRAM 集成到芯片上,并安裝在處理器之上。Cadence 公司的 Ranganathan 表示:“SoC 設計人員正在探索解耦方案,即將少量 SRAM 放置在采用最先進工藝節點設計的芯片上。最關鍵的需求是 CPU/GPU/AI 工作負載,例如 1 級、2 級甚至 3 級。在這種情況下,更大的 SRAM 容量(例如 4 級)則放置在更早工藝節點的芯片上,從而降低每個晶體管的成本。更快的芯片間通信鏈路和更小的互連間距的出現,使得多存儲器層次結構的集成更加容易,從而在合理的延遲影響下降低成本。”
目前,這是一種成本高昂的解決方案。“由于封裝成本高、散熱復雜且標準化程度有限,基于3D和芯片組的SRAM目前僅適用于高端AI/HPC芯片,”Seitzer表示。“如今,SRAM密集型芯片組仍然集中在高端設備中,需要通過定制解決方案將SRAM與其他高價值IP集成在一起。短期內實現低成本、面向大眾市場的SRAM芯片組似乎不太可能。”
但那一天或許終會到來。“芯片組(Chiplets)提供了一種絕佳的解決方案,能夠以更低的功耗實現更高的帶寬,”Farjadrad說道。“每個人都需要讓它發揮作用,這就是為什么整個行業如此關注解決這些挑戰的原因。這才是打破性能瓶頸的途徑,不僅適用于2.5D,也適用于3D。”
替代方案
每當內存出現問題時,人們總會討論可以用哪些新型內存技術來替代SRAM。“新興技術在某些特定情況下有所幫助,但它們并不能完全替代SRAM,”Bonnardot說道。“未來的大多數系統將會使用更多層級的內存,而不是更少。”
未來的系統架構也可能有所不同。“內存計算或近內存計算的概念,正是人工智能的發展方向,這意味著傳統模型將會發生一些變化,”Baya Systems首席商務官Nandan Nayampally表示。“傳統模型圍繞著龐大的計算引擎構建,這些引擎試圖從相對靠近內存的位置提取數據。因此,系統將持續演進,開始使用不同的存儲器,因為我們最終可以說SRAM已經無法擴展。這是一種看待問題的方式。另一種看待問題的方式是,我們目前使用SRAM的方式是否已經達到了架構上的極限?我認為后一種情況更為明顯。Cerebras在晶圓級應用方面邁出了重要一步,即將更多的存儲器集中在芯片上,從而改變了一些限制。”
即使有了這些進步,單個芯片上可容納的模型尺寸仍然有限。“這就引出了一個主要問題:‘在一片晶圓上究竟能高效地實現什么?’ 如果開始堆疊晶圓或生產更大的晶圓,這種架構還能繼續正常擴展嗎?還是最終會遇到同樣的限制?所謂的‘內存墻’并非一次性的障礙,”納亞姆帕利說道。 “如果架構保持不變,模型尺寸的每一次增大都會帶來新的障礙。因此,設計決策必須著重考慮系統的可擴展性,從單芯片到多芯片乃至更大范圍。最初,我們看到的是CPU集群。后來是芯片組集群。再后來,發展到板級集群。如今,擴展意味著要讓整個機架作為一個統一的計算資源運行,甚至更進一步。在每個階段,無論是納米級、毫米級、厘米級、米級還是公里級,都會出現新的挑戰。最終,如何劃分和管理資源決定了你克服這些反復出現的障礙的能力。”
新型存儲器也正在站穩腳跟。“一些新興的嵌入式存儲器確實展現出了真正的市場吸引力,尤其是在SRAM或嵌入式閃存難以勝任的領域,”Seitzer說道。“例如,MRAM具有良好的可擴展性、低泄漏、高耐久性,有望取代SoC中的部分嵌入式閃存/SRAM。ReRAM由于易于集成和成本較低,正被越來越多地采用,成為一種更經濟高效的嵌入式非易失性存儲技術。這些技術可以增強而非取代L1/L2緩存中的高性能SRAM,但它們有望取代某些控制器、MCU和加速器中的嵌入式存儲器。”
高帶寬內存(HBM) 備受關注,它顯著提升了 DRAM 的帶寬。HBM 由多層 DRAM 堆疊而成,其底層傳統上是與處理器直接連接的芯片級物理層 (PHY)。由于底層芯片采用了與位單元層相同的工藝技術——一種針對存儲單元而非邏輯電路優化的工藝——因此其功耗密度和熱密度受到限制。如果將底層芯片的工藝升級為針對邏輯電路優化的工藝,則可以支持更多潛在功能并實現更高的性能。
“通過這種方式,我們可以在HBM基片和GPU之間實現更高帶寬的芯片間接口,”Farjadrad說道。“我們可以利用基片另一側的剩余帶寬來連接其他設備。這些額外設備可以是另一排HBM,從而使GPU可訪問的HBM容量翻倍。或者,也可以將其用于I/O芯片組,以提供更高的外部帶寬,或者兩者兼而有之。”
此外,緩存管理方面也有了更大的空間。“在SRAM擴展不再自動的時代,架構效率,尤其是在結構和一致性層面,成為了每平方毫米性能和每瓦性能的關鍵所在,”Bonnardot說道。“通過智能地管理緩存位置和流量行為,緩存可以在不成比例增加SRAM面積的情況下,提供足夠的內存容量和帶寬提升。”
結論
內存瓶頸日益凸顯,而且短期內幾乎沒有改變的跡象。SRAM 擴展不太可能重現昔日的輝煌,這意味著必須尋找替代方案。3D 堆疊技術可能會變得更加普及,尤其是在價格下降的情況下。但目前還沒有萬全之策。如果高速內存成為計算能力的瓶頸,那么計算就必須更有效地利用現有內存。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.