公眾號記得加星標??,第一時間看推送不會錯過。
隨著人工智能集群規模的不斷擴大,它們開始使用光互連來實現橫向擴展連接。然而,它們可能很快就會需要使用光互連來實現縱向擴展連接。為了應對這一挑戰,超大規模數據中心運營商微軟、Meta 和 OpenAI與硬件設計公司 AMD、博通和英偉達合作,共同開發了一種與協議無關的、適用于人工智能集群的縱向擴展互連技術。
為此,本周這些公司成立了光計算互連(OCI:optical compute interconnect)多源協議(MSA:Multi-Source Agreement )小組,旨在為大型人工智能系統和機架內部的擴展互連定義一個開放的光連接規范,使超大規模數據中心能夠使用光纜而非銅纜,以高速和可預測的功耗連接更多加速器。實際上,這意味著該聯盟將開發一個通用的光物理層(PHY)和統一的組件,以支持各種協議,例如AMD和博通的UALink協議以及英偉達的NVLink協議。
![]()
用于人工智能機架和擴展集群的短距離光鏈路的OCI連接技術將定義一個基于NRZ信令和波分復用(WDM)的通用物理層(PHY),初始配置為4個波長×50 Gb/s(單向200 Gb/s),并最終擴展至每根光纖800 Gb/s。隨著生態系統的發展,該技術路線圖預計將擴展波長數量和信令速率,目標是每根光纖3.2 Tb/s及更高。該技術將支持可插拔光模塊、板載光器件以及直接與計算芯片集成的共封裝光器件(CPO)。
通用光層將使不同的處理器和互連協議能夠在同一光纖基礎設施和來自不同供應商的交換機上運行,從而確保超大規模數據中心運營商的靈活性,同時保留人工智能加速器、人工智能GPU、XPU和其他處理器開發商所用協議的競爭優勢。此外,標準化的OCI路線圖旨在簡化系統集成、降低開發風險并縮短新一代人工智能硬件的部署周期。
雖然 OCI MSA 組織由 AMD、博通和微軟領導,而這三家公司都是開放行業標準的知名支持者,但這顯然不是像 Ultra Ethernet Consortium 或 UALink Consortium 那樣的傳統標準組織,因此不會對該技術的發展方式產生影響。
旨在創建人工智能基礎設施的開放規范
光計算互連(OCI)多源協議(MSA)組織今日宣布成立,創始成員包括AMD、博通、Meta、微軟、英偉達和OpenAI。該行業聯盟標志著向超大規模數據中心驅動的開放生態系統邁出了關鍵一步,旨在構建用于光互連的多元化供應鏈。通過統一采用開放規范,OCI MSA成員正在推動構建一個強大的光生態系統,確保未來人工智能互連能夠以靈活的多供應商基礎架構為基礎,滿足現代人工智能基礎設施的光互連需求。
隨著大型語言模型(LLM)向超級智能發展,傳統的銅纜互連在物理傳輸距離上已接近極限,這影響了人工智能集群的規模化架構。OCI 將實現從銅纜架構向光纖架構的遷移,從而緩解銅纜互連的瓶頸。
OCI規范旨在優化功耗、延遲和成本。它結合了不歸零(NRZ)調制和波分復用(WDM)光技術,并將連接模式從以模塊為中心轉變為以芯片為中心。通過實現光器件與計算和網絡芯片的更緊密集成,OCI在滿足傳統銅纜連接嚴苛的功耗目標的同時,顯著提升了帶寬密度和系統可擴展性。
通過建立可互操作的光接口協議,OCI MSA 實現了“即插即用”的生態系統。這一開放且可互操作的規范使超大規模數據中心能夠通過通用的光物理層 (PHY) 解耦任何頂級處理器單元 (XPU) 引擎和頂級縱向擴展交換機,從而確保一流的計算能力與最先進的光學技術相匹配。
標準化的路線圖可以顯著降低集成風險,縮短開發周期,并為整個 AI 機架供應鏈提供一條清晰、無風險的多代、多廠商光互連部署路徑。
統一技術路線圖
OCI MSA 為整個 AI 機架供應鏈提供了一個可擴展的開放規范路線圖,支持跨多代硬件的多廠商光 PHY 和互連部署:
標準化高密度接口:推廣 OCI GEN1 4λ x 50Gbps NRZ(200Gbps/方向)和 OCI GEN2 400Gbps/方向雙向 (BiDi) 技術,每根光纖最高可達 800Gbps。
大規模可擴展性:一份擴展波長數量和數據速率的路線圖,目標是將每根光纖的傳輸速率提升至 3.2Tbps 及以上。這將使擴展域能夠通過更高的 GPU 數量和更高的單 GPU 帶寬來實現。
可互操作外形尺寸:支持可插拔、板載和共封裝光學器件 (CPO)。
規模化效率:使光纖解決方案能夠滿足以前只有銅纜連接才能達到的苛刻的性能、功耗和成本目標,同時提供更遠的傳輸距離。
高管視角
AMD技術與工程高級副總裁Brian Amick表示: “未來十年后期,為了支持大型人工智能系統,對光互連技術的需求日益增長,這一點顯而易見。AMD是OCI MSA的創始成員和堅定支持者,該協議為業界制定了開放規范,旨在促進一個強大的、多廠商的光互連生態系統的發展。”
博通公司光系統事業部副總裁兼總經理Near Margalit表示: “博通很榮幸能夠利用我們多代CPO平臺和行業合作伙伴關系來推動OCI規范的發展。OCI -MSA能夠與現有的基于SerDes的ASIC無縫集成,同時為直接集成ASIC提供了清晰的路徑,從而確保生態系統保持靈活性和高性能。”
Meta硬件系統副總裁Dan Rabinovitsj表示: “解決人工智能集群設計中功耗和成本限制的技術需求真實存在且迫在眉睫。我們鼓勵采用OCI協議,以將高性能人工智能集群中對更大規模擴展域的需求與電氣背板的限制解耦。”
微軟Azure系統與架構企業副總裁Saurabh Dighe表示: “擴展專用光技術、協議和交換機架構是構建可擴展、多機架、高性能AI計算域的基礎。OCI MSA通過前瞻性的物理層規范推進了這一愿景,為開放標準、差異化實現和系統架構創新奠定了基礎。”
NVIDIA網絡高級副總裁Gilad Shainer表示: “NVIDIA是OCI MSA的創始成員,旨在為全球人工智能基礎設施建立通用的光學標準。通過將一流的計算能力與最先進的光學器件相結合,OCI MSA能夠提供下一代超級智能所需的規模和性能。”
OpenAI硬件主管Richard Ho表示: “人工智能的持續進步依賴于人工智能超級計算機的擴展,需要更高的千萬億次浮點運算能力、更大的內存帶寬,以及更重要的,在更大范圍內更大的網絡帶寬,從而實現更廣泛的覆蓋。OCI MSA對于幫助業界構建人工智能系統至關重要,而這些系統將最終實現通用人工智能(AGI)。”
OCI技術規范速讀
本次的標準定義了光計算互連(OCI)物理層線路側光接口的技術規范。OCI旨在利用級聯微環諧振器(MRR:micro-ring resonators)的密集波分復用(DWDM:dense wavelength-divisionmultiplexing )波長柵格,為人工智能(AI)后端網絡光互連提供低功耗、高密度解決方案。
圖 1 顯示了不同 OCI 實現方式的橫截面視圖。
![]()
OCI線路側接口基于粗波分復用(CWDM:coarse wavelength-division multiplexing)網格中緊密排列的DWDM信道組。為了降低AI規模化應用領域中光纖連接性和密度方面的挑戰,每根光纖都支持雙向鏈路,發送和接收信號在同一根光纖上反向傳播。發送和接收信號使用不同的CWDM波段。因此,定義了A和B兩組波長,其中A/B組波長用于發送,B/A組波長用于接收,這對于A/B型收發器而言如圖2所示。需要注意的是,本規范并未嚴格要求OCI收發器在物理實現上必須對稱,即兩端都使用A型和B型收發器。外部激光源(ELS:external laser source)為A組和B組發射器提供調制所需的光。
![]()
物理編碼子層 (PCS:Physical Coding Sublayer) 位映射和物理介質連接 (PMA:PhysicalMedium Attachment) 子層
圖 1-1 顯示了 OCI PMA 和物理介質相關 (PMD:physical medium dependent ) 子層與 IEEE 802.3 PCS 和 PMA 子層以及其他以太網子層之間的關系。
![]()
OCI PMA 與 200GBASE-R 8:1 SM-PMA、400GBASE-R 16:2 SM-PMA、800GBASE-R 32:4 SM-PMA 和 1.6TBASE-R 16:8 SM-PMA 接口。 OCI PMA m:n 具有變量 m 和 n,分別表示每個 PMA 的輸入通道數和輸出通道數,其中:
200G OCI 1:4 PMA 的 m 為 1,n 為 4
400G OCI 2:8 PMA 的 m 為 2,n 為 8
800G OCI 4:16 PMA 的 m 為 4,n 為 16
1.6T OCI 8:32 PMA 的 m 為 8,n 為 32
如圖 1-2 陰影框所示,在發送(解復用:demultiplexing)方向上,m:n PMA 將 m 個 212.5 Gbps 串行流解復用到 PMA 下方業務接口的 n 個 53.125 Gbps PMAL。在接收(復用:multiplexing)方向上,m:n PMA 將 PMA 下方業務接口處的 n 個 53.125 Gbps PMAL 復用為 m 個 212.5 Gbps PCSL,并發送到 PMA 業務接口。
OCI PMD 使用 4 個波長上的 53.125 Gbaud 不歸零 (NRZ) 調制來傳輸 212.5 Gbps 的串行數據流。每次建立鏈路時,OCI-PMD 都會對這 4 個 NRZ 模式進行去斜校正。
![]()
![]()
一、去斜(Deskew)狀態圖描述
圖 1-3 和表 1-1、1-2 和 1-3 展示了狀態機的要求,該狀態機用于重新對齊每個 212.5 Gbps 通道內 4 個光通道的接收數據位,以消除光纖色散或其他因素可能引入的通道間偏差。此去斜過程在硬件層面進行,在接收數據向上傳遞到協議棧之前完成。由于使用的是雙向鏈路,鏈路的兩端在硬件初始化后都會啟動此過程。去斜狀態機將無限期地保持激活狀態。
Deskew_Data_Relink 狀態會抑制每個 212.5 Gbps 通道內四個 NRZ 發射通道的調制(但不抑制平均功率),以便向雙向鏈路的另一端發出信號,使其也開始去斜過程。在應用 TX 靜噪功能并設置 relink_squelch_tx_duration 參數(參見表 1-3)后,212.5 Gbps 通道內的所有 4 個發射器開始發送表 1-1 中的 160 位斜角校正訓練模式。請注意,表 1-1 和表 1-2 中的所有模式均相同,僅在第 23 位和第 16 位有所不同。表 1-1 和表 1-2 中的“數據通道”列指的是每個通道的相對波長,其中 0 表示最短波長。根據具體實現,物理通道編號可能與這些波長索引不對應。
Deskew_Data_Detect 狀態會等待接收到的數據與訓練模式匹配,然后才會進入 Deskew_Data_Sync 狀態。如果在超過 timeout_data_detect 參數(表 1-3)的時間后仍未檢測到訓練模式,則返回 Deskew_Data_Relink 狀態。請注意,模式識別機制應在高達 1E-4 的誤碼率 (BER) 下正常工作,并能夠成功識別模式的存在。
Deskew_Data_Sync 狀態計算 4 個接收信道之間的整數單位間隔比特時序偏差,并應用硬件延遲來重新對齊 160 位模式。例如,這可以通過在每個信道的相位先進先出 (FIFO) 之后插入數字延遲來實現。這樣,最早到達的信道數據就可以延遲到與最晚到達的數據匹配。調整范圍必須補償最早到達和最晚到達的 53.125 Gbps NRZ 信道數據之間 0 到 7 個單位間隔的相對延遲。
這提供了足夠的范圍來補償光纖中的色散以及信道之間的電延遲失配。請注意,模式偏差識別機制應在高達 1E-4 的誤碼率 (BER) 下正常工作,并能夠成功識別模式的存在以及信道之間的偏差。即使存在鏈路損傷(例如多徑干擾 (MPI) 和反向反射),傾斜模式檢測也必須保持魯棒性。如果超過 timeout_data_sync 時間(表 1-3)仍未計算并應用所需的延遲,則返回 Deskew_Data_Relink 狀態。
![]()
Deskew_Data_Validate 狀態必須確保表 1-1 中的校正訓練模式已應用至少表 1-3 中規定的 duration_to_transmit_training_pattern 時間限制。時間過后,開始在 212.5 Gbps 通道內的所有 4 個通道發射器上發送表 1-2 中的 160 位校正釋放模式。模式切換必須相位連續且無毛刺,以避免鏈路接收器的 CDR 丟失鎖定(否則可能導致校正失效)。發射器模式切換后,開始等待接收數據與表 1-2 中的釋放模式匹配。請注意,模式識別機制應在誤碼率高達 1E-4 的情況下正常工作,并能夠成功識別模式的存在。
如果發送釋放模式的時間超過 timeout_data_validate(表 1-3)且未識別出正確對齊的釋放模式,則返回 Deskew_Data_Relink 狀態。
Deskew_Data_Mission 狀態必須確保表 1-2 中的偏斜消除模式已應用至少表 1-3 中規定的 duration_to_transmit_release_pattern 時間限制。時間過后,開始發送任務模式數據。模式更改必須相位連續且無毛刺,以避免鏈路接收器的時鐘數據恢復 (CDR) 丟失鎖定(否則可能導致偏斜消除失效)。如果接收數據失效,則返回 Deskew_Data_Relink 狀態。接收數據失效的判定依據可以是接收信號丟失、接收時鐘數據恢復 (CDR) 鎖定丟失或 PCS 重復檢測到不可糾正的錯誤。
![]()
![]()
二、物理數據傳輸順序和波長分配
提供給 OCI PMA 的每 4 位數據都使用最短波長 TX 進行傳輸,該波長從 OCI PMA 輸入接口的最低有效位開始,隨著位位置的增加,波長逐漸增加。同樣,從最短接收波長信道恢復的數據位被發送到 OCI PMA 輸出接口的最低有效位。
光纖規格
每個光纖端口應支持雙向 212.5 Gbps 數據速率,發送和接收信號在同一根光纖上,使用不同的波長組。212.5 Gbps 電信號由四個 DWDM 53.125 Gbps NRZ 光信號聚合而成,如上一節所述。圖 2-1 顯示了同一根光纖支持的發送器和接收器的 DWDM 波長通道和 CWDM 波長組。A/B 型收發器始終發送本節中規定的 A/B 組波長。雙向鏈路一端連接 A 型收發器,另一端連接 B 型收發器。雖然圖 2-1 展示了一個兩端均配備 A 型和 B 型收發器的對稱實現示例,但規范并未嚴格要求這種對稱性,非對稱的物理實現也符合要求。
![]()
一、一般特性
一般光學規格見表 2-1。
![]()
二、光發射機特性
光發射機特性定義見表2-2。
![]()
![]()
三、光接收機特性
光接收機特性定義見表2-3。
![]()
![]()
四、光纖鏈路模型
參考光纖鏈路模型基于500米SMF-28光纖,總插入損耗為2.5 dB,主要由鏈路中的連接器損耗引起。它代表了數據中心后端網絡中OCI收發器需要閉合的最差鏈路。總鏈路損耗和色散預算如表2-5所示。
![]()
五、外部激光源
OCI 實現應使用符合 OIF ELSFP 實現規范和表 2-6 中規定的外部激光源 (ELS)。光必須耦合到保偏光纖 (PMF) 中,然后連接到 OCI 芯片。必須仔細考慮損耗預算和容差,以確保 ELS 能夠提供足夠的輸出功率。激光源將提供一個較小的控制范圍,用于調節發射端的光功率,允許功率從最大功率水平衰減。光功率水平和控制范圍是具體實現 (IS) 的,未在表 2-6 中規定。
![]()
![]()
光學引擎管理接口
收發器應向主機提供基于 CMIS 5.3 的管理接口。這需要通過處理核心來實現。關于硬件和軟件實現的更多細節可能會在本文檔的后續版本中添加。為了輔助調試和自檢,強烈建議具備諸如電環回模式、光環回模式以及 MPI 檢測等診斷功能。光引擎依賴于遵循 CMIS 規范的主機層軟件實現。本章將介紹 CMIS 規范中與 OCI 相關的部分。
![]()
![]()
一、標志摘要
CMIS 5.3 僅在下半頁寄存器中定義了 0-3 號存儲體的標志摘要。如果主機實現使用一個主機層來管理 8 個光引擎,則應擴展這些寄存器的上半部分以支持 4-7 號存儲體的標志摘要。
二、飛行數據記錄器(Flight Data Recorder)
為了便于檢索標準 CMIS 接口之外的調試信息,需要一種飛行數據記錄器機制。CDB 協議定義可用于此功能。具體實現方式由廠商自行決定。
三、多功能診斷監控 (VDM:Versatile Diagnostic Monitoring) 定義
VDM 提供除 CMIS 第 11h 和 14h 頁之外的更多監控資源。詳細信息可從 VDM 規范中獲取(自定義可觀測值參見表 3-2)。
VDM 告警和警告在第 5 節中進行了規定,閾值待定。請注意,表 3-2 中列出的某些 VDM 可觀測值的有效性取決于 OCI 收發器的具體物理實現,應由供應商和用戶協商確定。
![]()
![]()
四、數字診斷規范
![]()
五、告警和警告
告警和警告應針對每個 VDM 實例、每個存儲體以及每個通道(如適用)進行報告。四個 DWDM 光波長通道各自擁有獨立的告警和警告報告。
以下列出了細化到通道級別的告警和警告監控資源。此組中的每個監控資源均針對每個 DWDM 光波長通道。
發射機偏置電流(來自 ELS 偏置電流報告)
發射機光功率
接收機光功率
光接收機 PRBS 校驗誤碼率 (BER)
光接收機 MPI 指標
以下列出了細化到數據路徑通道級別的告警和警告監控資源。此組中的每個監控資源均針對每個 212.5 Gbps 電數據路徑通道。
主機側 PreFEC 誤碼率
線路側 PreFEC 誤碼率
主機側 LTP
以下列出了細化到單芯片級別的告警和警告監控資源。此組中的每個監控資源均針對 1.6 Tbps 的芯片組。
Vcc 輔助電壓
TX 溫度
RX 溫度
芯片組溫度
若您對硅光SiGe技術及流片相關話題有更多探討需求,歡迎添加微信深入交流。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4344內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.