聲明:本文轉(zhuǎn)載自semianalysis,一切版權(quán)歸他們所有,本文僅供參考。
共封裝光器件 (CPO) 長(zhǎng)期以來(lái)一直被寄予厚望,有望改變數(shù)據(jù)中心的連接方式,但這項(xiàng)技術(shù)走向市場(chǎng)卻歷經(jīng)漫長(zhǎng)過(guò)程,真正可部署的產(chǎn)品要到 2025 年才能面世。與此同時(shí),可插拔收發(fā)器憑借其相對(duì)較低的成本效益、易于部署以及基于標(biāo)準(zhǔn)的互操作性,一直緊跟網(wǎng)絡(luò)需求,并保持著默認(rèn)的選擇。
然而,人工智能工作負(fù)載帶來(lái)的高網(wǎng)絡(luò)需求意味著這次的情況有所不同。人工智能網(wǎng)絡(luò)帶寬的發(fā)展路線圖表明,互連速度、范圍、密度和可靠性要求很快就會(huì)超過(guò)收發(fā)器所能提供的水平。CPO 將帶來(lái)一些好處,并為橫向擴(kuò)展網(wǎng)絡(luò)提供更多選擇,但它對(duì)于縱向擴(kuò)展網(wǎng)絡(luò)至關(guān)重要。在未來(lái)十年后半段及以后,CPO 將成為縱向擴(kuò)展網(wǎng)絡(luò)帶寬增長(zhǎng)的主要驅(qū)動(dòng)力。
當(dāng)今基于銅纜的擴(kuò)展解決方案,例如 NVLink,每個(gè) GPU 可提供高達(dá) 7.2 Tbit/s 的帶寬——在 Rubin 架構(gòu)中,每個(gè) GPU 的帶寬將達(dá)到 14.4 Tbit/s。然而,銅纜鏈路的有效距離最多只有兩米,這意味著擴(kuò)展規(guī)模最多只能覆蓋一到兩個(gè)機(jī)架。此外,通過(guò)銅纜擴(kuò)展帶寬也越來(lái)越困難。在 Rubin 架構(gòu)中,NVIDIA 將通過(guò)雙向 SerDes 將每個(gè)銅纜通道的帶寬再次翻倍,但通過(guò)開(kāi)發(fā)速度更快的 SerDes 來(lái)實(shí)現(xiàn)銅纜帶寬翻倍是一個(gè)極具挑戰(zhàn)性的擴(kuò)展方向,進(jìn)展緩慢。CPO架構(gòu)可以提供相同甚至更高的帶寬密度,并提供更多擴(kuò)展帶寬的途徑,同時(shí)還能支持更大的擴(kuò)展規(guī)模。
要理解CPO的推動(dòng)作用,首先要考慮使用收發(fā)器進(jìn)行光通信時(shí)存在的諸多效率低下和權(quán)衡取舍。收發(fā)器可以實(shí)現(xiàn)更遠(yuǎn)的鏈路距離,但網(wǎng)絡(luò)交換機(jī)或計(jì)算托架前面板上用于插入收發(fā)器的接口通常距離XPU或交換機(jī)ASIC僅15-30厘米。這意味著信號(hào)必須先通過(guò)LR SerDes進(jìn)行電信號(hào)傳輸,經(jīng)過(guò)這15-30厘米的距離后,再由收發(fā)器內(nèi)部的數(shù)字信號(hào)處理器(DSP)對(duì)電信號(hào)進(jìn)行恢復(fù)和處理,最后轉(zhuǎn)換為光信號(hào)。而CPO則將光引擎放置在XPU或交換機(jī)ASIC旁邊,這意味著可以省去DSP,并且可以使用低功耗的SerDes將數(shù)據(jù)從XPU傳輸?shù)焦庖妗EcDSP收發(fā)器相比,這可以將數(shù)據(jù)傳輸所需的能量降低50%以上——許多廠商的目標(biāo)是將每比特的能耗降低高達(dá)80%。
![]()
盡管英偉達(dá)和博通等公司的橫向擴(kuò)展CPO解決方案越來(lái)越受到關(guān)注,并受到終端客戶的密切關(guān)注,但大型超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商已經(jīng)開(kāi)始規(guī)劃其縱向擴(kuò)展CPO戰(zhàn)略,并與供應(yīng)商達(dá)成合作。例如,Celestial AI預(yù)計(jì)到2028年底,其年化收入將達(dá)到10億美元——我們認(rèn)為這主要得益于其基于亞馬遜Trainium 4平臺(tái)的縱向擴(kuò)展CPO解決方案。
專注于CPO的公司如今已不再局限于論文、試點(diǎn)項(xiàng)目和演示,而是正在制定關(guān)鍵的產(chǎn)品決策,例如光端口架構(gòu),以解決大規(guī)模生產(chǎn)的問(wèn)題。對(duì)于規(guī)模化生產(chǎn)而言,CPO 的問(wèn)題不再是是否以及為何,而是何時(shí)以及如何——如何將這些系統(tǒng)投入批量生產(chǎn),以及激光器制造商等關(guān)鍵零部件供應(yīng)鏈公司何時(shí)能夠提高產(chǎn)能。
本文將深入探討CPO的優(yōu)勢(shì)和挑戰(zhàn)、CPO 架構(gòu)的工作原理、當(dāng)前和未來(lái)的 CPO 產(chǎn)品、專注于 CPO 的公司、CPO 相關(guān)組件及其各自的供應(yīng)鏈。本文旨在為從業(yè)人員、行業(yè)分析師、投資者以及所有對(duì)互連技術(shù)感興趣的人士提供指導(dǎo)。
本文目錄及閱讀指南:
我們將文章分為五個(gè)部分——讀者可以根據(jù)自己的興趣或感受選擇閱讀部分。
在第一部分:CPO 總擁有成本 (TCO) 分析中,我們首先分析采用 CPO 如何改變橫向擴(kuò)展和縱向擴(kuò)展網(wǎng)絡(luò)的總擁有成本。我們認(rèn)為,總擁有成本、可靠性和設(shè)備供應(yīng)商的議價(jià)能力將是橫向擴(kuò)展網(wǎng)絡(luò)中采用 CPO 的主要考慮因素。我們將探討 CPO 在橫向擴(kuò)展領(lǐng)域是否已成熟,并提及我們目前掌握的解決方案可靠性數(shù)據(jù),例如Meta 在 ECOC 2025 上發(fā)布的 CPO 橫向擴(kuò)展交換機(jī)研究。
在第二部分:CPO 簡(jiǎn)介與實(shí)現(xiàn)中,我們將深入探討 CPO 的工作原理。本部分將探討市場(chǎng)從銅到共封裝銅、從數(shù)字信號(hào)處理器 (DSP) 光器件到線性可插拔光器件 (LPO) 再到 CPO 的演變歷程,以及采用 CPO 的動(dòng)力和理由。此外,我們還將討論SerDes 的擴(kuò)展極限以及作為 SerDes 替代方案的 Wide I/O (尤其是在與 CPO 結(jié)合使用時(shí))。
在第三部分“CPO市場(chǎng)化”中,我們將介紹推動(dòng)CPO獲得市場(chǎng)認(rèn)可并最終推向市場(chǎng)的關(guān)鍵技術(shù)。首先,我們將討論主機(jī)和光引擎封裝,并詳細(xì)解釋臺(tái)積電COUPE封裝及其為何成為首選集成方案。我們將深入探討光纖連接單元(FAU)、光纖耦合以及邊緣耦合與光柵耦合器的區(qū)別。此外,我們還將介紹馬赫-曾德?tīng)栒{(diào)制器(MZM)、微環(huán)調(diào)制器(MRM)和電吸收調(diào)制器(EAM)等調(diào)制器類型。本部分最后將闡述CPO被廣泛采用的核心原因——利用CPO擴(kuò)展帶寬的多種途徑:連接更多光纖、采用波分復(fù)用(WDM)以及更高階的調(diào)制。
在第四部分“CPO產(chǎn)品現(xiàn)狀與展望”中,我們將分析目前市場(chǎng)上的CPO產(chǎn)品及其相關(guān)供應(yīng) 鏈。我們將首先介紹英偉達(dá)和博通的解決方案,然后再討論主要的CPO公司。我們將涵蓋Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil,詳細(xì)介紹每家供應(yīng)商的解決方案,并分析每家公司方案中的重要優(yōu)缺點(diǎn)。
CPO 總擁有成本 (TCO) 分析
在今年早些時(shí)候舉行的英偉達(dá)GTC 2025大會(huì)上,最受矚目的議題之一是Jensen宣布公司首款支持CPO的橫向擴(kuò)展網(wǎng)絡(luò)交換機(jī)。值得注意的是,在縱向擴(kuò)展( scale-up)方面,英偉達(dá)仍然堅(jiān)持使用銅纜,并竭盡全力避免采用光纖,即便到2027年和2028年也是如此。
讓我們首先討論這些新型 CPO 交換機(jī)的總擁有成本,分析橫向擴(kuò)展 CPO 可以帶來(lái)的成本和節(jié)能效益。
英偉達(dá)在 GTC 2025 主題演講中發(fā)布了三款不同的 CPO 橫向擴(kuò)展交換機(jī),它們采用了兩種不同的 CPO 交換機(jī) ASIC。雖然這些交換機(jī)在總體擁有成本 (TCO)、功耗和部署速度方面具有優(yōu)勢(shì),但這些優(yōu)勢(shì)并不足以促使客戶立即轉(zhuǎn)向完全不同的部署模式,因此我們預(yù)計(jì)首批 CPO 橫向擴(kuò)展(scale-out)交換機(jī)的市場(chǎng)應(yīng)用將十分有限。讓我們來(lái)分析一下原因。
![]()
典型的AI集群網(wǎng)絡(luò)配置和總擁有成本
典型的AI集群包含三個(gè)主要網(wǎng)絡(luò)架構(gòu):后端、前端和帶外管理架構(gòu)(out of band management fabric)。后端網(wǎng)絡(luò)架構(gòu)是利用率最高、技術(shù)要求也最高的網(wǎng)絡(luò)架構(gòu)。后端網(wǎng)絡(luò)架構(gòu)用于GPU之間的橫向擴(kuò)展通信,使GPU能夠相互通信并在集體操作中交換數(shù)據(jù),從而實(shí)現(xiàn)訓(xùn)練和推理的并行化。后端網(wǎng)絡(luò)通常使用InfiniBand或以太網(wǎng)協(xié)議。
由于后端網(wǎng)絡(luò)對(duì)性能要求極高,因此其在總網(wǎng)絡(luò)成本和功耗中占據(jù)主導(dǎo)地位。對(duì)于部署在 InfiniBand 網(wǎng)絡(luò)上、采用 Nvidia X800-Q3400 后端交換機(jī)的三層 GB300 NVL72 集群而言,后端網(wǎng)絡(luò)成本占比高達(dá) 85%,功耗占比更是高達(dá) 86%。基于 CPO 的交換機(jī)和網(wǎng)絡(luò)解決方案可用于后端和前端網(wǎng)絡(luò),但我們認(rèn)為現(xiàn)階段的部署重點(diǎn)將放在后端網(wǎng)絡(luò)。
從宏觀角度來(lái)看,網(wǎng)絡(luò)成本是僅次于AI服務(wù)器本身的AI集群總成本的第二大組成部分。在采用三層InfiniBand網(wǎng)絡(luò)的GB300 NVL72集群中,網(wǎng)絡(luò)成本占集群總成本的15%,而對(duì)于四層網(wǎng)絡(luò),這一比例則高達(dá)18%。光收發(fā)器是這部分成本的重要組成部分,在使用相對(duì)昂貴的Nvidia LinkX收發(fā)器時(shí),三層網(wǎng)絡(luò)光收發(fā)器成本占總成本的60%。此外,它們還消耗三層網(wǎng)絡(luò)總功耗的45%。
![]()
AI集群中GPU數(shù)量越多,所需的網(wǎng)絡(luò)層數(shù)就越多。從兩層網(wǎng)絡(luò)擴(kuò)展到三層甚至更多層網(wǎng)絡(luò),意味著更高的成本和更大的功耗預(yù)算。CPO既可以在保持網(wǎng)絡(luò)層數(shù)不變的情況下幫助降低功耗和成本,也可以通過(guò)增加給定層數(shù)網(wǎng)絡(luò)中可連接的GPU數(shù)量來(lái)降低總功耗和成本需求。
CPO橫向擴(kuò)展功耗預(yù)算
今年早些時(shí)候,在 GTC 2025 大會(huì)上,英偉達(dá) CEO 黃仁勛強(qiáng)調(diào),光收發(fā)器本身巨大的功耗是推動(dòng) CPO 的關(guān)鍵因素。根據(jù)上表中的機(jī)架功耗預(yù)算,一個(gè)部署在三層網(wǎng)絡(luò)上的 20 萬(wàn) GB300 NVL72(每個(gè)機(jī)架 72 個(gè) GPU 封裝和 144 個(gè)計(jì)算芯片)GPU 集群將消耗 435 兆瓦的關(guān)鍵 IT 電源,其中僅光收發(fā)器就消耗了 17 兆瓦。顯然,通過(guò)減少大部分光收發(fā)器組件,可以節(jié)省大量電力。
通過(guò)比較單個(gè) 800G DSP 收發(fā)器的功耗與 CPO 系統(tǒng)中光引擎和激光源(每 800G 帶寬)的功耗,這一點(diǎn)很容易看出。雖然一個(gè) 800G DR4 光收發(fā)器的功耗約為 16-17W,但我們估計(jì),Nvidia Q3450 CPO 交換機(jī)中使用的光引擎和外部激光源每 800G 帶寬的功耗約為 4-5W,功耗降低了 73%。
這些數(shù)據(jù)與 Meta 在 ECOC 2025 上發(fā)表的論文中提出的數(shù)據(jù)非常接近。在該報(bào)告中,Meta 展示了 800G 2xFR4 可插拔收發(fā)器消耗約 15W 的功率,而 Broadcom Bailly 51.2T CPO 交換機(jī)中的光引擎和激光源每提供 800G 帶寬消耗約 5.4W 的功率,節(jié)能 65%。
![]()
讓我們將分析擴(kuò)展到集群層面。以基于三層網(wǎng)絡(luò)的 GB300 NVL72 集群為例,我們發(fā)現(xiàn),后端網(wǎng)絡(luò)從 DSP 收發(fā)器切換到 LPO 收發(fā)器,可以將總收發(fā)器功耗降低 36%,總網(wǎng)絡(luò)功耗降低 16%。完全過(guò)渡到 CPO 相比 DSP 光模塊,節(jié)能效果更為顯著——收發(fā)器功耗降低 84%——盡管部分節(jié)能效果會(huì)被交換機(jī)中新增的光引擎 (OE) 和外部光源 (ELS) 所抵消,這些組件的總功耗增加了 23%。在下面的示例中,CPO 方案下每個(gè)服務(wù)器的光收發(fā)器功耗仍然保持在 1000W,因?yàn)槲覀兗僭O(shè)前端網(wǎng)絡(luò)仍然使用 DSP 收發(fā)器。
![]()
使用英偉達(dá)的CPO橫向擴(kuò)展交換機(jī)意味著默認(rèn)(default)使用高基數(shù)網(wǎng)絡(luò),但最終用戶并不會(huì)感受到這一點(diǎn),因?yàn)槎丝谇袚Q發(fā)生在交換機(jī)內(nèi)部,而使用非CPO高基數(shù)(high radix )交換機(jī)時(shí)則需要通過(guò)配線架或八爪魚(yú)線纜在交換機(jī)外部進(jìn)行。這些英偉達(dá)CPO交換機(jī)的優(yōu)勢(shì)在于擁有極高的端口數(shù)量——例如,Quantum 3450提供144個(gè)800G端口,Spectrum 6800提供512個(gè)800G端口。
之所以使用“默認(rèn)”一詞,是因?yàn)橛ミ_(dá)的非CPO InfiniBand Quantum Q3400交換機(jī)也提供144個(gè)800G端口,而其其他InfiniBand交換機(jī)(例如QM9700)僅提供32個(gè)800G端口——只有前者提供了這種“一體式高基數(shù)”(high radix in a box)方案,從而提供大量的有效端口。如此高的端口數(shù)量可能使客戶能夠?qū)⑷龑泳W(wǎng)絡(luò)簡(jiǎn)化為兩層網(wǎng)絡(luò),同時(shí)還能省去客戶部署交換機(jī)、配線架或笨重的八爪魚(yú)線纜的麻煩,這可能成為一項(xiàng)關(guān)鍵的賣(mài)點(diǎn)。在兩層網(wǎng)絡(luò)中,與傳統(tǒng)的DSP收發(fā)器相比,收發(fā)器功耗降低了84%,交換機(jī)功耗降低了21%,整個(gè)網(wǎng)絡(luò)功耗降低了48%。
Spectrum 6800 交換機(jī)擁有大量端口,在兩種邏輯配置下均可提供 512 個(gè) 800G 端口,相比之下,Spectrum 6810 僅提供 128 個(gè) 800G 端口、256 個(gè) 400G 端口或 512 個(gè) 200G 端口。例如,Spectrum 6810 的 128 個(gè) 800G 端口配置下,一個(gè)雙層網(wǎng)絡(luò)最多可連接 8,192 個(gè) GPU;而 Spectrum 6800 的 512 個(gè) 800G 端口配置則可連接 131,072 個(gè) GPU。
順便提一下,在L層網(wǎng)絡(luò)中,使用具有k個(gè)端口的交換機(jī)所能支持的最大主機(jī)數(shù)量由以下公式給出:
![]()
神奇之處在于端口數(shù) k 與網(wǎng)絡(luò)層數(shù)呈指數(shù)關(guān)系。因此,對(duì)于一個(gè)兩層網(wǎng)絡(luò),通過(guò)為每個(gè)端口分配一半帶寬(例如,將一個(gè) 800G 端口拆分為兩個(gè) 400G 端口),使用內(nèi)部端口切換(如 Spectrum 6800 那樣)、分支電纜或雙端口收發(fā)器,可以將邏輯端口數(shù)翻倍,這意味著支持的主機(jī)數(shù)量將增加四倍!
本節(jié)目前討論的節(jié)能效果,三層CPO網(wǎng)絡(luò)可節(jié)省23%,兩層CPO網(wǎng)絡(luò)可節(jié)省48%,聽(tīng)起來(lái)非常可觀。但問(wèn)題在于,三層網(wǎng)絡(luò)中的網(wǎng)絡(luò)功耗原本就只占集群總功耗的9%。因此,最終切換到CPO的效果至少對(duì)于橫向擴(kuò)展網(wǎng)絡(luò)而言會(huì)被大幅稀釋。三層網(wǎng)絡(luò)切換到CPO可降低23%的網(wǎng)絡(luò)功耗,但僅節(jié)省2%的集群總功耗。遷移到兩層網(wǎng)絡(luò)可降低48%的網(wǎng)絡(luò)成本,但僅節(jié)省4%的集群總功耗。
![]()
從集群總資本成本來(lái)看,情況也類似。
CPO 橫向擴(kuò)展總擁有成本 (TCO)
讓我們簡(jiǎn)要地看一下將收發(fā)器與CPO解決方案進(jìn)行比較時(shí)的一些成本細(xì)節(jié)。首款Nvidia CPO交換機(jī)Quantum X800-Q3450 CPO將使用72個(gè)光引擎,每個(gè)引擎的運(yùn)行速度為1.6Tbit/s;后續(xù)版本的Quantum CPO交換機(jī)可能會(huì)過(guò)渡到36個(gè)光引擎,每個(gè)引擎的運(yùn)行速度為3.2Tbit/s,每個(gè)單元的成本約為1000美元(包括FAU),這意味著每個(gè)系統(tǒng)的總OE(optical engines)成本約為3.6萬(wàn)美元。
為了更直觀地理解這一點(diǎn),不妨考慮一下如果使用傳統(tǒng)光收發(fā)器模塊的總成本。非CPO的X800-Q3400交換機(jī)配備72個(gè)OSFP插槽,并使用一個(gè)1.6T雙端口收發(fā)器來(lái)提供144個(gè)800G端口。假設(shè)一個(gè)通用的1.6T DR8收發(fā)器的價(jià)格為1000美元,那么為這臺(tái)交換機(jī)配備收發(fā)器的總成本將達(dá)到72000美元,是CPO交換機(jī)所需光引擎和ELS模塊(預(yù)計(jì)成本為35000-40000美元)成本的兩倍,才能實(shí)現(xiàn)相同的帶寬。
然而,這還沒(méi)有考慮交換機(jī)廠商的利潤(rùn)。如果毛利率為60%,那么最終用戶購(gòu)買(mǎi)光引擎的成本將達(dá)到80000美元-90000美元——這比同等規(guī)格的收發(fā)器成本更高。此外,光纖換線器等其他組件的成本也會(huì)受到這種利潤(rùn)率的影響。這就解釋了為什么,根據(jù)收發(fā)器的成本和交換機(jī)供應(yīng)商的利潤(rùn),轉(zhuǎn)向 CPO 時(shí)節(jié)省的成本可能不會(huì)很大。
從下表可以看出,在三層網(wǎng)絡(luò)中從收發(fā)器切換到CPO時(shí),CPO組件的額外成本會(huì)使交換機(jī)成本增加81%,抵消了不購(gòu)買(mǎi)收發(fā)器所節(jié)省的86%的成本。盡管CPO的總網(wǎng)絡(luò)成本仍然比使用DSP收發(fā)器低31%,但與電源成本的情況類似,服務(wù)器機(jī)架在集群總擁有成本(TCO)中占比過(guò)高,這意味著集群總成本僅下降了3%。
將網(wǎng)絡(luò)從三層簡(jiǎn)化為兩層可以節(jié)省更多成本——集群總成本最多可降低 7%,收發(fā)器成本降低 86%,網(wǎng)絡(luò)總成本降低 46%。
![]()
因此,如果CPO一方面只能節(jié)省高達(dá)7%的成本和4%的能耗,另一方面卻引發(fā)了人們對(duì)現(xiàn)場(chǎng)維護(hù)困難、可靠性和影響范圍(無(wú)論這種擔(dān)憂是否合理)以及與多家收發(fā)器供應(yīng)商談判時(shí)議價(jià)能力下降的擔(dān)憂——那么,為什么GPU云平臺(tái)還要采用它呢?答案很簡(jiǎn)單:它尚未被廣泛采用——我們預(yù)計(jì)在短期內(nèi),超大規(guī)模數(shù)據(jù)中心不會(huì)迅速采用橫向擴(kuò)展的CPO系統(tǒng)。
面向規(guī)模化網(wǎng)絡(luò)的CPO
相反,我們認(rèn)為面向規(guī)模化部署的CPO才是真正的殺手級(jí)應(yīng)用。正如前文所述,大型超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商已經(jīng)向供應(yīng)商承諾,將在本十年末之前部署基于CPO的規(guī)模化部署解決方案。
目前,基于銅纜的現(xiàn)有擴(kuò)展模式正面臨極限挑戰(zhàn),原因在于銅纜傳輸距離有限——在每通道 200Gbit/s 的速率下,最佳傳輸距離僅為兩米,而且每通道帶寬翻倍的難度也日益增加。CPO 可以解決這些問(wèn)題,因?yàn)樗饶軡M足帶寬密度要求,又能提供多種未來(lái)帶寬擴(kuò)展途徑,還能實(shí)現(xiàn)更大規(guī)模的擴(kuò)展。
一旦部署了 CPO 以實(shí)現(xiàn)縱向擴(kuò)展網(wǎng)絡(luò),縱向擴(kuò)展域?qū)⒉辉偈芑ミB距離的限制。原則上,客戶可以將縱向擴(kuò)展域擴(kuò)展到任意大小。當(dāng)然,如果希望將縱向擴(kuò)展域保持在允許全連接(all-to-all connected)的單層扇出網(wǎng)絡(luò)中,則縱向擴(kuò)展域的大小將受到交換機(jī)基數(shù)的限制。
橫向擴(kuò)展與縱向擴(kuò)展的TAM
縱向擴(kuò)展架構(gòu)的網(wǎng)絡(luò)需求遠(yuǎn)高于后端橫向擴(kuò)展網(wǎng)絡(luò)。GPU 間或交換機(jī)間的鏈路需要更高的帶寬和更低的延遲,才能實(shí)現(xiàn) GPU 間的互連,從而使它們能夠協(xié)同共享內(nèi)存等資源。
舉例來(lái)說(shuō),Nvidia Blackwell 平臺(tái)上的第五代NVLink 為每個(gè) GPU 提供 900GB/s(7200Gbit/s)的單向帶寬。這比后端橫向擴(kuò)展網(wǎng)絡(luò)(使用 CX-8 網(wǎng)卡連接 GB300 NVL72)上每個(gè) GPU 的 100GB/s(800Gbit/s)帶寬高出 9 倍。這也使得主機(jī)需要更高的岸邊帶寬密度,而這正是推動(dòng) GPU SerDes 線路速度不斷提升的動(dòng)力。
同樣重要的是要認(rèn)識(shí)到,隨著縱向擴(kuò)展域規(guī)模的擴(kuò)大以及縱向互連速度的提升,縱向互連(以及最終的縱向互連網(wǎng)絡(luò))的潛在市場(chǎng)規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了橫向擴(kuò)展網(wǎng)絡(luò)。橫向擴(kuò)展網(wǎng)絡(luò)的潛在市場(chǎng)規(guī)模很可能主要由縱向擴(kuò)展網(wǎng)絡(luò)應(yīng)用而非橫向擴(kuò)展網(wǎng)絡(luò)應(yīng)用占據(jù)。
![]()
銅與光學(xué)器件在規(guī)模化應(yīng)用中的比較:全球規(guī)模、密度和覆蓋范圍
目前,出于種種原因,橫向擴(kuò)展網(wǎng)絡(luò)完全依賴銅纜。在當(dāng)前的插拔架構(gòu)下,要使光收發(fā)器的帶寬與 NVLink 相匹配,成本和功耗都將極其高昂,而且還會(huì)引入不必要的延遲。此外,計(jì)算托架上的面板空間可能不足以容納所有這些收發(fā)器。銅纜在低延遲、高吞吐量連接方面表現(xiàn)出色。然而,正如上文所述,銅纜的傳輸距離有限,限制了“世界規(guī)模”——即單個(gè)橫向擴(kuò)展域內(nèi)可連接的 GPU 數(shù)量。
擴(kuò)大規(guī)模是計(jì)算擴(kuò)展的關(guān)鍵途徑。在當(dāng)今基于推理的模型擴(kuò)展和測(cè)試時(shí)計(jì)算的時(shí)代,在單個(gè)規(guī)模擴(kuò)展域中增加計(jì)算能力、內(nèi)存容量和內(nèi)存帶寬變得越來(lái)越重要。
英偉達(dá)的GB200系統(tǒng)之所以能帶來(lái)巨大的性能提升,是因?yàn)樗鼘⒃緝H由8個(gè)互連GPU組成的網(wǎng)絡(luò)規(guī)模擴(kuò)展到了72個(gè)互連GPU,并采用了全連接拓?fù)浣Y(jié)構(gòu)。其結(jié)果是,通過(guò)實(shí)施在橫向擴(kuò)展網(wǎng)絡(luò)中無(wú)法實(shí)現(xiàn)的更復(fù)雜的協(xié)同通信技術(shù),實(shí)現(xiàn)了巨大的吞吐量提升。
在銅纜上,這只能在單個(gè)機(jī)架的占地面積內(nèi)實(shí)現(xiàn),對(duì)供電、散熱和可制造性提出了極高的要求。該系統(tǒng)的復(fù)雜性使得下游供應(yīng)鏈仍在努力提升產(chǎn)能。
英偉達(dá)將繼續(xù)堅(jiān)持使用銅纜。為了保持領(lǐng)先于AMD等競(jìng)爭(zhēng)對(duì)手以及那些正在構(gòu)建自有縱向擴(kuò)展網(wǎng)絡(luò)的超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商,英偉達(dá)還需要進(jìn)一步擴(kuò)大其縱向擴(kuò)展的規(guī)模。因此,英偉達(dá)不得不采取極端措施,在單個(gè)機(jī)架內(nèi)擴(kuò)展縱向擴(kuò)展能力。在GTC 2025大會(huì)上展示的英偉達(dá)Rubin Ultra的Kyber機(jī)架架構(gòu),可擴(kuò)展至144個(gè)GPU封裝(576個(gè)GPU核心)。該機(jī)架的密度是現(xiàn)有GB200/300 NVL72機(jī)架的四倍。鑒于GB200的制造和部署已經(jīng)非常復(fù)雜,Kyber機(jī)架架構(gòu)更是將這一難度提升到了新的高度。
光器件技術(shù)實(shí)現(xiàn)了相反的方案,它可以通過(guò)多個(gè)機(jī)架進(jìn)行擴(kuò)展,從而擴(kuò)大系統(tǒng)規(guī)模,而無(wú)需像以往那樣在密集的空間內(nèi)塞入更多加速器,因?yàn)楹笳邔?duì)供電和散熱提出了更高的要求。雖然目前使用可插拔收發(fā)器可以實(shí)現(xiàn)這一點(diǎn),但光收發(fā)器的成本及其高功耗使得這種方案并不實(shí)用。
![]()
銅纜與光纖在規(guī)模化應(yīng)用中的比較:帶寬擴(kuò)展
在銅纜上擴(kuò)展帶寬也變得越來(lái)越困難。英偉達(dá)的 Rubin 芯片采用了一種新型的雙向 SerDes 技術(shù),實(shí)現(xiàn)了帶寬翻倍。在該技術(shù)中,發(fā)送和接收操作共享同一信道,從而實(shí)現(xiàn)了每個(gè)信道 224Gbit/s 的全雙工通信(發(fā)送 + 接收)。在銅纜上實(shí)現(xiàn)每通道 448G 的“真正”帶寬仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù),其上市時(shí)間也難以確定。相比之下,CPO 提供了多種擴(kuò)展帶寬的途徑:波特率、DWDM、額外的光纖對(duì)以及調(diào)制方式——所有這些都將在本文后續(xù)部分詳細(xì)討論。CPO何時(shí)才能做好迎接黃金時(shí)段的準(zhǔn)備?
那么,如果CPO是解決方案,為什么英偉達(dá)最初只將其應(yīng)用于橫向擴(kuò)展交換機(jī),而不將其應(yīng)用于Rubin Ultra呢?這歸根結(jié)底是供應(yīng)鏈不成熟、制造工藝面臨挑戰(zhàn)以及客戶對(duì)部署的猶豫。推出Quantum和Spectrum CPO交換機(jī)的目的是為了幫助提升供應(yīng)鏈效率,并獲取更多關(guān)于數(shù)據(jù)中心可靠性和可維護(hù)性的實(shí)際數(shù)據(jù)。
在此期間,Meta 在 ECOC 期間發(fā)布的 CPO 可靠性數(shù)據(jù)提供了一些有用的信息。Meta與 Broadcom 合作開(kāi)展了這項(xiàng)研究,Broadcom也發(fā)布了一些有用的幻燈片。在這項(xiàng)研究中,Meta 對(duì) 15 臺(tái) Bailly 51.2T CPO 交換機(jī)進(jìn)行了規(guī)模適中的測(cè)試,累計(jì) 400G 端口設(shè)備小時(shí)數(shù)高達(dá) 104.9 萬(wàn)小時(shí),并發(fā)布了最大非零 KP4 前向糾錯(cuò) (FEC) 值:
![]()
該論文還解釋了在測(cè)試期間,鏈路中沒(méi)有觀察到任何故障或不可糾正的碼字 (UCW),并指出在整個(gè)測(cè)試期間(400G 端口設(shè)備運(yùn)行時(shí)間達(dá) 1,049k 小時(shí))只觀察到一次 FEC bin > 10 的情況。
然而,Meta的研究并未止步于此。在ECOC大會(huì)上發(fā)表同一篇論文時(shí),他們展示了高達(dá)1500萬(wàn)400G端口設(shè)備小時(shí)數(shù)的擴(kuò)展結(jié)果。這些結(jié)果表明,在前400萬(wàn)400G端口設(shè)備小時(shí)內(nèi)未出現(xiàn)UCW(未解決的故障),并且400G 2xFR4收發(fā)器(全球2xFR4收發(fā)器為55萬(wàn))的平均故障間隔時(shí)間(MTBF)為0.5-1M設(shè)備小時(shí),而CPO的MTBF為260萬(wàn)設(shè)備小時(shí)。(原文:Meta did not stop there, however. In the talk at ECOC presenting the same paper, they presented expanded results for up to 15M 400G port-device hours. These results showed that there were no UCWs for the first 4M 400G port device hours, and they also showed a 0.5-1M device hour mean time before failure (MTBF) for 400G 2xFR4 transceivers (550k for 2xFR4 globally) vs 2.6M device hour MTBF for CPO.)
![]()
雖然 1500 萬(wàn)端口設(shè)備小時(shí)聽(tīng)起來(lái)很大,但這是以 400G 端口小時(shí)為單位的。也就是說(shuō),一臺(tái) 51.2T 交換機(jī)運(yùn)行一小時(shí)相當(dāng)于 128 個(gè) 400G 端口小時(shí)。15 臺(tái) 51.2T 交換機(jī)共計(jì) 1500 萬(wàn)個(gè) 400G 端口小時(shí),相當(dāng)于 7812 個(gè)實(shí)際運(yùn)行小時(shí),約合 325 天。事實(shí)上,這 1500 萬(wàn)小時(shí)通常被簡(jiǎn)單地稱為“小時(shí)”或“設(shè)備小時(shí)”,而省略了“端口”部分。盡管在 400 萬(wàn)端口設(shè)備小時(shí)內(nèi)零故障和零 UCW 統(tǒng)計(jì)數(shù)據(jù)非常有價(jià)值,但在轉(zhuǎn)向 CPO 橫向擴(kuò)展交換并投入數(shù)十億美元之前,業(yè)界需要的遠(yuǎn)不止是在實(shí)驗(yàn)室環(huán)境中測(cè)試 15 臺(tái) CPO 交換機(jī) 11 個(gè)月。
在動(dòng)態(tài)的現(xiàn)場(chǎng)環(huán)境中運(yùn)行數(shù)千臺(tái)橫向擴(kuò)展交換機(jī)是一項(xiàng)截然不同的挑戰(zhàn),這些交換機(jī)在生產(chǎn)環(huán)境中的性能表現(xiàn)還有待觀察。生產(chǎn)環(huán)境中的溫度波動(dòng)可能比實(shí)驗(yàn)室環(huán)境更大,從而導(dǎo)致組件性能或耐久性出現(xiàn)意想不到的變化。Meta公司在其 Llama 3 論文中指出,數(shù)據(jù)中心 1-2% 的溫度波動(dòng)會(huì)對(duì)功耗波動(dòng)產(chǎn)生不利影響——這種波動(dòng)是否會(huì)以難以預(yù)料的方式影響整個(gè)網(wǎng)絡(luò)架構(gòu)?
![]()
即使是數(shù)據(jù)中心灰塵這種看似平常的問(wèn)題,也令技術(shù)支持人員頭疼不已,他們可能需要花費(fèi)大量時(shí)間清理光纖端面——當(dāng)然,CPO交換機(jī)通常配備LC或MPO型前置可插拔連接器,但CPO交換機(jī)機(jī)箱內(nèi)部的灰塵又該如何處理呢?0.06%的故障率聽(tīng)起來(lái)很誘人,但這種故障的影響范圍可達(dá)64個(gè)800G端口。本文主要討論的是基于FR光模塊的CPO交換機(jī),而下一代CPO交換機(jī)將基于DR光模塊。以上僅列舉了一些已知的未知因素,在現(xiàn)場(chǎng)測(cè)試中還可能出現(xiàn)更多未知的未知因素。
事實(shí)上,這些結(jié)果通過(guò)提供切實(shí)可靠的可靠性數(shù)據(jù),有力地說(shuō)服了業(yè)內(nèi)人士。我們的目的并非制造恐慌、不確定性或疑慮(FUD),而是呼吁開(kāi)展更大規(guī)模的現(xiàn)場(chǎng)測(cè)試,以便業(yè)界能夠快速了解并解決未預(yù)見(jiàn)的問(wèn)題,從而為更廣泛地采用CPO(網(wǎng)絡(luò)性能優(yōu)化)技術(shù)鋪平道路,尤其是在規(guī)模化網(wǎng)絡(luò)建設(shè)方面。
歸根結(jié)底,英偉達(dá)此次橫向擴(kuò)展CPO產(chǎn)品的發(fā)布,實(shí)際上是為真正的大規(guī)模部署進(jìn)行一次演練和清理。我們認(rèn)為,鑒于縱向擴(kuò)展相比橫向擴(kuò)展具有更顯著的總體擁有成本 (TCO) 和性能/TCO 比優(yōu)勢(shì),其部署規(guī)模和影響將遠(yuǎn)超橫向擴(kuò)展。
此外,就橫向擴(kuò)展型CPO而言,Rubin Ultra計(jì)劃于2027年發(fā)布(我們認(rèn)為最終會(huì)是2027年底),但供應(yīng)鏈屆時(shí)還無(wú)法滿足數(shù)千萬(wàn)個(gè)CPO終端的交付需求,從而無(wú)法滿足GPU的需求。即使是這樣的時(shí)間表對(duì)英偉達(dá)來(lái)說(shuō)也過(guò)于雄心勃勃。因此,費(fèi)曼世代似乎是CPO注入英偉達(dá)生態(tài)系統(tǒng)的重點(diǎn)。
現(xiàn)在讓我們深入探討一下 CPO 的含義、技術(shù)考量、挑戰(zhàn)以及當(dāng)前生態(tài)系統(tǒng)的狀況。
CPO介紹和實(shí)施
CPO是什么?為什么大家都這么興奮?
CPO將光引擎直接集成到與高性能計(jì)算或網(wǎng)絡(luò)ASIC相同的封裝或模塊中。這些光引擎將電信號(hào)轉(zhuǎn)換為光信號(hào),從而實(shí)現(xiàn)通過(guò)光鏈路進(jìn)行高速數(shù)據(jù)傳輸。由于銅纜上的高速電信號(hào)傳輸距離有限,因此必須使用光鏈路進(jìn)行幾米以上的遠(yuǎn)距離數(shù)據(jù)通信。
如今,大多數(shù)電光轉(zhuǎn)換都是通過(guò)可插拔光收發(fā)器實(shí)現(xiàn)的。在這種情況下,電信號(hào)會(huì)從交換機(jī)或處理芯片出發(fā),經(jīng)過(guò)數(shù)十厘米甚至更遠(yuǎn)的PCB板,最終到達(dá)機(jī)箱前面板或后面板上的物理收發(fā)器外殼。可插拔光收發(fā)器就位于該外殼內(nèi)。收發(fā)器接收電信號(hào),經(jīng)光數(shù)字信號(hào)處理器(DSP)芯片進(jìn)行重新處理后,再發(fā)送到光引擎組件,由其將電信號(hào)轉(zhuǎn)換為光信號(hào)。然后,光信號(hào)可以通過(guò)光纖傳輸?shù)芥溌返牧硪欢耍谀抢铮硪粋€(gè)收發(fā)器會(huì)反向執(zhí)行此過(guò)程,將光信號(hào)轉(zhuǎn)換回電信號(hào),最終返回到目標(biāo)芯片。
在這個(gè)過(guò)程中,電信號(hào)(至少對(duì)于銅線而言)需要經(jīng)過(guò)相對(duì)較長(zhǎng)的距離,并經(jīng)過(guò)多個(gè)轉(zhuǎn)換點(diǎn)才能到達(dá)光鏈路。這會(huì)導(dǎo)致電信號(hào)衰減,并且需要大量的功率和復(fù)雜的電路(例如串行器/解串器)來(lái)驅(qū)動(dòng)和恢復(fù)信號(hào)。為了改善這種情況,我們需要縮短電信號(hào)的傳輸距離。這就引出了“共封裝光器件”的概念,即將原本位于可插拔收發(fā)器中的光引擎與主機(jī)芯片共封裝。由于光引擎距離擴(kuò)展處理器(XPU)或交換機(jī)專用集成電路(ASIC)更近,因此可以將電氣走線長(zhǎng)度從幾十厘米縮短到幾十毫米。這顯著降低了功耗,提高了帶寬密度,并通過(guò)最大限度地減少電氣互連距離和緩解信號(hào)完整性挑戰(zhàn)來(lái)降低延遲。
下圖展示了一種CPO(芯片封裝優(yōu)化)方案,其中光引擎與計(jì)算芯片或交換芯片封裝在同一芯片上。光引擎最初將位于基板上,未來(lái)將放置在中介層上。
![]()
如今,如下圖所示,前置可插拔光模塊解決方案已十分普及。該圖的主要意義在于說(shuō)明,電信號(hào)需要沿著銅線或架空電纜傳輸一段較長(zhǎng)的距離(15-30厘米)才能到達(dá)收發(fā)器中的光引擎。正如上文所述,這也意味著需要使用長(zhǎng)距離(LR)SerDes 來(lái)驅(qū)動(dòng)可插拔模塊。
![]()
此外,還有一些介于 CPO 和傳統(tǒng)前插拔光學(xué)器件之間的中間實(shí)現(xiàn)方式,例如近封裝光學(xué)器件 (NPO) 和板載光學(xué)器件 (OBO)。
近年來(lái),非封裝光引擎(NPO)已成為實(shí)現(xiàn)復(fù)合封裝光引擎(CPO)的中間步驟。NPO有多種定義。NPO指的是光引擎并非直接封裝在ASIC基板上,而是封裝在另一個(gè)基板上。光引擎仍然保持可插拔狀態(tài),可以從基板上拆卸下來(lái)。電信號(hào)仍然會(huì)從XPU封裝上的SerDes通過(guò)銅通道傳輸?shù)焦庖妗?/p>
![]()
還有一種方案是板載光模塊(OBO),它將光引擎集成到機(jī)箱內(nèi)的系統(tǒng)PCB上,使其更靠近主機(jī)ASIC。然而,OBO繼承了CPO的諸多挑戰(zhàn),但在帶寬密度和功耗方面卻優(yōu)勢(shì)不明顯。我們認(rèn)為OBO是“兩頭不討好”的方案,因?yàn)樗劝薈PO的復(fù)雜性,又繼承了前插拔式光模塊的一些局限性。
![]()
共封裝銅
CPO 的另一種替代方案是“共封裝銅”(CPC:Co-packaged Copper)。CPC 使用直接從基板上的連接器引出的銅纜。CPC 使用的電纜與飛線電纜相同,用途也相同:繞過(guò) PCB 走線。CPC 在飛線電纜的基礎(chǔ)上更進(jìn)一步,其插座直接位于封裝基板上。所使用的電纜是絕緣良好的雙軸電纜(Twinax 電纜),可有效降低串?dāng)_,從而顯著降低插入損耗,遠(yuǎn)低于傳統(tǒng)的電氣走線。雖然該方案仍然使用銅,但它在信號(hào)完整性方面具有關(guān)鍵優(yōu)勢(shì)。CPC 可以為部署 448G SerDes 提供切實(shí)可行的途徑,從而進(jìn)一步擴(kuò)展封裝外互連技術(shù)。
![]()
CPC 的挑戰(zhàn)在于封裝基板的復(fù)雜性增加。基板必須將電源和信號(hào)路由到數(shù)千根這樣的電纜。盡管面臨這一挑戰(zhàn),CPC 仍然比 CPO 簡(jiǎn)單得多,后者仍需克服供應(yīng)鏈多個(gè)環(huán)節(jié)的諸多制造難題。我們認(rèn)為 CPC 對(duì)于某些短距離應(yīng)用(例如機(jī)架內(nèi)擴(kuò)展連接)尤其具有吸引力,我們將在下文探討這一點(diǎn)。通過(guò)繞過(guò)損耗較大的 CCL 走線,CPC 有望成為實(shí)現(xiàn) 448G 線路速度的技術(shù)。此外,由于這種帶寬的信號(hào)在 PCB 中傳輸時(shí)會(huì)遭受不可接受的衰減,因此 CPC 也被廣泛用于實(shí)現(xiàn) 448G 傳輸。
過(guò)去阻礙 CPO 市場(chǎng)準(zhǔn)備的障礙:為什么現(xiàn)在才出現(xiàn)?
盡管CPO技術(shù)具有顯著優(yōu)勢(shì),但由于諸多挑戰(zhàn)導(dǎo)致成本居高不下,其在實(shí)際應(yīng)用中仍然非常有限。這些挑戰(zhàn)包括:封裝的復(fù)雜性(其成本甚至高于原始設(shè)備制造商本身)、制造工藝的復(fù)雜性、可靠性和良率問(wèn)題,以及由緊密集成的光學(xué)和電子元件引起的散熱管理問(wèn)題。另一個(gè)障礙是缺乏行業(yè)標(biāo)準(zhǔn)。此外,客戶對(duì)可維護(hù)性的擔(dān)憂也阻礙了從傳統(tǒng)可插拔光學(xué)器件向CPO解決方案的過(guò)渡。
客戶的另一個(gè)主要擔(dān)憂是,采用CPO模式可能會(huì)讓他們失去控制成本的能力。相比于少數(shù)交換機(jī)廠商,向數(shù)量較多的收發(fā)器廠商壓榨成本要容易得多。
與此同時(shí),可插拔光器件(CPO 將取代的現(xiàn)有技術(shù))不斷改進(jìn),并且仍然能夠?yàn)閹缀跛袘?yīng)用提供足夠好的性能,同時(shí)大大減少了最終用戶的焦慮。
在第二部分的剩余部分,我們將深入探討采用CPO的驅(qū)動(dòng)因素。
首先,我們將解釋SerDes的擴(kuò)展性已達(dá)到瓶頸,因此需要采用其他接口類型,例如Wide I/O與CPO相結(jié)合。然后,我們將討論制造方面的考量以及市場(chǎng)推廣策略。我們將討論CPO的關(guān)鍵組件,例如光引擎、光纖耦合器、外部激光源和調(diào)制器。最后,我們將介紹CPO帶寬擴(kuò)展的路線圖。
超越基于DSP的收發(fā)器:從LPO到CPO
數(shù)字信號(hào)處理收發(fā)器負(fù)責(zé)光信號(hào)的發(fā)射和接收,其內(nèi)部包含一個(gè)“光引擎”(OE),用于進(jìn)行電光轉(zhuǎn)換。光引擎由驅(qū)動(dòng)器(DRV)和調(diào)制器(MOD)組成,用于發(fā)射光信號(hào);同時(shí)還包含跨阻放大器(TIA)和光電探測(cè)器(PD),用于接收光信號(hào)。
另一個(gè)重要組件是光DSP芯片,它有時(shí)會(huì)將驅(qū)動(dòng)器和/或TIA集成在一個(gè)封裝中。從主機(jī)交換或處理芯片發(fā)出的高頻電信號(hào)需要沿著損耗較大的銅線傳輸相對(duì)較長(zhǎng)的距離,才能到達(dá)服務(wù)器機(jī)箱前端的收發(fā)器。DSP負(fù)責(zé)對(duì)該信號(hào)進(jìn)行重定時(shí)和重新調(diào)整。它執(zhí)行糾錯(cuò)和時(shí)鐘/數(shù)據(jù)恢復(fù),以補(bǔ)償信號(hào)從交換機(jī)或ASIC芯片通過(guò)基板或其他傳輸介質(zhì)傳輸過(guò)程中產(chǎn)生的電信號(hào)劣化和衰減。對(duì)于調(diào)制,以PAM4調(diào)制(四級(jí)脈沖幅度調(diào)制)為例,DSP將二進(jìn)制信號(hào)映射到四個(gè)不同的幅度級(jí)別,以增加每個(gè)信號(hào)的比特?cái)?shù),從而實(shí)現(xiàn)更高的比特率和更大的帶寬。
![]()
DSP芯片是收發(fā)器中最耗電、最昂貴的組件之一,甚至可以說(shuō)是最耗電、最昂貴的組件。對(duì)于800G SR8收發(fā)器而言,DSP芯片的功耗幾乎占模塊總功耗的50%,這也是為什么人們?nèi)绱酥匾暼绾稳コ鼶SP芯片的原因。
![]()
構(gòu)建一個(gè)包含 18k GB300 服務(wù)器的集群,采用雙層 InfiniBand 網(wǎng)絡(luò),需要 18,432 個(gè) 800G DR4 收發(fā)器和 27,648 個(gè) 1.6T DR8 收發(fā)器。使用 DSP 帶來(lái)的額外成本和功耗會(huì)顯著增加總擁有成本。假設(shè)每個(gè) 800G DSP 的功耗為 6-7W,每個(gè) 1.6T DSP 的功耗為 12-14W,那么僅整個(gè)集群的后端網(wǎng)絡(luò)就需要 480kW 的 DSP 功耗,相當(dāng)于每個(gè)服務(wù)器機(jī)架約 1.8kW。如果從知名品牌供應(yīng)商采購(gòu),收發(fā)器的成本可能占集群總擁有成本的近 10%。因此,DSP 的功耗占總功耗的 50%,物料清單成本 (BOM) 的 20-30%,一些人甚至將其視為降低成本和提高能效的頭號(hào)敵人。
![]()
反對(duì)DSP的運(yùn)動(dòng)
數(shù)字信號(hào)處理器(DSP)的高成本和高功耗促使業(yè)界尋找能夠繞過(guò)DSP的技術(shù)。第一波攻擊DSP的浪潮是線性可插拔光(LPO)——它試圖完全移除DSP,讓交換機(jī)中的SerDes直接驅(qū)動(dòng)收發(fā)器中的TX和RX光元件。然而,正如DSP專家Loi Nguyen在2023年接受我們采訪時(shí)準(zhǔn)確預(yù)測(cè)的那樣,LPO尚未普及。
CPO 將 LPO 的概念提升到了一個(gè)新的層次,它將光引擎與計(jì)算或交換芯片封裝在同一芯片上。CPO 的一個(gè)關(guān)鍵優(yōu)勢(shì)在于,由于主機(jī)和光引擎之間的距離非常短,因此不再需要收發(fā)器中的 DSP。此外,CPO 還超越了 LPO,因?yàn)樗鼰o(wú)需使用功耗和面積都較大的長(zhǎng)距離 SerDes,而是采用短距離 SerDes,甚至在寬 I/O 接口的情況下采用時(shí)鐘轉(zhuǎn)發(fā)的寬 D2D SerDes,從而顯著提高了芯片的海岸線密度。
人們常說(shuō),CPO技術(shù)其實(shí)近在咫尺,但過(guò)去二十年來(lái)它為何始終未能普及?為什么業(yè)界更傾向于使用可插拔DSP收發(fā)器?
可插拔收發(fā)器的一大優(yōu)勢(shì)在于其高度互操作性。憑借 OSFP 和 QSFP-DD 等標(biāo)準(zhǔn)封裝形式以及對(duì) OIF 標(biāo)準(zhǔn)的遵循,客戶通常可以獨(dú)立于交換機(jī)和服務(wù)器供應(yīng)商選擇收發(fā)器供應(yīng)商,從而享受采購(gòu)靈活性和更強(qiáng)的議價(jià)能力。
另一個(gè)巨大的優(yōu)勢(shì)是現(xiàn)場(chǎng)可維護(hù)性。收發(fā)器的安裝和更換非常簡(jiǎn)單,只需由遠(yuǎn)程人員將其從交換機(jī)或服務(wù)器機(jī)箱上拔下即可。相比之下,對(duì)于CPO(光纖光模塊),光引擎的任何故障都可能導(dǎo)致整個(gè)交換機(jī)無(wú)法使用。即使是可維護(hù)的故障,排查和修復(fù)也可能非常復(fù)雜。通常,激光器是最常見(jiàn)的故障點(diǎn),目前大多數(shù)CPO方案都采用可插拔的外部激光器以提高可維護(hù)性和可更換性,但人們?nèi)匀粨?dān)心其他不可插拔的CPO組件會(huì)發(fā)生故障。
為什么需要CPO?I/O挑戰(zhàn)、帶寬密度和瓶頸
除了擺脫耗電且成本高昂的 DSP 和最大限度地減少或消除 LR SerDes 的使用之外,采用 CPO 的另一個(gè)巨大好處是相對(duì)于能耗而言更高的互連帶寬密度。
帶寬密度衡量單位面積或信道內(nèi)傳輸?shù)臄?shù)據(jù)量,反映了有限空間用于高速數(shù)據(jù)傳輸?shù)男省D芰啃柿炕藗鬏攩挝粩?shù)據(jù)所需的能量。
因此,互連帶寬密度與能耗之比是衡量給定互連客觀質(zhì)量的一個(gè)非常重要的指標(biāo)(FoM)。當(dāng)然,最優(yōu)互連方案還應(yīng)滿足距離和成本參數(shù)的要求。
觀察下圖,可以發(fā)現(xiàn)一個(gè)明顯的趨勢(shì):對(duì)于電鏈路而言,隨著距離的增加,該性能指標(biāo)呈指數(shù)級(jí)下降。此外,從純電接口過(guò)渡到需要光電轉(zhuǎn)換的接口,效率會(huì)大幅下降——甚至可能下降一個(gè)數(shù)量級(jí)。這種下降是由于需要能量來(lái)驅(qū)動(dòng)信號(hào)從芯片傳輸?shù)角懊姘宓氖瞻l(fā)器。而為光DSP供電則需要更多能量。基于CPO的通信的性能指標(biāo)曲線明顯高于可插拔接口。如下圖所示,在相同的距離范圍內(nèi),CPO在單位面積和單位能耗下具有更高的帶寬密度,因此是一種客觀上更優(yōu)的互連方式。
![]()
這張圖表也印證了“能用銅纜就用銅纜,必須用光纖才用”這句格言。如果條件允許,短距離銅纜通信性能更優(yōu)。英偉達(dá)在其機(jī)架級(jí)GPU架構(gòu)中秉承了這一理念,其設(shè)計(jì)目的就是為了突破機(jī)架內(nèi)部密度的極限,最大限度地提高可通過(guò)銅纜聯(lián)網(wǎng)的GPU數(shù)量。這正是GB200 NVL72所采用的縱向擴(kuò)展網(wǎng)絡(luò)架構(gòu)背后的邏輯,而英偉達(dá)在其Kyber機(jī)架中更進(jìn)一步地實(shí)踐了這一理念。然而,CPO技術(shù)的成熟只是時(shí)間問(wèn)題,它終將使縱向擴(kuò)展能夠充分利用其在性能優(yōu)化曲線中的優(yōu)勢(shì),并從總體擁有成本(TCO)的角度帶來(lái)更高的性價(jià)比。
輸入/輸出 (I/O) 障礙和阻礙
雖然晶體管密度和計(jì)算能力(以 FLOPs 表示)得到了很好的擴(kuò)展,但 I/O 的擴(kuò)展速度卻慢得多,這造成了整體系統(tǒng)性能的瓶頸:由于要傳輸?shù)狡獾臄?shù)據(jù)需要通過(guò)有機(jī)封裝基板上有限數(shù)量的 I/O,因此可用于片外 I/O 的可用帶寬是有限的。
此外,提高每個(gè)I/O的信號(hào)傳輸速度變得越來(lái)越困難且耗電,進(jìn)一步限制了數(shù)據(jù)傳輸。這正是互連帶寬在過(guò)去幾十年中相對(duì)于其他計(jì)算趨勢(shì)而言擴(kuò)展性如此糟糕的一個(gè)關(guān)鍵原因。
![]()
由于單個(gè)倒裝芯片BGA封裝中凸點(diǎn)數(shù)量的限制,高性能計(jì)算(HPC)應(yīng)用的封裝外I/O密度已達(dá)到瓶頸。這制約了逃逸帶寬的擴(kuò)展。
![]()
電氣串行器/解串器擴(kuò)展瓶頸
在I/O數(shù)量有限的情況下,提高帶寬的關(guān)鍵在于提升每個(gè)I/O信號(hào)的傳輸頻率。目前,英偉達(dá)和博通在SerDes IP領(lǐng)域處于領(lǐng)先地位。英偉達(dá)在其Blackwell芯片中采用了224G SerDes,這正是其高速NVLink芯片的核心所在。同樣,博通也從2024年底開(kāi)始在其光DSP中提供224G SerDes的樣品。這兩家在AI浮點(diǎn)運(yùn)算能力方面領(lǐng)先的公司同時(shí)也是高速SerDes IP領(lǐng)域的領(lǐng)軍者,這絕非巧合。這進(jìn)一步印證了AI性能與吞吐量之間的根本聯(lián)系:最大化數(shù)據(jù)傳輸效率與提供強(qiáng)大的計(jì)算能力同樣至關(guān)重要。
然而,在理想傳輸距離下提供更高的線路速度正變得越來(lái)越具有挑戰(zhàn)性。如下圖所示,隨著頻率的增加,插入損耗也會(huì)增加。我們可以看到,在更高的SerDes信號(hào)傳輸速度下,損耗會(huì)增加,尤其是在信號(hào)路徑延長(zhǎng)的情況下。
![]()
SerDes 的擴(kuò)展性已接近瓶頸。在不增加信號(hào)恢復(fù)組件的情況下,更高的傳輸速率只能在極短的距離內(nèi)維持——而這些組件反過(guò)來(lái)又會(huì)增加復(fù)雜性、成本、延遲和功耗。因此,實(shí)現(xiàn) 224G SerDes 一直困難重重。
展望 448G SerDes,能否突破幾厘米的傳輸距離仍存在諸多不確定性。英偉達(dá)在 Rubin 芯片中采用雙向 SerDes 技術(shù),實(shí)現(xiàn)了每個(gè)電通道 448G 的連接。要實(shí)現(xiàn)真正的 448G 單向 SerDes,還需要進(jìn)一步的研發(fā)。我們可能需要采用更高階的調(diào)制方式,例如 PAM6 或 PAM8,而不是自 56G SerDes 時(shí)代以來(lái)一直沿用的 PAM4 調(diào)制。使用每個(gè)信號(hào)編碼 2 位的 PAM4 來(lái)實(shí)現(xiàn) 448G 傳輸速率,需要 244Gbaud 的波特率,這很可能由于過(guò)高的功耗和插入損耗而難以實(shí)現(xiàn)。SerDes 擴(kuò)展瓶頸成為 NVLink 擴(kuò)展的障礙
在 NVLink 協(xié)議中,NVLink 5.0 的帶寬相比 NVLink 1.0 提升了 11 倍以上。然而,這種增長(zhǎng)并非源于通道數(shù)量的顯著增加,通道數(shù)量?jī)H從 NVLink 1.0 的 32 條略微增加到 NVLink 5.0 的 36 條。帶寬擴(kuò)展的關(guān)鍵驅(qū)動(dòng)因素是 SerDes 通道速度的 10 倍提升,從 20G 提升至 200G。然而,在 NVLink 6.0 中,Nvidia 預(yù)計(jì)將繼續(xù)使用 200G SerDes,這意味著它必須將通道數(shù)量翻倍——Nvidia 巧妙地利用雙向 SerDes 實(shí)現(xiàn)了這一點(diǎn),在物理銅線數(shù)量不變的情況下,有效地將通道數(shù)量翻倍。除此之外,無(wú)論是提升 SerDes 速度,還是克服有限的線路容量來(lái)容納更多通道,都將變得越來(lái)越困難,最終總帶寬將無(wú)法滿足需求。
對(duì)于那些以吞吐量作為競(jìng)爭(zhēng)優(yōu)勢(shì)的尖端企業(yè)而言,擴(kuò)展逃逸帶寬至關(guān)重要。對(duì)于擁有NVLink擴(kuò)展架構(gòu)的英偉達(dá)來(lái)說(shuō),這一障礙可能會(huì)讓AMD等競(jìng)爭(zhēng)對(duì)手以及超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商更容易迎頭趕上。
![]()
![]()
解決這一難題的方案——或者說(shuō),必要的折衷方案——是盡可能縮短電氣輸入/輸出距離,并將數(shù)據(jù)傳輸卸載到盡可能靠近主機(jī)ASIC的光鏈路上,以實(shí)現(xiàn)更高的帶寬。這就是為什么CPO被認(rèn)為是互連領(lǐng)域的“圣杯”。CPO允許在ASIC封裝上進(jìn)行光通信,無(wú)論是通過(guò)基板還是中介層。電信號(hào)只需在封裝基板上傳輸幾毫米,理想情況下,通過(guò)更高質(zhì)量的中介層傳輸更短的距離,而無(wú)需像傳統(tǒng)方式那樣通過(guò)損耗較大的覆銅層壓板(CCL)傳輸數(shù)十厘米。
SerDes可以針對(duì)短距離傳輸進(jìn)行優(yōu)化,所需的電路比同等長(zhǎng)距離的SerDes少得多。這不僅簡(jiǎn)化了設(shè)計(jì),還降低了功耗和芯片面積。這種簡(jiǎn)化使得高速SerDes更容易實(shí)現(xiàn),并擴(kuò)展了SerDes的擴(kuò)展路線圖。然而,我們?nèi)匀皇艿絺鹘y(tǒng)帶寬模型的限制,即帶寬密度仍然與SerDes的速度成正比。
為了實(shí)現(xiàn)更高的帶寬密度,在極短距離下,寬 I/O PHY 是更佳選擇,其單位功耗帶寬密度優(yōu)于 SerDes 接口。寬 I/O 也意味著需要更復(fù)雜的封裝。然而,對(duì)于 CPO 而言,這無(wú)關(guān)緊要:其封裝技術(shù)已經(jīng)非常先進(jìn),因此集成寬 I/O PHY 幾乎不會(huì)增加額外的封裝復(fù)雜性。
寬 I/O 與 SerDes
一旦不再需要將電信號(hào)傳輸?shù)较鄬?duì)較遠(yuǎn)的距離,我們就可以完全擺脫串行接口,轉(zhuǎn)而使用寬接口,從而在短距離內(nèi)提供更好的海岸線密度。
UCIe接口就是一個(gè)例子。UCIe-A可提供高達(dá)~10 Tbit/s/mm的海岸線密度,專為高級(jí)封裝(例如,通過(guò)距離小于2mm的中介層連接的芯片組)而設(shè)計(jì)。在光罩尺寸芯片的長(zhǎng)邊上,這相當(dāng)于高達(dá)330 Tbit/s(41TByte/s)的封裝外帶寬。這意味著從芯片兩側(cè)邊緣可獲得660 Tbit/s的雙向帶寬。相比之下,Blackwell接口的封裝外帶寬僅為23.6 Tbit/s,相當(dāng)于約0.4 Tbit/s/mm的海岸線密度,兩者差距巨大。
![]()
當(dāng)然,這并非完全等同的比較,因?yàn)檫@些封裝外的PHY芯片需要用于遠(yuǎn)距離傳輸。恰恰相反,這正是本文要說(shuō)明的重點(diǎn):采用CPO技術(shù)后,傳輸距離不再是問(wèn)題,因?yàn)樾盘?hào)無(wú)需通過(guò)電信號(hào)進(jìn)行遠(yuǎn)距離傳輸。在10 Tbit/s/mm的帶寬密度下,瓶頸不再是電接口,而是鏈路的其他部分,即另一端光纖能夠傳輸多少帶寬。
達(dá)到這種限制條件距離目前的實(shí)際情況還很遙遠(yuǎn),而且OE必須與主機(jī)共享一個(gè)中介層。將CPO集成到中介層本身,其研發(fā)進(jìn)度甚至比將OE可靠地集成到基板上還要慢。當(dāng)然,基板上的PHY性能會(huì)更差,UCIe-S的海岸線密度約為1.8Tbit/s/mm。但這仍然比我們認(rèn)為224G SerDes的約0.4Tbit/s/mm的性能有了顯著提升。
然而,盡管寬接口具有諸多優(yōu)勢(shì),博通和英偉達(dá)仍然堅(jiān)持在其產(chǎn)品路線圖中推進(jìn)電控SerDes技術(shù)。主要原因是他們相信SerDes仍具有可擴(kuò)展性,并且需要針對(duì)銅纜進(jìn)行設(shè)計(jì),尤其是在光芯片普及速度緩慢的情況下。此外,混合封裝的銅纜和光芯片解決方案似乎更有可能長(zhǎng)期存在,這就要求他們同時(shí)針對(duì)這兩種封裝進(jìn)行優(yōu)化。采用這種方法是為了避免為不同的解決方案進(jìn)行多次芯片流片。
鏈路彈性(Link Resiliency)
鏈路彈性和可靠性是CPO技術(shù)的其他重要驅(qū)動(dòng)因素。在大型AI集群中,鏈路中斷會(huì)顯著影響集群的整體可用性,即使鏈路可用性和穩(wěn)定性方面有微小的提升,也能為基礎(chǔ)設(shè)施投資帶來(lái)巨大的回報(bào)。
如今,在一個(gè)擁有近百萬(wàn)條鏈路且采用可插拔模塊的大型人工智能集群中,每天可能會(huì)發(fā)生數(shù)十次鏈路中斷。其中一些是“硬”故障,由組件故障或硬件質(zhì)量問(wèn)題導(dǎo)致;而許多則是“軟”故障,其根本原因多種多樣,源于可插拔解決方案固有的復(fù)雜性和可變性。故障模式多種多樣,包括但不限于信號(hào)完整性問(wèn)題和波動(dòng)、連接器和引線鍵合質(zhì)量、組件和引腳污染、噪聲注入以及其他瞬態(tài)效應(yīng)。這些故障與組件故障的相關(guān)性很低。因鏈路故障而退回的光模塊中,80%經(jīng)檢測(cè)“未發(fā)現(xiàn)故障”。
CPO 通過(guò)以下方式顯著降低了大規(guī)模 AI 網(wǎng)絡(luò)中高速信號(hào)路徑固有的復(fù)雜性和可變性:
1、顯著減少光接口中的組件數(shù)量。光子級(jí)和芯片/封裝級(jí)的高集成度降低了關(guān)鍵高速組件的復(fù)雜性,并提高了系統(tǒng)級(jí)的可靠性和良率。電光接口的數(shù)量也減少了,從而最大限度地降低了每個(gè)接口處的功率損耗。
2、顯著改善主機(jī)ASIC(例如交換機(jī))與光引擎之間主機(jī)電氣接口的信號(hào)完整性。通過(guò)將光引擎封裝在具有非常明確且確定的設(shè)計(jì)規(guī)則和制造公差的第一級(jí)封裝上,顯著降低了插入損耗、反射和其他非線性損傷。
3、降低交換機(jī)高速信號(hào)路徑中端口間的差異,可以減少DSP信號(hào)處理、主機(jī)和模塊均衡、主機(jī)和模塊固件以及鏈路優(yōu)化算法的開(kāi)銷和復(fù)雜性。所有可插拔模塊解決方案以及主機(jī)SerDes都必須設(shè)計(jì)成能夠適應(yīng)這種端口間性能的差異,否則會(huì)導(dǎo)致復(fù)雜性增加和故障點(diǎn)增多。
消除光鏈路配置中的“人為”因素。CPO交換機(jī)或光引擎在出廠前已完成組裝和測(cè)試,確保“已知良好”,無(wú)需進(jìn)行大量的現(xiàn)場(chǎng)操作來(lái)配置交換機(jī)中的光模塊,從而避免了安裝差異、損壞、污染以及系統(tǒng)和光模塊之間的兼容性問(wèn)題。
CPO上市及部署挑戰(zhàn)
CPO光學(xué)引擎制造考量及市場(chǎng)推廣
CPO 的產(chǎn)量尚未達(dá)到大規(guī)模應(yīng)用所需的水平。博通是唯一一家交付搭載 CPO 的生產(chǎn)系統(tǒng)的廠商,其產(chǎn)品包括 Bailly 和 Humboldt 交換機(jī),但現(xiàn)在英偉達(dá)也加入了競(jìng)爭(zhēng)。不過(guò),這些產(chǎn)品的出貨量仍然非常低。CPO 引入了許多新的制造工藝,給生產(chǎn)制造帶來(lái)了巨大的挑戰(zhàn)。可以理解的是,考慮到供應(yīng)鏈的不成熟以及可靠性數(shù)據(jù)的缺乏,客戶也不愿貿(mào)然采用這項(xiàng)技術(shù)。
要使CPO獲得市場(chǎng)認(rèn)可,行業(yè)領(lǐng)導(dǎo)者必須投資于這些產(chǎn)品的交付,并推動(dòng)供應(yīng)鏈開(kāi)發(fā)可擴(kuò)展的制造和測(cè)試流程。英偉達(dá)率先邁出了這一步,他們的目標(biāo)是讓供應(yīng)鏈做好準(zhǔn)備,識(shí)別并解決問(wèn)題,并幫助數(shù)據(jù)中心運(yùn)營(yíng)商為我們認(rèn)為的“殺手級(jí)”應(yīng)用——縱向擴(kuò)展網(wǎng)絡(luò)——做好準(zhǔn)備。關(guān)于CPO,有幾個(gè)關(guān)鍵組成部分和注意事項(xiàng)需要關(guān)注,所有這些都會(huì)對(duì)性能和可制造性產(chǎn)生影響。這些組成部分和注意事項(xiàng)包括:
1、主機(jī)和光引擎封裝(Host and Optical Engine packaging)
2、光纖和光纖耦合(Fibers and Fiber coupling)
3、激光源和波長(zhǎng)復(fù)用(Laser Sources and Wavelength Multiplexing)
4、調(diào)制器類型(Modulator Type)
一、主機(jī)和光引擎封裝
顧名思義,“共封裝光學(xué)器件”從根本上來(lái)說(shuō)是一個(gè)封裝和組裝方面的挑戰(zhàn)。
光引擎包含光學(xué)元件和電子元件。光電探測(cè)器和調(diào)制器是光學(xué)元件,包含在光子集成電路(PIC)中。驅(qū)動(dòng)器和跨阻放大器是電子電路,包含在電子集成電路(EIC)中。光引擎需要將PIC和EIC集成在一起才能正常工作。目前存在多種封裝方法來(lái)實(shí)現(xiàn)PIC-EIC的集成。
![]()
光引擎可以通過(guò)在同一片硅晶圓上制造光子集成電路 (PIC) 和電子集成電路 (EIC) 來(lái)實(shí)現(xiàn)單片集成。就寄生參數(shù)、延遲和功耗而言,單片集成是最理想的方案。
Ayar Labs 的第二代 TeraPHY 芯片就采用了這種方案(盡管他們的下一代芯片將轉(zhuǎn)向臺(tái)積電 COUPE 工藝)。GlobalFoundries、Tower 和 Advanced Micro Foundry 等代工廠可以提供單片 CMOS 和 SiPho 工藝。然而,由于光子工藝無(wú)法像傳統(tǒng) CMOS 工藝那樣擴(kuò)展,單片工藝的幾何尺寸通常止步于 35nm 左右。這限制了 EIC 的性能,尤其是在 CPO 系統(tǒng)中,由于需要更高的通道速度,單片集成就顯得尤為重要。
盡管單片集成本身具有簡(jiǎn)潔性和優(yōu)勢(shì),但這也使得它難以擴(kuò)展。因此,Ayar Labs 正在將其產(chǎn)品路線圖轉(zhuǎn)向異構(gòu)集成光引擎,以實(shí)現(xiàn)進(jìn)一步的擴(kuò)展。
異構(gòu)集成正逐漸成為主流方法,該方法包括使用硅光電(SiPho)工藝制造光子集成電路(PIC),并通過(guò)先進(jìn)封裝技術(shù)將其與CMOS晶圓上的電子集成電路(EIC)集成。目前存在多種封裝解決方案,更先進(jìn)的封裝方案可提供更高的性能。其中,3D集成可提供最佳的帶寬和能效。EIC與PIC通信的一大難題是寄生效應(yīng),它會(huì)降低性能。大幅縮短走線長(zhǎng)度可以顯著降低寄生效應(yīng),從而提高耦合效率:從帶寬和功耗的角度來(lái)看,3D集成是實(shí)現(xiàn)CPO性能目標(biāo)的唯一途徑。
臺(tái)積電 COUPE 正在成為首選的集成方案
臺(tái)積電正迅速成為下一代光引擎(OE)的首選代工合作伙伴,無(wú)論是大型無(wú)晶圓廠廠商還是初創(chuàng)公司都對(duì)其青睞有加。首批采用CPO(緊湊型通用光子引擎)終端的大批量產(chǎn)品以“COUPE”之名推出,COUPE是“Compact Universal Photonic Engine”(緊湊型通用光子引擎)的縮寫(xiě)。這包括EIC(電子集成電路)和PIC(光子集成電路)的制造,以及在臺(tái)積電COUPE解決方案下的異構(gòu)集成。
英偉達(dá)在GTC 2025大會(huì)上自豪地展示了其COUPE光引擎,這些產(chǎn)品將成為首批交付的COUPE產(chǎn)品。博通也已將COUPE納入其未來(lái)產(chǎn)品路線圖,盡管其現(xiàn)有幾代光引擎由其他供應(yīng)鏈合作伙伴提供。如前所述,此前依賴Global Foundries的Fotonix平臺(tái)制造單片光引擎的Ayar Labs,現(xiàn)在也已將COUPE納入其產(chǎn)品路線圖。
與在傳統(tǒng)CMOS邏輯領(lǐng)域的統(tǒng)治地位不同,臺(tái)積電此前在硅光子學(xué)領(lǐng)域的份額有限,GlobalFoundries和Tower Semi是其首選的代工合作伙伴。然而,近年來(lái),臺(tái)積電在光子學(xué)方面的能力正在迅速追趕。臺(tái)積電在用于EIC組件的尖端CMOS邏輯方面擁有無(wú)可爭(zhēng)議的優(yōu)勢(shì),以及領(lǐng)先的封裝能力——臺(tái)積電是唯一一家成功實(shí)現(xiàn)合理規(guī)模的芯片-晶圓混合鍵合技術(shù)的代工廠,已批量交付了多款A(yù)MD混合鍵合芯片。
混合鍵合是一種性能更高的PIC和EIC鍵合方法,但成本也顯著更高。英特爾正在努力開(kāi)發(fā)類似的技術(shù),但在開(kāi)創(chuàng)這項(xiàng)技術(shù)方面面臨著諸多挑戰(zhàn)。
總體而言,盡管臺(tái)積電此前在獨(dú)立硅光電器件(SiPho)領(lǐng)域?qū)嵙^弱,但如今已成為封裝封裝(CPO)領(lǐng)域的關(guān)鍵參與者。與其他主要廠商一樣,臺(tái)積電的目標(biāo)是盡可能多地占據(jù)價(jià)值鏈。通過(guò)采用臺(tái)積電的COUPE解決方案,客戶實(shí)際上承諾使用臺(tái)積電制造的光子集成電路(PIC),因?yàn)榕_(tái)積電不封裝其他代工廠的硅光電晶圓。許多專注于封裝封裝的公司已果斷地將臺(tái)積電的COUPE方案納入其未來(lái)幾年的市場(chǎng)推廣解決方案中。
![]()
芯片制造:臺(tái)積電提供全面的芯片制造解決方案。EIC采用N7工藝制造,集成了高速光調(diào)制器驅(qū)動(dòng)器和TIA。它還包含加熱器控制器,以實(shí)現(xiàn)波長(zhǎng)穩(wěn)定等功能。而PIC則采用SOI N65工藝制造,臺(tái)積電為光子電路設(shè)計(jì)、光子布局設(shè)計(jì)和驗(yàn)證,以及光子電路的仿真和建模(涵蓋射頻、噪聲和多波長(zhǎng)等方面)提供廣泛的支持。
EIC 和 PIC 采用 TSMC-SoIC 鍵合工藝進(jìn)行鍵合。如前所述,較長(zhǎng)的走線長(zhǎng)度意味著更多的寄生效應(yīng),從而降低性能。TSMC 的 SoIC 是一種無(wú)凸點(diǎn)接口,可在不采用單片集成的情況下提供盡可能短的走線長(zhǎng)度,因此是實(shí)現(xiàn) EIC 和 PIC 異構(gòu)集成的最佳性能方案。如下所示,在等功耗下,基于 SoIC 的 OE 的帶寬密度是采用凸點(diǎn)集成的 OE 的 23 倍以上。
![]()
COUPE 支持整個(gè)光學(xué)引擎設(shè)計(jì)和集成流程。在光學(xué) I/O 方面,它支持微透鏡設(shè)計(jì),可在晶圓或芯片級(jí)集成微透鏡,并支持涵蓋反射鏡、微透鏡、光柵耦合器 (GC) 和反射器等光學(xué) I/O 路徑的仿真。在 3D 堆疊方面,它支持 3D 布局規(guī)劃、SoIC-X/TDV/C4 凸點(diǎn)布局實(shí)現(xiàn)、接口物理檢查以及高頻通道模型提取和仿真。為確保無(wú)縫開(kāi)發(fā),公司提供完整的 COUPE 設(shè)計(jì)和驗(yàn)證 PDK 和 EDA 工作流程,使設(shè)計(jì)人員能夠高效地實(shí)現(xiàn)其技術(shù)。
耦合:稍后我們將詳細(xì)介紹,主要有兩種耦合方式——光柵耦合 (GCgrating coupling ) 和邊緣耦合 (ECedge coupling)。COUPE 在無(wú)凸點(diǎn) PIC 堆疊結(jié)構(gòu)上使用相同的 EIC 來(lái)實(shí)現(xiàn) GC 和 EC。然而,COUPE-GC 結(jié)構(gòu)將采用硅透鏡 (Si 透鏡) 和金屬反射器 (MR),而 COUPE-EC 結(jié)構(gòu)則具有獨(dú)特的 EC 端面(用于將 EC 端接至光纖)。對(duì)于 GC,Si 透鏡設(shè)計(jì)在 770μm 厚的硅載體 (Si 載體) 上,MR 位于 GC 正下方,并帶有優(yōu)化光學(xué)性能所需的介質(zhì)層。然后,Si 載體通過(guò)晶圓級(jí) (WoW) 鍵合到芯片級(jí) (CoW) 晶圓上。
![]()
光纖連接單元 (FAUFiber Attach Unit) :FAU 的設(shè)計(jì)需要與 COUPE 的光路相匹配。FAU 的作用是以低插入損耗將來(lái)自硅透鏡的光耦合到光纖中。隨著 I/O 數(shù)量的增加,制造難度也會(huì)增加,但如果業(yè)界能夠遵循特定標(biāo)準(zhǔn),則可以縮短開(kāi)發(fā)時(shí)間并降低成本。總而言之,每個(gè)組件都需要優(yōu)化設(shè)計(jì)才能實(shí)現(xiàn)最佳光學(xué)性能。
![]()
產(chǎn)品路線圖:COUPE 的首批迭代產(chǎn)品將是基板上的光引擎,最終目標(biāo)是將光引擎放置在中介層上。中介層可提供更高的 I/O 密度,從而實(shí)現(xiàn)光引擎與 ASIC PHY 之間更大的帶寬,單個(gè)光引擎的帶寬最高可達(dá) 12.8Tbit/s,相當(dāng)于約 4Tbit/s/mm。集成中介層的挑戰(zhàn)在于如何縮小中介層的尺寸(中介層比封裝基板更昂貴)以容納光引擎。
這就是為什么博通盡管此前已采用SPIL開(kāi)發(fā)的扇出型晶圓級(jí)封裝(FOWLP)技術(shù)迭代了多代CPO解決方案,最終還是決定轉(zhuǎn)向臺(tái)積電的COUPE技術(shù)。值得注意的是,博通已承諾在其未來(lái)的交換機(jī)和客戶加速器產(chǎn)品路線圖中采用COUPE技術(shù)。我們了解到,由于寄生電容過(guò)大,F(xiàn)OWLP技術(shù)無(wú)法實(shí)現(xiàn)單通道100G以上的擴(kuò)展,因?yàn)殡娦盘?hào)必須通過(guò)模內(nèi)通孔(TMV)才能到達(dá)EIC。為了保持產(chǎn)品路線圖的競(jìng)爭(zhēng)力,博通必須轉(zhuǎn)向COUPE技術(shù),因?yàn)樵摷夹g(shù)具有更優(yōu)異的性能和可擴(kuò)展性。這凸顯了臺(tái)積電的技術(shù)優(yōu)勢(shì),使其即使在以往被認(rèn)為較弱的光學(xué)領(lǐng)域也能贏得市場(chǎng)。
![]()
將 OE 與主機(jī)打包
OE本身被放置在基板上,之后基板通過(guò)倒裝芯片鍵合連接到主機(jī)封裝上。共封裝OE需要很大的封裝面積。這就需要顯著增大封裝基板或中介層的尺寸,具體取決于OE的放置位置。例如,英偉達(dá)Spectrum-X Photonics開(kāi)關(guān)ASIC封裝的基板尺寸為110mm x 110mm。相比之下,Blackwell封裝的尺寸為70mm x 76mm,而B(niǎo)lackwell本身也是一個(gè)非常大的芯片。
此外,將更多元件連接到基板上會(huì)帶來(lái)良率方面的挑戰(zhàn)。同樣,對(duì)于 Spectrum-X 而言,需要先將 36 個(gè)已知良率良好的 OE 元件倒裝鍵合到基板上,然后再將中介層模塊鍵合到基板上,完成“基板上”組裝步驟,從而完成 CoWoS 組件的組裝。
同樣,對(duì)于中介層而言,制造尺寸更大的中介層成本更高,需要粘合更多元件,這會(huì)帶來(lái)良率方面的挑戰(zhàn)。此外,隨著中介層/基板尺寸的增大,翹曲問(wèn)題會(huì)更加突出,從而加劇這些挑戰(zhàn)。
二、FAU 和光纖耦合
光纖從OE引出用于數(shù)據(jù)傳輸。一條光通道由兩根光纖或一對(duì)光纖組成(發(fā)送加接收)。光纖耦合——即將光纖與片上波導(dǎo)精確對(duì)準(zhǔn)以實(shí)現(xiàn)平滑高效的光傳輸——是芯片光子輸出 (CPO) 中至關(guān)重要且極具挑戰(zhàn)性的步驟,而光纖陣列單元 (FAU) 在 CPO 中被廣泛用于輔助這一過(guò)程。實(shí)現(xiàn)光纖耦合主要有兩種方式:邊緣耦合 (EC) 和光柵耦合 (GC)。
邊緣耦合
邊緣耦合將光纖沿芯片邊緣對(duì)齊。從下圖可以看出,光纖末端必須與芯片的拋光邊緣精確對(duì)齊,以確保光束準(zhǔn)確進(jìn)入邊緣耦合器。光纖末端的微透鏡將光聚焦并導(dǎo)向芯片,引導(dǎo)光束進(jìn)入波導(dǎo)。波導(dǎo)的錐形部分逐漸變寬,從而實(shí)現(xiàn)平滑的模式過(guò)渡,減少反射和散射,確保耦合效率。如果沒(méi)有這樣的透鏡和錐形部分,光纖端面和波導(dǎo)端面之間的界面處將存在顯著的光損耗。
![]()
邊緣耦合因其耦合損耗低、可與寬波長(zhǎng)范圍的光配合使用以及對(duì)偏振不敏感而備受青睞。然而,它也存在一些缺點(diǎn):
1、制造過(guò)程更加復(fù)雜,需要進(jìn)行底切和深蝕刻;
2、由于纖維是一維結(jié)構(gòu),因此纖維密度可能受到限制;
3、它與芯片堆疊不兼容(因?yàn)門(mén)SV需要減薄);
4、機(jī)械可靠性方面的挑戰(zhàn)包括外形尺寸、機(jī)械應(yīng)力、翹曲和纖維處理;
5、它的熱可靠性較低;
6、總體而言,生態(tài)系統(tǒng)兼容性不足。
在今年的超大規(guī)模集成電路(VLSI)大會(huì)上,Global Foundries(GFS)展示了一款單片集成的SiN邊緣耦合器,該耦合器在其標(biāo)志性的45nm“Fotonix”平臺(tái)上實(shí)現(xiàn)了32個(gè)通道和127μm間距。
光柵耦合(GC)
在光柵耦合器(GC)中,光從頂部進(jìn)入,光纖以較小的角度位于光柵上方。當(dāng)光到達(dá)光柵時(shí),周期性結(jié)構(gòu)會(huì)散射光并將其向下彎曲進(jìn)入波導(dǎo)。
光柵/垂直耦合的主要優(yōu)勢(shì)在于能夠容納多排光纖,從而允許每個(gè)光引擎使用更多光纖。此外,光柵耦合器無(wú)需放置在基板底部,因此可以將光引擎放置在中介層上。最后,光柵耦合器的定位精度要求不高,并且可以通過(guò)簡(jiǎn)單的兩步蝕刻工藝輕松制造。光柵耦合器的缺點(diǎn)是單偏振光柵耦合器僅適用于有限的波長(zhǎng)范圍,并且對(duì)偏振非常敏感。
英偉達(dá)之所以偏愛(ài)GC技術(shù),是因?yàn)樗哂兄T多優(yōu)勢(shì)——它能實(shí)現(xiàn)二維高密度封裝,占地面積更小,制造工藝更簡(jiǎn)便,并且相比EC技術(shù),晶圓級(jí)測(cè)試也更簡(jiǎn)單。然而,該公司也意識(shí)到GC技術(shù)的幾個(gè)缺點(diǎn)——它通常會(huì)引入更高的光損耗,并且光帶寬比EC技術(shù)更窄(后者通常可以容納更寬的光譜范圍)。
臺(tái)積電顯然也更偏愛(ài)GC,其COUPE平臺(tái)支持GC。
![]()
三、激光器類型和波分復(fù)用(WDM)
將激光器集成到 CPO 中主要有兩種方法。
第一種方法是片上激光器,它將激光器和調(diào)制器集成在同一光子芯片上,通常是通過(guò)將 III-V 族(InP)材料鍵合到硅上來(lái)實(shí)現(xiàn)的。雖然片上激光器簡(jiǎn)化了設(shè)計(jì)并降低了插入損耗,但也存在一些挑戰(zhàn):
眾所周知,激光器是系統(tǒng)中故障率最高的組件之一——如果將其集成到 CPO 引擎中,故障將產(chǎn)生巨大的影響范圍,因?yàn)樗鼤?huì)摧毀整個(gè)芯片;
激光器對(duì)熱也很敏感,將它們放在共封裝的 OE 上會(huì)使激光器暴露在高溫下,因?yàn)樗鼤?huì)非常靠近系統(tǒng)中溫度最高的部分——主體硅,這只會(huì)加劇這個(gè)問(wèn)題;
片上激光器通常難以提供足夠高的功率輸出。
目前業(yè)界普遍認(rèn)同的方案是采用外部光源(ELS)。激光器位于一個(gè)獨(dú)立的模塊中,通過(guò)光纖連接到光引擎。通常,這種激光器采用可插拔封裝,例如OSFP。這種設(shè)計(jì)簡(jiǎn)化了激光器故障(這種情況相當(dāng)常見(jiàn))的現(xiàn)場(chǎng)維修。
ELS的缺點(diǎn)是功耗較高。如下圖所示,在基于ELS的系統(tǒng)中,由于連接器損耗、光纖耦合損耗和調(diào)制器效率低下等多種因素,輸出功率會(huì)在多個(gè)階段損失。因此,該系統(tǒng)中的每個(gè)激光器必須提供24.5 dBm的光功率來(lái)補(bǔ)償損耗并確保可靠傳輸。高功率激光器會(huì)產(chǎn)生更多熱量,并且在熱應(yīng)力下性能下降更快,激光器和熱電冷卻器約占ELS功耗的70%。雖然激光器設(shè)計(jì)、封裝和光路方面的改進(jìn)有所幫助,但激光器高功率需求的問(wèn)題尚未得到徹底解決。
在今年的 VLSI 大會(huì)上,Nvidia 重點(diǎn)介紹了其生態(tài)系統(tǒng)中的幾家激光合作伙伴:Lumentum 提供單個(gè)高功率 DFB,Ayar Labs 提供 DFB 陣列,Innolume 提供量子點(diǎn)鎖模梳,以及 Xscape、Enlightra 和 Iloomina 提供泵浦非線性諧振梳。
英偉達(dá)也曾討論過(guò)探索使用VCSEL陣列作為潛在的替代激光解決方案。雖然單根光纖的數(shù)據(jù)速率會(huì)較低,并且可能存在一些散熱問(wèn)題,但VCSEL或許能夠提供更高的功率和成本效益,并且適用于“寬帶寬、低速”的應(yīng)用。不過(guò),我們認(rèn)為這并非英偉達(dá)的當(dāng)務(wù)之急。
![]()
波分復(fù)用 (WDM) 是指在同一根光纖上傳輸多個(gè)不同波長(zhǎng)(或稱λ)的光。WDM 的兩種常見(jiàn)變體是粗波分復(fù)用 (CWDM) 和密集波分復(fù)用 (DWDM)。CWDM 通常承載較少的通道,通道間距相對(duì)較大(通常為 20 nm),而 DWDM 則承載許多通道,通道間距非常小(通常小于 1 nm)。CWDM 較寬的通道間距限制了其容量,而 DWDM 較窄的通道間距可以容納 40、80 甚至 100 多個(gè)通道。WDM 非常重要,因?yàn)槟壳按蠖鄶?shù) CPO 實(shí)現(xiàn)方案都受到可連接到光引擎的光纖數(shù)量的限制。有限的光纖對(duì)意味著必須最大化利用每一對(duì)光纖。
四、調(diào)制器類型
當(dāng)激光進(jìn)入光子集成電路(PIC)時(shí),它們會(huì)經(jīng)歷一個(gè)調(diào)制階段(由驅(qū)動(dòng)器驅(qū)動(dòng)),在此階段,電信號(hào)被編碼到激光的波長(zhǎng)中。用于此過(guò)程的三種主要調(diào)制器是馬赫-曾德?tīng)栒{(diào)制器(MZM)、微環(huán)調(diào)制器(MRM)和電吸收調(diào)制器(EAM)。每個(gè)波長(zhǎng)(單個(gè)光路上的單個(gè)波長(zhǎng))都需要一個(gè)調(diào)制器。馬赫-曾德?tīng)栒{(diào)制器(MZM)
1、馬赫-曾德?tīng)栒{(diào)制器( MZM:Mach-Zehnder Modulator )
通過(guò)將連續(xù)波光信號(hào)分成兩路波導(dǎo)臂來(lái)編碼數(shù)據(jù),這兩路波導(dǎo)臂的折射率可通過(guò)施加電壓來(lái)改變。當(dāng)兩路波導(dǎo)臂重新組合時(shí),它們的干涉圖樣會(huì)調(diào)制信號(hào)的強(qiáng)度或相位。
![]()
在三種調(diào)制器中,MZM 最易于實(shí)現(xiàn),且熱敏感性低,因此無(wú)需精確的溫度控制。其高線性度支持 PAM4 和相干 QAM 等高級(jí)調(diào)制格式(盡管 QAM 不適用于高性能計(jì)算/人工智能工作負(fù)載)。MZM 的低啁啾特性提高了高階調(diào)制和遠(yuǎn)距離傳輸?shù)男盘?hào)完整性。此外,MZM 還支持更高的單通道帶寬:已證實(shí)每通道 200G 的帶寬可行,并且據(jù)信使用非相干 PAM 調(diào)制可以實(shí)現(xiàn)每通道 400G 的帶寬。
然而,MZM的缺點(diǎn)是:
由于MZM需要兩個(gè)波導(dǎo)臂和一個(gè)合路區(qū),其尺寸較大,以毫米級(jí)測(cè)量(相比之下,MRM的尺寸以微米級(jí)測(cè)量),這會(huì)占用更多的芯片面積,并限制光電集成電路(OE PIC)中調(diào)制器(以及通道)的密度。MZM的尺寸約為12,000mm2 ,EAM約為250mm2 (5x50mm),而MRM的尺寸在25mm2到225mm2之間(直徑5-15mm2 )。這是MZM的一個(gè)關(guān)鍵缺點(diǎn),會(huì)限制其尺寸的縮小。然而,如果考慮到包含驅(qū)動(dòng)器和調(diào)制器周圍光電控制電路的完整PIC/EIC組合的尺寸,MZM的尺寸劣勢(shì)可能就不那么明顯了。
由于相移過(guò)程需要大量能量,因此馬赫-曾德?tīng)栒{(diào)制器(MZM)的功耗較高。此外,其偏置條件(即啟動(dòng)電壓)也高于工作在亞電壓下的MRM。然而,像Nubis這樣的公司正在嘗試開(kāi)發(fā)巧妙的設(shè)計(jì)來(lái)改善MZM的功耗劣勢(shì)。
在創(chuàng)業(yè)生態(tài)系統(tǒng)中,Nubis是主要利用MZM構(gòu)建其規(guī)模化CPO解決方案的公司之一。由于MZM體積較大且lambda函數(shù)數(shù)量有限,因此在創(chuàng)業(yè)生態(tài)系統(tǒng)中并未得到廣泛應(yīng)用。微環(huán)調(diào)制器(MRM)
2、調(diào)制反射調(diào)制器( MRM:Micro-Ring Modulators )
使用一個(gè)緊湊的環(huán)形波導(dǎo),該波導(dǎo)與一個(gè)或多個(gè)直波導(dǎo)耦合。電信號(hào)會(huì)改變環(huán)形波導(dǎo)的折射率,從而改變其諧振波長(zhǎng)。通過(guò)調(diào)節(jié)諧振頻率使其與輸入光波長(zhǎng)對(duì)齊或錯(cuò)位,MRM 可以調(diào)制光信號(hào)的強(qiáng)度或相位,從而實(shí)現(xiàn)數(shù)據(jù)編碼。
光源從輸入端口進(jìn)入環(huán)形諧振器——對(duì)于大多數(shù)波長(zhǎng)的光,環(huán)形諧振器不會(huì)發(fā)生諧振,因此光會(huì)從輸入端口穿過(guò)器件到達(dá)直通端口。如果波長(zhǎng)滿足諧振條件,則光會(huì)在環(huán)形諧振器中發(fā)生相長(zhǎng)干涉,并被引入下端口。如下圖所示的歸一化功率曲線所示,特定波長(zhǎng)的光會(huì)在下端口引起傳輸功率的尖峰,并在直通端口引起相應(yīng)的傳輸功率下降。這種效應(yīng)可用于調(diào)制。
![]()
光引擎通常使用多個(gè) MRM,每個(gè)環(huán)都可以調(diào)諧到不同的波長(zhǎng),從而可以使用環(huán)本身實(shí)現(xiàn)波分復(fù)用 (WDM),而無(wú)需額外的設(shè)備來(lái)實(shí)現(xiàn) WDM。
MRM具有以下幾個(gè)主要優(yōu)勢(shì):
它們極其緊湊(尺寸在幾十微米以內(nèi)),因此可以比 MZM 具有更高的調(diào)制器密度。MZM 的尺寸約為 12,000mm2 ,EAM 約為 250mm2 (5x50mm),MRM 的尺寸在 25mm2到225mm2之間(直徑 5-15mm2);
環(huán)形天線非常適合 WDM 應(yīng)用(包括 8 或 16 個(gè)波長(zhǎng)的 DWDM),并且具有內(nèi)置復(fù)用/解復(fù)用功能;
MRM 可以非常節(jié)能(每比特功耗更低);
最后,環(huán)形天線的啁啾聲很低,這提高了信號(hào)質(zhì)量。
然而,MRM也面臨一些挑戰(zhàn):
MRM 的溫度敏感度可能比 MZM 和 EAM 高 10-100 倍,因此需要非常精確的控制系統(tǒng),而這些控制系統(tǒng)的設(shè)計(jì)和制造都具有挑戰(zhàn)性;
它們是非線性的,這使得 PAM4/6/8 等高階調(diào)制變得復(fù)雜;
由于每個(gè)設(shè)計(jì)都有精確的要求,因此 MRM 的靈敏度和嚴(yán)格的溫度控制公差使得標(biāo)準(zhǔn)化變得困難。
在眾多解決方案提供商中,英偉達(dá)對(duì)微控制器模塊(MRM)表現(xiàn)出明顯的偏好。他們聲稱是首家設(shè)計(jì)并將MRM應(yīng)用于CPO系統(tǒng)的公司。該公司認(rèn)為MRM的關(guān)鍵優(yōu)勢(shì)在于其緊湊的尺寸和低驅(qū)動(dòng)電壓,這有助于降低功耗。然而,MRM技術(shù)也以難以控制而著稱,因此設(shè)計(jì)精度對(duì)于成功實(shí)施至關(guān)重要——而這恰恰是英偉達(dá)的優(yōu)勢(shì)所在。
在制造方面,臺(tái)積電先進(jìn)的CMOS技術(shù)非常適合制造高精度、高品質(zhì)因數(shù)的微反射鏡。此外,Tower公司在光子學(xué)節(jié)點(diǎn)方面也擁有強(qiáng)大的制造能力。
MRM(混合存儲(chǔ)器模塊)的實(shí)現(xiàn)雖然具有挑戰(zhàn)性,但并非完全不可行。它們有望實(shí)現(xiàn)比MZM(混合零模存儲(chǔ)器)更高的帶寬密度。正因如此,臺(tái)積電、英偉達(dá)以及眾多CPO(芯片產(chǎn)品)公司,例如Ayar Labs、Lightmatter和Ranovus,都將目光聚焦于這項(xiàng)技術(shù)路線圖。電吸收調(diào)制器(EAM)
3、電吸收調(diào)制器(EAM:Electro-Absorption Modulators)
通過(guò)改變其對(duì)光的吸收能力來(lái)調(diào)制信號(hào),這種改變?nèi)Q于所施加的電壓。更具體地說(shuō),當(dāng)對(duì)EAM施加低電壓或無(wú)電壓時(shí),該器件允許大部分入射激光通過(guò),使其呈現(xiàn)透明或“開(kāi)放”狀態(tài)。當(dāng)施加較高電壓時(shí),鍺硅(GeSi)調(diào)制器的帶隙會(huì)移動(dòng)以覆蓋高C波段范圍(1500nm以上),從而增加這些波長(zhǎng)的吸收系數(shù),并衰減“關(guān)閉”通過(guò)附近波導(dǎo)的光信號(hào)。這被稱為弗朗茨-凱爾迪什效應(yīng)。這種“開(kāi)放”和“關(guān)閉”狀態(tài)之間的切換會(huì)調(diào)制光的強(qiáng)度,從而有效地將數(shù)據(jù)編碼到光信號(hào)上。
![]()
如今,采用電吸收調(diào)制激光器 (EML) 進(jìn)行調(diào)制的收發(fā)器也運(yùn)用了相同的原理。連續(xù)波 (CW:continuous wave) 分布式反饋 (DFB:distributed feedback) 激光器和基于磷化銦 (InP) 的電吸收調(diào)制器 (EAM) 耦合在一起,構(gòu)成一個(gè)獨(dú)立的 EML,可以調(diào)制一條光纖通道。例如,一個(gè) 800G DR8 收發(fā)器在 8 條獨(dú)立的光纖通道上使用 8 個(gè) EML,每個(gè) EML 使用 PAM4 調(diào)制(2 比特/信號(hào)),信令速率約為 56 GBaud。與基于鍺硅 (GeSi) 的調(diào)制器不同,InP 調(diào)制器的帶隙對(duì)應(yīng)于 O 波段 (1310nm),這是所有數(shù)據(jù)通信 DR 光器件的標(biāo)準(zhǔn)波長(zhǎng),從而實(shí)現(xiàn)了高度的互操作性。
InP調(diào)制器存在一些缺點(diǎn),使其不太適合用于CPO工藝。InP晶圓尺寸通常較小(3英寸或6英寸),且良率較低——這兩個(gè)因素都會(huì)導(dǎo)致基于InP的器件單位成本高于可采用8英寸或12英寸工藝制造的硅器件。此外,將InP與硅耦合也比將GeSi與其他硅器件耦合要困難得多。
與 MRM 和 MZI 相比,EAM 具有以下幾個(gè)優(yōu)勢(shì):
顯然,EAM 和 MRM 都具有控制邏輯和加熱器,用于穩(wěn)定其工作溫度,但 EAM 對(duì)溫度的敏感性從根本上來(lái)說(shuō)要低。與 MRM 相比,EAM 在 50°C 以上具有更好的熱穩(wěn)定性,而 MRM 對(duì)溫度非常敏感。MRM 的典型穩(wěn)定性為 70-90 pm/°C,這意味著 2°C 的溫度變化會(huì)導(dǎo)致諧振頻率偏移 0.14nm,遠(yuǎn)遠(yuǎn)超過(guò) MRM 性能崩潰所需的 0.1nm 諧振頻率偏移。相比之下,EAM 可以承受高達(dá) 35°C 的瞬時(shí)溫度變化。這種耐受性對(duì)于 Celestial AI 的方案尤為重要,因?yàn)樗麄兊?EAM 調(diào)制器位于高功耗 XPU 計(jì)算引擎下方的中介層中,該引擎會(huì)消耗數(shù)百瓦的功率。EAM 還可以承受高達(dá) 80°C 的環(huán)境溫度,這可能適用于位于 XPU 旁邊而非下方的芯片組應(yīng)用。
與馬赫-曾德?tīng)栒{(diào)制器 (MZI) 相比,電吸收調(diào)制器 (EAM) 的尺寸要小得多,功耗也更低。這是因?yàn)?MZI 的尺寸相對(duì)較大,需要較高的電壓擺幅,而 EAM 需要通過(guò)放大串行器/解調(diào)器 (SerDes) 來(lái)實(shí)現(xiàn) 0-5V 的擺幅。馬赫-曾德?tīng)栒{(diào)制器 (MZM) 的面積約為 12,000mm2 ,EAM 約為 250mm2 ( 5x50mm),而馬赫-曾德?tīng)栒{(diào)制器 (MRM) 的面積則在 25mm2 到 225mm2 之間(直徑5-15mm2 )。此外,MZI 還需要更高的功率來(lái)驅(qū)動(dòng)加熱器,以維持如此大的器件在所需的偏置電壓下工作。
另一方面,使用GeSi EAM進(jìn)行CPO也存在一些缺點(diǎn):
基于硅或氮化硅的物理調(diào)制器結(jié)構(gòu),例如MRM和MZI,通常被認(rèn)為比基于GeSi的器件具有更高的耐久性和可靠性。事實(shí)上,鑒于鍺基器件的加工和集成難度,許多人對(duì)基于GeSi的器件的可靠性表示擔(dān)憂。但Celestial公司認(rèn)為,基于GeSi的EAM(本質(zhì)上是光電探測(cè)器的逆過(guò)程)的可靠性是毋庸置疑的,因?yàn)槿缃窆怆娞綔y(cè)器在收發(fā)器中應(yīng)用廣泛。
GeSi調(diào)制器的能帶邊緣天然位于C波段(即1530nm-1565nm)。設(shè)計(jì)量子阱將其移至O波段(即1260nm-1360nm)是一個(gè)非常棘手的工程難題。這意味著基于GeSi的EAM很可能構(gòu)成一個(gè)封閉式CPO系統(tǒng),而難以融入開(kāi)放式芯片生態(tài)系統(tǒng)。
與使用成熟的O波段連續(xù)波激光器生態(tài)系統(tǒng)相比,圍繞C波段激光器構(gòu)建激光生態(tài)系統(tǒng)可能會(huì)存在規(guī)模不經(jīng)濟(jì)的問(wèn)題。大多數(shù)數(shù)據(jù)通信激光器都是為O波段設(shè)計(jì)的,但Celestial指出,目前也生產(chǎn)相當(dāng)數(shù)量的1577nm XGS-PON激光器。這些激光器通常用于家庭和企業(yè)光纖到戶連接應(yīng)用。
SiGe EAM 的插入損耗約為 4-5dB,而 MRM 和 MZI 的插入損耗約為 3-5dB。雖然 MRM 可以直接復(fù)用不同波長(zhǎng),但 EAM 需要單獨(dú)的復(fù)用器來(lái)實(shí)現(xiàn) CWDM 或 DWDM,這會(huì)略微增加潛在的損耗預(yù)算。
總體而言,EAM 在當(dāng)前的 CPO 實(shí)施中并未得到廣泛應(yīng)用,而 Celestial AI 是少數(shù)積極采用這種方法的公司之一。
OE路線圖——擴(kuò)大OE規(guī)模
目前市面上的光學(xué)引擎通常提供 1.6T 到 3.2T 的總帶寬。英偉達(dá)的 Quantum CPO 包含一個(gè) 1.6T 的引擎,并計(jì)劃為 Spectrum 推出 3.2T 版本。博通展示了其為 Bailly 平臺(tái)開(kāi)發(fā)的 6.4T 光學(xué)引擎,但其尺寸非常大(寬度是英偉達(dá)產(chǎn)品的 2-3 倍),并且需要兩個(gè) FAU,因此其帶寬密度可能與英偉達(dá)的產(chǎn)品類似。Marvell 的 6.4T 光學(xué)引擎也存在同樣的問(wèn)題,需要兩個(gè) FAU,因此占用空間較大。據(jù)我們所知,Marvell 的光學(xué)引擎近期也不會(huì)應(yīng)用于任何量產(chǎn)系統(tǒng)。
![]()
正如我們之前討論過(guò)的,英偉達(dá)Spectrum-X光子交換機(jī)中采用的3.2T光引擎(OE)方案,其海岸線帶寬密度并不比采用長(zhǎng)距離SerDes的可插拔交換機(jī)更高。換句話說(shuō),光引擎密度必須成倍提升才能帶來(lái)顯著的性能優(yōu)勢(shì)并推動(dòng)客戶采用。這意味著既要擴(kuò)展主機(jī)芯片與光引擎EIC之間的電氣接口,也要擴(kuò)展光纖輸出的帶寬。
但是,如果我們能夠自由地設(shè)計(jì)下一代互連技術(shù),那么有哪些方法可以為這一代以及未來(lái)的互連技術(shù)釋放更大的帶寬呢?擴(kuò)展帶寬的關(guān)鍵方法
讓我們來(lái)探討一下擴(kuò)展共封裝光引擎帶寬的關(guān)鍵方法:
1、繼續(xù)采用基于電SerDes的PHY:通過(guò)使用短距離(SR)SerDes而非長(zhǎng)距離SerDes,可以簡(jiǎn)化設(shè)計(jì)實(shí)現(xiàn)、減小面積并降低功耗。但最終,這仍然會(huì)受到電接口處SerDes速度的限制,而我們?cè)谶@方面已經(jīng)接近極限。此處的想法是采用一種過(guò)渡方案,使芯片設(shè)計(jì)人員無(wú)需重新設(shè)計(jì)其I/O。此外,使用電SerDes還可以靈活地在同一芯片上使用現(xiàn)有的可插拔光模塊和/或銅箔。
2、使用寬 I/O PHY(例如 UCIe),并采用較低的波特率(例如 56G)和 NRZ 調(diào)制。這可以降低光引擎的 EIC 要求,甚至可以省去昂貴的混合綁定,因?yàn)樵诘退賯鬏敃r(shí)寄生效應(yīng)的影響較小。然而,使用低信號(hào)速率意味著離開(kāi)光引擎的光纖數(shù)量更容易成為瓶頸。波分復(fù)用 (WDM) 通過(guò)允許每根光纖并行傳輸多個(gè)數(shù)據(jù)流來(lái)解決這個(gè)問(wèn)題。
3、使用諸如 UCIe 之類的寬 I/O PHY,然后讓 EIC 將信號(hào)串行化到較少數(shù)量的光纖通道。繼續(xù)使用高波特率和 PAM4 調(diào)制來(lái)最大化每條光通道的速度,如果需要,可以使用 WDM 方案添加多個(gè)波長(zhǎng),從而允許每對(duì)光纖傳輸多個(gè)波長(zhǎng),以進(jìn)一步提高帶寬。
解決了電氣方面的問(wèn)題后,下一個(gè)挑戰(zhàn)是光纖能夠承載多大的逃逸帶寬。光纖總帶寬取決于三個(gè)關(guān)鍵因素:1)光纖數(shù)量(決定光通道數(shù)量);2)每條光通道的傳輸速度;3)每根光纖的波長(zhǎng)數(shù)量——每個(gè)因素都代表著一個(gè)擴(kuò)展維度。
近來(lái),業(yè)界將光纖傳輸理念分為兩大類:快速窄帶和慢速寬帶(Fast and Narrow vs Slow and Wide)。快速窄帶方案設(shè)想每個(gè)光纖單元 (FAU) 使用較少的光纖(最多不超過(guò)兩位數(shù)),并且每對(duì)光纖都提供高速鏈路;而慢速寬帶方案則基于更多的光纖對(duì)(可能采用更小的間距)以及每對(duì)光纖更低的帶寬。
1、更多光纖對(duì):光纖密度受光纖間距限制,而單個(gè)光纖陣列單元 (FAU) 內(nèi)的光纖總數(shù)則受限于制造工藝,超過(guò)此限制,良率就會(huì)受到影響。目前,光纖的最小間距為 127 微米 (μm),這意味著每毫米最多可容納 8 根光纖。業(yè)界正致力于研發(fā) 80 μm 間距和多芯光纖,以進(jìn)一步提高特定區(qū)域可容納的光纖數(shù)量。然而,增加光纖數(shù)量會(huì)帶來(lái)制造方面的挑戰(zhàn):
A) 光纖對(duì)準(zhǔn)仍然需要大量人工操作,容易造成良率損失,而且每增加一根需要對(duì)準(zhǔn)的光纖,F(xiàn)AU 的良率都會(huì)下降;雖然像 Ficontec 這樣的公司提供了自動(dòng)化工具,但它們的吞吐量仍然很低;
B) 耦合方式的選擇也很重要:邊緣耦合將光纖陣列限制為單行,而光柵耦合可以支持多行。目前我們見(jiàn)過(guò)的最大光纖陣列是 Nubis 的二維 FAU,它包含 36 根光纖。
2、每lane的速度:影響lane速度的因素有兩個(gè):
A)波特率:定義每秒發(fā)送的符號(hào)數(shù);目前先進(jìn)的系統(tǒng)運(yùn)行在 100 Gbaud,而業(yè)界正在努力實(shí)現(xiàn) 200 Gbaud。然而,更高的波特率對(duì)調(diào)制器提出了更高的要求,即需要以更高的頻率進(jìn)行切換;在各種類型的調(diào)制器中,MZM 在這方面表現(xiàn)最佳,并且相對(duì)而言,實(shí)現(xiàn) 200 Gbaud 的路徑也最為清晰。
B)調(diào)制方式:定義每個(gè)符號(hào)攜帶的比特?cái)?shù)。NRZ(每個(gè)符號(hào) 1 比特)和 PAM4(每個(gè)符號(hào) 2 比特,通過(guò) 4 種不同的幅度)目前被廣泛采用。研究正在擴(kuò)展到 PAM6(每個(gè)符號(hào)約 2.6 比特)和 PAM8(每個(gè)符號(hào) 3 比特)。通過(guò)使用不同相位的光信號(hào)以及多個(gè)幅度級(jí)別,可以實(shí)現(xiàn)更高階的調(diào)制方案。 DP-16QAM 可實(shí)現(xiàn)兩個(gè)正交平面,每個(gè)平面具有 4 種不同的幅度、4 種不同的相位,總共可產(chǎn)生 256 種可能的信號(hào)——每個(gè)信號(hào)可提供 8 位。
3、波分復(fù)用 (WDM) :光纖可以同時(shí)傳輸多個(gè)波長(zhǎng)的光。例如,一根具有 8 個(gè)波長(zhǎng)的光纖,每個(gè)波長(zhǎng)傳輸 200Gbit/s 的數(shù)據(jù),總傳輸容量可達(dá) 1.6Tbit/s。目前市售的 DWDM 解決方案通常提供 8 波長(zhǎng)或 16 波長(zhǎng)配置。研究人員也在探索寬光譜、頻帶復(fù)用和交織技術(shù)來(lái)增加波長(zhǎng)數(shù)量。擴(kuò)展波長(zhǎng)數(shù)量的一個(gè)關(guān)鍵挑戰(zhàn)是開(kāi)發(fā)能夠可靠高效地產(chǎn)生多條光通道的激光光源。
Ayar Labs 的 Supernova 光源配備了一個(gè)能夠產(chǎn)生 16 個(gè)波長(zhǎng)的激光器(該激光器由 Sivers 提供)。Scintil 的晶圓級(jí) InP 激光器同樣可以提供多達(dá) 16 個(gè)波長(zhǎng),而 Xscape Photonics 正在致力于開(kāi)發(fā)一種可調(diào)諧的梳狀激光器,其波長(zhǎng)可達(dá) 64 個(gè)。在調(diào)制器中,MRM 最適合處理多個(gè)波長(zhǎng),并且具有內(nèi)置的復(fù)用(mux)和解復(fù)用(demux)功能。
下表概述了將光學(xué)引擎擴(kuò)展到 12.8T 及以上的幾種方法。
![]()
CPO 的采用速度和部署挑戰(zhàn)
英偉達(dá)的首批CPO產(chǎn)品將面向后端橫向擴(kuò)展交換機(jī),其中InfiniBand CPO交換機(jī)將于2025年下半年上市,以太網(wǎng)CPO交換機(jī)將于2026年下半年上市。我們認(rèn)為,這一初期階段主要目的是進(jìn)行市場(chǎng)測(cè)試,并為供應(yīng)鏈的成熟做好準(zhǔn)備。我們預(yù)計(jì)2026年的總出貨量將在1萬(wàn)至1.5萬(wàn)臺(tái)之間。
要使CPO部署能夠更快、更廣泛地推進(jìn)并真正普及,就必須有更令人信服的理由來(lái)支持采用CPO。可能的原因有兩種:一是采用CPO能夠顯著降低總體擁有成本;二是驅(qū)動(dòng)信號(hào)從交換機(jī)ASIC傳輸?shù)浇粨Q機(jī)盒前面板所需的長(zhǎng)距離SerDes在速度或傳輸距離方面遇到了瓶頸。
數(shù)據(jù)中心運(yùn)營(yíng)商不喜歡部署基于 CPO 的系統(tǒng),而這主要體現(xiàn)在兩個(gè)方面,即缺乏互操作性和可維護(hù)性挑戰(zhàn),從而抵消了 TCO 的任何優(yōu)勢(shì)。
CPO的挑戰(zhàn)不僅限于封裝內(nèi)部,還延伸至整個(gè)系統(tǒng)。光纖管理、前面板密度、外部激光器等都是至關(guān)重要的環(huán)節(jié),但也極具挑戰(zhàn)性。為了實(shí)現(xiàn)CPO,芯片公司需要提供客戶可部署的端到端解決方案。這延續(xù)了我們目前觀察到的趨勢(shì),尤其是在英偉達(dá)(Nvidia)身上,該公司專注于系統(tǒng)設(shè)計(jì)以擴(kuò)展性能。
專有解決方案與標(biāo)準(zhǔn)
CPO 采用面臨的一個(gè)關(guān)鍵挑戰(zhàn)是實(shí)現(xiàn)互操作性,同時(shí)克服業(yè)界對(duì)成熟且高度互操作的可插拔光模塊模型的根深蒂固的依賴。
互操作性主要有三種類型:(1)電氣互操作性,(2)光學(xué)互操作性,以及(3)機(jī)械互操作性。對(duì)于可插拔設(shè)備而言,互操作性:
1、通常由光互聯(lián)網(wǎng)論壇 (OIF) 負(fù)責(zé)處理,
2、通常由 IEEE(有時(shí)也由 OIF)負(fù)責(zé)處理。IEEE 通過(guò)其 IEEE 802.3 標(biāo)準(zhǔn)發(fā)揮著核心作用,該標(biāo)準(zhǔn)定義了以太網(wǎng)物理介質(zhì)相關(guān) (PMD) 層。這些規(guī)范涵蓋了關(guān)鍵參數(shù),例如調(diào)制格式、通道速度、通道數(shù)量、傳輸距離、介質(zhì)類型以及光信號(hào)的波長(zhǎng)。通過(guò)遵循這些標(biāo)準(zhǔn)化的 PMD,不同廠商的收發(fā)器可以互換使用,從而確保在多廠商生態(tài)系統(tǒng)中實(shí)現(xiàn)真正的即插即用兼容性,
3、通常由多源協(xié)議 (MSA) 負(fù)責(zé)處理。MSA 定義了專門(mén)的解決方案,并確保在官方 IEEE 標(biāo)準(zhǔn)之外的多廠商互操作性。
通過(guò) OIF、IEEE 標(biāo)準(zhǔn)和 MSA 的結(jié)合,可插拔收發(fā)器實(shí)現(xiàn)了廣泛的互操作性和強(qiáng)大的多廠商生態(tài)系統(tǒng)。對(duì)于 CPO 而言:
1、CPO 模塊的電氣兼容性至關(guān)重要,否則它們將無(wú)法與最先進(jìn)的 SerDes 通信。
2、光兼容性也十分重要,因?yàn)樗梢耘c集群中其他位置的標(biāo)準(zhǔn)可插拔設(shè)備兼容。
3、需要注意的是,CPO 目前仍處于“蠻荒西部”階段,一些解決方案和架構(gòu)決策導(dǎo)致了完全專有的外形尺寸。這正是新的 OIF 高密度互連方案(例如 CPX 范式)試圖解決的問(wèn)題。
一旦滿足了 (1)+(2)+(3) 的要求,CPO 的操作方式將與可插拔設(shè)備非常相似,這將有助于其廣泛應(yīng)用。
然而,目前CPO在標(biāo)準(zhǔn)化方面還不如可封裝芯片那樣成熟,也無(wú)法像光收發(fā)器那樣保證互操作性。部分原因是廠商更傾向于推廣系統(tǒng)級(jí)解決方案,而不是單獨(dú)向芯片制造商銷售芯片。這是因?yàn)镃PO的挑戰(zhàn)不僅限于封裝內(nèi)部,還延伸到整個(gè)系統(tǒng)。光纖管理、前面板密度、調(diào)制器架構(gòu)和外部激光器等都是至關(guān)重要的環(huán)節(jié),同時(shí)也帶來(lái)了諸多挑戰(zhàn)。為了推動(dòng)CPO的普及,像英偉達(dá)這樣的公司需要首先提供端到端的解決方案。
實(shí)現(xiàn)這一目標(biāo)的一種方法是采用組件級(jí)標(biāo)準(zhǔn)化解決方案,其中共封裝的光電器件(OE)采用標(biāo)準(zhǔn)化的光纖接口,并集成符合以太網(wǎng)標(biāo)準(zhǔn)或多標(biāo)準(zhǔn)協(xié)議(MSA)的波長(zhǎng)、速度和調(diào)制方式的光子組件,例如激光器、調(diào)制器和光電二極管。這將實(shí)現(xiàn)真正的互操作性,使客戶能夠混合搭配不同供應(yīng)商的產(chǎn)品,而無(wú)需從單一...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.