網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

四萬(wàn)字全景解讀CPO技術(shù)演進(jìn)、產(chǎn)業(yè)生態(tài)與未來(lái)展望

2026-01-04 14:21:34　來(lái)源: 線纜行業(yè)朋友分享圈

廣東舉報(bào)

分享至

聲明：本文轉(zhuǎn)載自semianalysis，一切版權(quán)歸他們所有，本文僅供參考。

共封裝光器件 (CPO) 長(zhǎng)期以來(lái)一直被寄予厚望，有望改變數(shù)據(jù)中心的連接方式，但這項(xiàng)技術(shù)走向市場(chǎng)卻歷經(jīng)漫長(zhǎng)過(guò)程，真正可部署的產(chǎn)品要到 2025 年才能面世。與此同時(shí)，可插拔收發(fā)器憑借其相對(duì)較低的成本效益、易于部署以及基于標(biāo)準(zhǔn)的互操作性，一直緊跟網(wǎng)絡(luò)需求，并保持著默認(rèn)的選擇。

然而，人工智能工作負(fù)載帶來(lái)的高網(wǎng)絡(luò)需求意味著這次的情況有所不同。人工智能網(wǎng)絡(luò)帶寬的發(fā)展路線圖表明，互連速度、范圍、密度和可靠性要求很快就會(huì)超過(guò)收發(fā)器所能提供的水平。CPO 將帶來(lái)一些好處，并為橫向擴(kuò)展網(wǎng)絡(luò)提供更多選擇，但它對(duì)于縱向擴(kuò)展網(wǎng)絡(luò)至關(guān)重要。在未來(lái)十年后半段及以后，CPO 將成為縱向擴(kuò)展網(wǎng)絡(luò)帶寬增長(zhǎng)的主要驅(qū)動(dòng)力。

當(dāng)今基于銅纜的擴(kuò)展解決方案，例如 NVLink，每個(gè) GPU 可提供高達(dá) 7.2 Tbit/s 的帶寬——在 Rubin 架構(gòu)中，每個(gè) GPU 的帶寬將達(dá)到 14.4 Tbit/s。然而，銅纜鏈路的有效距離最多只有兩米，這意味著擴(kuò)展規(guī)模最多只能覆蓋一到兩個(gè)機(jī)架。此外，通過(guò)銅纜擴(kuò)展帶寬也越來(lái)越困難。在 Rubin 架構(gòu)中，NVIDIA 將通過(guò)雙向 SerDes 將每個(gè)銅纜通道的帶寬再次翻倍，但通過(guò)開(kāi)發(fā)速度更快的 SerDes 來(lái)實(shí)現(xiàn)銅纜帶寬翻倍是一個(gè)極具挑戰(zhàn)性的擴(kuò)展方向，進(jìn)展緩慢。CPO架構(gòu)可以提供相同甚至更高的帶寬密度，并提供更多擴(kuò)展帶寬的途徑，同時(shí)還能支持更大的擴(kuò)展規(guī)模。

要理解CPO的推動(dòng)作用，首先要考慮使用收發(fā)器進(jìn)行光通信時(shí)存在的諸多效率低下和權(quán)衡取舍。收發(fā)器可以實(shí)現(xiàn)更遠(yuǎn)的鏈路距離，但網(wǎng)絡(luò)交換機(jī)或計(jì)算托架前面板上用于插入收發(fā)器的接口通常距離XPU或交換機(jī)ASIC僅15-30厘米。這意味著信號(hào)必須先通過(guò)LR SerDes進(jìn)行電信號(hào)傳輸，經(jīng)過(guò)這15-30厘米的距離后，再由收發(fā)器內(nèi)部的數(shù)字信號(hào)處理器（DSP）對(duì)電信號(hào)進(jìn)行恢復(fù)和處理，最后轉(zhuǎn)換為光信號(hào)。而CPO則將光引擎放置在XPU或交換機(jī)ASIC旁邊，這意味著可以省去DSP，并且可以使用低功耗的SerDes將數(shù)據(jù)從XPU傳輸?shù)焦庖妗ＥcDSP收發(fā)器相比，這可以將數(shù)據(jù)傳輸所需的能量降低50%以上——許多廠商的目標(biāo)是將每比特的能耗降低高達(dá)80%。

盡管英偉達(dá)和博通等公司的橫向擴(kuò)展CPO解決方案越來(lái)越受到關(guān)注，并受到終端客戶的密切關(guān)注，但大型超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商已經(jīng)開(kāi)始規(guī)劃其縱向擴(kuò)展CPO戰(zhàn)略，并與供應(yīng)商達(dá)成合作。例如，Celestial AI預(yù)計(jì)到2028年底，其年化收入將達(dá)到10億美元——我們認(rèn)為這主要得益于其基于亞馬遜Trainium 4平臺(tái)的縱向擴(kuò)展CPO解決方案。

專注于CPO的公司如今已不再局限于論文、試點(diǎn)項(xiàng)目和演示，而是正在制定關(guān)鍵的產(chǎn)品決策，例如光端口架構(gòu)，以解決大規(guī)模生產(chǎn)的問(wèn)題。對(duì)于規(guī)模化生產(chǎn)而言，CPO 的問(wèn)題不再是是否以及為何，而是何時(shí)以及如何——如何將這些系統(tǒng)投入批量生產(chǎn)，以及激光器制造商等關(guān)鍵零部件供應(yīng)鏈公司何時(shí)能夠提高產(chǎn)能。

本文將深入探討CPO的優(yōu)勢(shì)和挑戰(zhàn)、CPO 架構(gòu)的工作原理、當(dāng)前和未來(lái)的 CPO 產(chǎn)品、專注于 CPO 的公司、CPO 相關(guān)組件及其各自的供應(yīng)鏈。本文旨在為從業(yè)人員、行業(yè)分析師、投資者以及所有對(duì)互連技術(shù)感興趣的人士提供指導(dǎo)。

本文目錄及閱讀指南：

我們將文章分為五個(gè)部分——讀者可以根據(jù)自己的興趣或感受選擇閱讀部分。

在第一部分：CPO 總擁有成本 (TCO) 分析中，我們首先分析采用 CPO 如何改變橫向擴(kuò)展和縱向擴(kuò)展網(wǎng)絡(luò)的總擁有成本。我們認(rèn)為，總擁有成本、可靠性和設(shè)備供應(yīng)商的議價(jià)能力將是橫向擴(kuò)展網(wǎng)絡(luò)中采用 CPO 的主要考慮因素。我們將探討 CPO 在橫向擴(kuò)展領(lǐng)域是否已成熟，并提及我們目前掌握的解決方案可靠性數(shù)據(jù)，例如Meta 在 ECOC 2025 上發(fā)布的 CPO 橫向擴(kuò)展交換機(jī)研究。

在第二部分：CPO 簡(jiǎn)介與實(shí)現(xiàn)中，我們將深入探討 CPO 的工作原理。本部分將探討市場(chǎng)從銅到共封裝銅、從數(shù)字信號(hào)處理器 (DSP) 光器件到線性可插拔光器件 (LPO) 再到 CPO 的演變歷程，以及采用 CPO 的動(dòng)力和理由。此外，我們還將討論SerDes 的擴(kuò)展極限以及作為 SerDes 替代方案的 Wide I/O （尤其是在與 CPO 結(jié)合使用時(shí)）。

在第三部分“CPO市場(chǎng)化”中，我們將介紹推動(dòng)CPO獲得市場(chǎng)認(rèn)可并最終推向市場(chǎng)的關(guān)鍵技術(shù)。首先，我們將討論主機(jī)和光引擎封裝，并詳細(xì)解釋臺(tái)積電COUPE封裝及其為何成為首選集成方案。我們將深入探討光纖連接單元（FAU）、光纖耦合以及邊緣耦合與光柵耦合器的區(qū)別。此外，我們還將介紹馬赫-曾德?tīng)栒{(diào)制器（MZM）、微環(huán)調(diào)制器（MRM）和電吸收調(diào)制器（EAM）等調(diào)制器類型。本部分最后將闡述CPO被廣泛采用的核心原因——利用CPO擴(kuò)展帶寬的多種途徑：連接更多光纖、采用波分復(fù)用（WDM）以及更高階的調(diào)制。

在第四部分“CPO產(chǎn)品現(xiàn)狀與展望”中，我們將分析目前市場(chǎng)上的CPO產(chǎn)品及其相關(guān)供應(yīng) 鏈。我們將首先介紹英偉達(dá)和博通的解決方案，然后再討論主要的CPO公司。我們將涵蓋Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil，詳細(xì)介紹每家供應(yīng)商的解決方案，并分析每家公司方案中的重要優(yōu)缺點(diǎn)。

CPO 總擁有成本 (TCO) 分析

在今年早些時(shí)候舉行的英偉達(dá)GTC 2025大會(huì)上，最受矚目的議題之一是Jensen宣布公司首款支持CPO的橫向擴(kuò)展網(wǎng)絡(luò)交換機(jī)。值得注意的是，在縱向擴(kuò)展（ scale-up）方面，英偉達(dá)仍然堅(jiān)持使用銅纜，并竭盡全力避免采用光纖，即便到2027年和2028年也是如此。

讓我們首先討論這些新型 CPO 交換機(jī)的總擁有成本，分析橫向擴(kuò)展 CPO 可以帶來(lái)的成本和節(jié)能效益。

英偉達(dá)在 GTC 2025 主題演講中發(fā)布了三款不同的 CPO 橫向擴(kuò)展交換機(jī)，它們采用了兩種不同的 CPO 交換機(jī) ASIC。雖然這些交換機(jī)在總體擁有成本 (TCO)、功耗和部署速度方面具有優(yōu)勢(shì)，但這些優(yōu)勢(shì)并不足以促使客戶立即轉(zhuǎn)向完全不同的部署模式，因此我們預(yù)計(jì)首批 CPO 橫向擴(kuò)展（scale-out）交換機(jī)的市場(chǎng)應(yīng)用將十分有限。讓我們來(lái)分析一下原因。

典型的AI集群網(wǎng)絡(luò)配置和總擁有成本

典型的AI集群包含三個(gè)主要網(wǎng)絡(luò)架構(gòu)：后端、前端和帶外管理架構(gòu)（out of band management fabric）。后端網(wǎng)絡(luò)架構(gòu)是利用率最高、技術(shù)要求也最高的網(wǎng)絡(luò)架構(gòu)。后端網(wǎng)絡(luò)架構(gòu)用于GPU之間的橫向擴(kuò)展通信，使GPU能夠相互通信并在集體操作中交換數(shù)據(jù)，從而實(shí)現(xiàn)訓(xùn)練和推理的并行化。后端網(wǎng)絡(luò)通常使用InfiniBand或以太網(wǎng)協(xié)議。

由于后端網(wǎng)絡(luò)對(duì)性能要求極高，因此其在總網(wǎng)絡(luò)成本和功耗中占據(jù)主導(dǎo)地位。對(duì)于部署在 InfiniBand 網(wǎng)絡(luò)上、采用 Nvidia X800-Q3400 后端交換機(jī)的三層 GB300 NVL72 集群而言，后端網(wǎng)絡(luò)成本占比高達(dá) 85%，功耗占比更是高達(dá) 86%。基于 CPO 的交換機(jī)和網(wǎng)絡(luò)解決方案可用于后端和前端網(wǎng)絡(luò)，但我們認(rèn)為現(xiàn)階段的部署重點(diǎn)將放在后端網(wǎng)絡(luò)。

從宏觀角度來(lái)看，網(wǎng)絡(luò)成本是僅次于AI服務(wù)器本身的AI集群總成本的第二大組成部分。在采用三層InfiniBand網(wǎng)絡(luò)的GB300 NVL72集群中，網(wǎng)絡(luò)成本占集群總成本的15%，而對(duì)于四層網(wǎng)絡(luò)，這一比例則高達(dá)18%。光收發(fā)器是這部分成本的重要組成部分，在使用相對(duì)昂貴的Nvidia LinkX收發(fā)器時(shí)，三層網(wǎng)絡(luò)光收發(fā)器成本占總成本的60%。此外，它們還消耗三層網(wǎng)絡(luò)總功耗的45%。

AI集群中GPU數(shù)量越多，所需的網(wǎng)絡(luò)層數(shù)就越多。從兩層網(wǎng)絡(luò)擴(kuò)展到三層甚至更多層網(wǎng)絡(luò)，意味著更高的成本和更大的功耗預(yù)算。CPO既可以在保持網(wǎng)絡(luò)層數(shù)不變的情況下幫助降低功耗和成本，也可以通過(guò)增加給定層數(shù)網(wǎng)絡(luò)中可連接的GPU數(shù)量來(lái)降低總功耗和成本需求。

CPO橫向擴(kuò)展功耗預(yù)算

今年早些時(shí)候，在 GTC 2025 大會(huì)上，英偉達(dá) CEO 黃仁勛強(qiáng)調(diào)，光收發(fā)器本身巨大的功耗是推動(dòng) CPO 的關(guān)鍵因素。根據(jù)上表中的機(jī)架功耗預(yù)算，一個(gè)部署在三層網(wǎng)絡(luò)上的 20 萬(wàn) GB300 NVL72（每個(gè)機(jī)架 72 個(gè) GPU 封裝和 144 個(gè)計(jì)算芯片）GPU 集群將消耗 435 兆瓦的關(guān)鍵 IT 電源，其中僅光收發(fā)器就消耗了 17 兆瓦。顯然，通過(guò)減少大部分光收發(fā)器組件，可以節(jié)省大量電力。

通過(guò)比較單個(gè) 800G DSP 收發(fā)器的功耗與 CPO 系統(tǒng)中光引擎和激光源（每 800G 帶寬）的功耗，這一點(diǎn)很容易看出。雖然一個(gè) 800G DR4 光收發(fā)器的功耗約為 16-17W，但我們估計(jì)，Nvidia Q3450 CPO 交換機(jī)中使用的光引擎和外部激光源每 800G 帶寬的功耗約為 4-5W，功耗降低了 73%。

這些數(shù)據(jù)與 Meta 在 ECOC 2025 上發(fā)表的論文中提出的數(shù)據(jù)非常接近。在該報(bào)告中，Meta 展示了 800G 2xFR4 可插拔收發(fā)器消耗約 15W 的功率，而 Broadcom Bailly 51.2T CPO 交換機(jī)中的光引擎和激光源每提供 800G 帶寬消耗約 5.4W 的功率，節(jié)能 65%。

讓我們將分析擴(kuò)展到集群層面。以基于三層網(wǎng)絡(luò)的 GB300 NVL72 集群為例，我們發(fā)現(xiàn)，后端網(wǎng)絡(luò)從 DSP 收發(fā)器切換到 LPO 收發(fā)器，可以將總收發(fā)器功耗降低 36%，總網(wǎng)絡(luò)功耗降低 16%。完全過(guò)渡到 CPO 相比 DSP 光模塊，節(jié)能效果更為顯著——收發(fā)器功耗降低 84%——盡管部分節(jié)能效果會(huì)被交換機(jī)中新增的光引擎 (OE) 和外部光源 (ELS) 所抵消，這些組件的總功耗增加了 23%。在下面的示例中，CPO 方案下每個(gè)服務(wù)器的光收發(fā)器功耗仍然保持在 1000W，因?yàn)槲覀兗僭O(shè)前端網(wǎng)絡(luò)仍然使用 DSP 收發(fā)器。

使用英偉達(dá)的CPO橫向擴(kuò)展交換機(jī)意味著默認(rèn)（default）使用高基數(shù)網(wǎng)絡(luò)，但最終用戶并不會(huì)感受到這一點(diǎn)，因?yàn)槎丝谇袚Q發(fā)生在交換機(jī)內(nèi)部，而使用非CPO高基數(shù)（high radix ）交換機(jī)時(shí)則需要通過(guò)配線架或八爪魚(yú)線纜在交換機(jī)外部進(jìn)行。這些英偉達(dá)CPO交換機(jī)的優(yōu)勢(shì)在于擁有極高的端口數(shù)量——例如，Quantum 3450提供144個(gè)800G端口，Spectrum 6800提供512個(gè)800G端口。

之所以使用“默認(rèn)”一詞，是因?yàn)橛ミ_(dá)的非CPO InfiniBand Quantum Q3400交換機(jī)也提供144個(gè)800G端口，而其其他InfiniBand交換機(jī)（例如QM9700）僅提供32個(gè)800G端口——只有前者提供了這種“一體式高基數(shù)”（high radix in a box）方案，從而提供大量的有效端口。如此高的端口數(shù)量可能使客戶能夠?qū)⑷龑泳W(wǎng)絡(luò)簡(jiǎn)化為兩層網(wǎng)絡(luò)，同時(shí)還能省去客戶部署交換機(jī)、配線架或笨重的八爪魚(yú)線纜的麻煩，這可能成為一項(xiàng)關(guān)鍵的賣(mài)點(diǎn)。在兩層網(wǎng)絡(luò)中，與傳統(tǒng)的DSP收發(fā)器相比，收發(fā)器功耗降低了84%，交換機(jī)功耗降低了21%，整個(gè)網(wǎng)絡(luò)功耗降低了48%。

Spectrum 6800 交換機(jī)擁有大量端口，在兩種邏輯配置下均可提供 512 個(gè) 800G 端口，相比之下，Spectrum 6810 僅提供 128 個(gè) 800G 端口、256 個(gè) 400G 端口或 512 個(gè) 200G 端口。例如，Spectrum 6810 的 128 個(gè) 800G 端口配置下，一個(gè)雙層網(wǎng)絡(luò)最多可連接 8,192 個(gè) GPU；而 Spectrum 6800 的 512 個(gè) 800G 端口配置則可連接 131,072 個(gè) GPU。

順便提一下，在L層網(wǎng)絡(luò)中，使用具有k個(gè)端口的交換機(jī)所能支持的最大主機(jī)數(shù)量由以下公式給出：

神奇之處在于端口數(shù) k 與網(wǎng)絡(luò)層數(shù)呈指數(shù)關(guān)系。因此，對(duì)于一個(gè)兩層網(wǎng)絡(luò)，通過(guò)為每個(gè)端口分配一半帶寬（例如，將一個(gè) 800G 端口拆分為兩個(gè) 400G 端口），使用內(nèi)部端口切換（如 Spectrum 6800 那樣）、分支電纜或雙端口收發(fā)器，可以將邏輯端口數(shù)翻倍，這意味著支持的主機(jī)數(shù)量將增加四倍！

本節(jié)目前討論的節(jié)能效果，三層CPO網(wǎng)絡(luò)可節(jié)省23%，兩層CPO網(wǎng)絡(luò)可節(jié)省48%，聽(tīng)起來(lái)非常可觀。但問(wèn)題在于，三層網(wǎng)絡(luò)中的網(wǎng)絡(luò)功耗原本就只占集群總功耗的9%。因此，最終切換到CPO的效果至少對(duì)于橫向擴(kuò)展網(wǎng)絡(luò)而言會(huì)被大幅稀釋。三層網(wǎng)絡(luò)切換到CPO可降低23%的網(wǎng)絡(luò)功耗，但僅節(jié)省2%的集群總功耗。遷移到兩層網(wǎng)絡(luò)可降低48%的網(wǎng)絡(luò)成本，但僅節(jié)省4%的集群總功耗。

從集群總資本成本來(lái)看，情況也類似。

CPO 橫向擴(kuò)展總擁有成本 (TCO)

讓我們簡(jiǎn)要地看一下將收發(fā)器與CPO解決方案進(jìn)行比較時(shí)的一些成本細(xì)節(jié)。首款Nvidia CPO交換機(jī)Quantum X800-Q3450 CPO將使用72個(gè)光引擎，每個(gè)引擎的運(yùn)行速度為1.6Tbit/s；后續(xù)版本的Quantum CPO交換機(jī)可能會(huì)過(guò)渡到36個(gè)光引擎，每個(gè)引擎的運(yùn)行速度為3.2Tbit/s，每個(gè)單元的成本約為1000美元（包括FAU），這意味著每個(gè)系統(tǒng)的總OE（optical engines）成本約為3.6萬(wàn)美元。

為了更直觀地理解這一點(diǎn)，不妨考慮一下如果使用傳統(tǒng)光收發(fā)器模塊的總成本。非CPO的X800-Q3400交換機(jī)配備72個(gè)OSFP插槽，并使用一個(gè)1.6T雙端口收發(fā)器來(lái)提供144個(gè)800G端口。假設(shè)一個(gè)通用的1.6T DR8收發(fā)器的價(jià)格為1000美元，那么為這臺(tái)交換機(jī)配備收發(fā)器的總成本將達(dá)到72000美元，是CPO交換機(jī)所需光引擎和ELS模塊（預(yù)計(jì)成本為35000-40000美元）成本的兩倍，才能實(shí)現(xiàn)相同的帶寬。

然而，這還沒(méi)有考慮交換機(jī)廠商的利潤(rùn)。如果毛利率為60%，那么最終用戶購(gòu)買(mǎi)光引擎的成本將達(dá)到80000美元-90000美元——這比同等規(guī)格的收發(fā)器成本更高。此外，光纖換線器等其他組件的成本也會(huì)受到這種利潤(rùn)率的影響。這就解釋了為什么，根據(jù)收發(fā)器的成本和交換機(jī)供應(yīng)商的利潤(rùn)，轉(zhuǎn)向 CPO 時(shí)節(jié)省的成本可能不會(huì)很大。

從下表可以看出，在三層網(wǎng)絡(luò)中從收發(fā)器切換到CPO時(shí)，CPO組件的額外成本會(huì)使交換機(jī)成本增加81%，抵消了不購(gòu)買(mǎi)收發(fā)器所節(jié)省的86%的成本。盡管CPO的總網(wǎng)絡(luò)成本仍然比使用DSP收發(fā)器低31%，但與電源成本的情況類似，服務(wù)器機(jī)架在集群總擁有成本（TCO）中占比過(guò)高，這意味著集群總成本僅下降了3%。

將網(wǎng)絡(luò)從三層簡(jiǎn)化為兩層可以節(jié)省更多成本——集群總成本最多可降低 7%，收發(fā)器成本降低 86%，網(wǎng)絡(luò)總成本降低 46%。

因此，如果CPO一方面只能節(jié)省高達(dá)7%的成本和4%的能耗，另一方面卻引發(fā)了人們對(duì)現(xiàn)場(chǎng)維護(hù)困難、可靠性和影響范圍（無(wú)論這種擔(dān)憂是否合理）以及與多家收發(fā)器供應(yīng)商談判時(shí)議價(jià)能力下降的擔(dān)憂——那么，為什么GPU云平臺(tái)還要采用它呢？答案很簡(jiǎn)單：它尚未被廣泛采用——我們預(yù)計(jì)在短期內(nèi)，超大規(guī)模數(shù)據(jù)中心不會(huì)迅速采用橫向擴(kuò)展的CPO系統(tǒng)。

面向規(guī)模化網(wǎng)絡(luò)的CPO

相反，我們認(rèn)為面向規(guī)模化部署的CPO才是真正的殺手級(jí)應(yīng)用。正如前文所述，大型超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商已經(jīng)向供應(yīng)商承諾，將在本十年末之前部署基于CPO的規(guī)模化部署解決方案。

目前，基于銅纜的現(xiàn)有擴(kuò)展模式正面臨極限挑戰(zhàn)，原因在于銅纜傳輸距離有限——在每通道 200Gbit/s 的速率下，最佳傳輸距離僅為兩米，而且每通道帶寬翻倍的難度也日益增加。CPO 可以解決這些問(wèn)題，因?yàn)樗饶軡M足帶寬密度要求，又能提供多種未來(lái)帶寬擴(kuò)展途徑，還能實(shí)現(xiàn)更大規(guī)模的擴(kuò)展。

一旦部署了 CPO 以實(shí)現(xiàn)縱向擴(kuò)展網(wǎng)絡(luò)，縱向擴(kuò)展域?qū)⒉辉偈芑ミB距離的限制。原則上，客戶可以將縱向擴(kuò)展域擴(kuò)展到任意大小。當(dāng)然，如果希望將縱向擴(kuò)展域保持在允許全連接（all-to-all connected）的單層扇出網(wǎng)絡(luò)中，則縱向擴(kuò)展域的大小將受到交換機(jī)基數(shù)的限制。

橫向擴(kuò)展與縱向擴(kuò)展的TAM

縱向擴(kuò)展架構(gòu)的網(wǎng)絡(luò)需求遠(yuǎn)高于后端橫向擴(kuò)展網(wǎng)絡(luò)。GPU 間或交換機(jī)間的鏈路需要更高的帶寬和更低的延遲，才能實(shí)現(xiàn) GPU 間的互連，從而使它們能夠協(xié)同共享內(nèi)存等資源。

舉例來(lái)說(shuō)，Nvidia Blackwell 平臺(tái)上的第五代NVLink 為每個(gè) GPU 提供 900GB/s（7200Gbit/s）的單向帶寬。這比后端橫向擴(kuò)展網(wǎng)絡(luò)（使用 CX-8 網(wǎng)卡連接 GB300 NVL72）上每個(gè) GPU 的 100GB/s（800Gbit/s）帶寬高出 9 倍。這也使得主機(jī)需要更高的岸邊帶寬密度，而這正是推動(dòng) GPU SerDes 線路速度不斷提升的動(dòng)力。

同樣重要的是要認(rèn)識(shí)到，隨著縱向擴(kuò)展域規(guī)模的擴(kuò)大以及縱向互連速度的提升，縱向互連（以及最終的縱向互連網(wǎng)絡(luò)）的潛在市場(chǎng)規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了橫向擴(kuò)展網(wǎng)絡(luò)。橫向擴(kuò)展網(wǎng)絡(luò)的潛在市場(chǎng)規(guī)模很可能主要由縱向擴(kuò)展網(wǎng)絡(luò)應(yīng)用而非橫向擴(kuò)展網(wǎng)絡(luò)應(yīng)用占據(jù)。

銅與光學(xué)器件在規(guī)模化應(yīng)用中的比較：全球規(guī)模、密度和覆蓋范圍

目前，出于種種原因，橫向擴(kuò)展網(wǎng)絡(luò)完全依賴銅纜。在當(dāng)前的插拔架構(gòu)下，要使光收發(fā)器的帶寬與 NVLink 相匹配，成本和功耗都將極其高昂，而且還會(huì)引入不必要的延遲。此外，計(jì)算托架上的面板空間可能不足以容納所有這些收發(fā)器。銅纜在低延遲、高吞吐量連接方面表現(xiàn)出色。然而，正如上文所述，銅纜的傳輸距離有限，限制了“世界規(guī)模”——即單個(gè)橫向擴(kuò)展域內(nèi)可連接的 GPU 數(shù)量。

擴(kuò)大規(guī)模是計(jì)算擴(kuò)展的關(guān)鍵途徑。在當(dāng)今基于推理的模型擴(kuò)展和測(cè)試時(shí)計(jì)算的時(shí)代，在單個(gè)規(guī)模擴(kuò)展域中增加計(jì)算能力、內(nèi)存容量和內(nèi)存帶寬變得越來(lái)越重要。

英偉達(dá)的GB200系統(tǒng)之所以能帶來(lái)巨大的性能提升，是因?yàn)樗鼘⒃緝H由8個(gè)互連GPU組成的網(wǎng)絡(luò)規(guī)模擴(kuò)展到了72個(gè)互連GPU，并采用了全連接拓?fù)浣Y(jié)構(gòu)。其結(jié)果是，通過(guò)實(shí)施在橫向擴(kuò)展網(wǎng)絡(luò)中無(wú)法實(shí)現(xiàn)的更復(fù)雜的協(xié)同通信技術(shù)，實(shí)現(xiàn)了巨大的吞吐量提升。

在銅纜上，這只能在單個(gè)機(jī)架的占地面積內(nèi)實(shí)現(xiàn)，對(duì)供電、散熱和可制造性提出了極高的要求。該系統(tǒng)的復(fù)雜性使得下游供應(yīng)鏈仍在努力提升產(chǎn)能。

英偉達(dá)將繼續(xù)堅(jiān)持使用銅纜。為了保持領(lǐng)先于AMD等競(jìng)爭(zhēng)對(duì)手以及那些正在構(gòu)建自有縱向擴(kuò)展網(wǎng)絡(luò)的超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商，英偉達(dá)還需要進(jìn)一步擴(kuò)大其縱向擴(kuò)展的規(guī)模。因此，英偉達(dá)不得不采取極端措施，在單個(gè)機(jī)架內(nèi)擴(kuò)展縱向擴(kuò)展能力。在GTC 2025大會(huì)上展示的英偉達(dá)Rubin Ultra的Kyber機(jī)架架構(gòu)，可擴(kuò)展至144個(gè)GPU封裝（576個(gè)GPU核心）。該機(jī)架的密度是現(xiàn)有GB200/300 NVL72機(jī)架的四倍。鑒于GB200的制造和部署已經(jīng)非常復(fù)雜，Kyber機(jī)架架構(gòu)更是將這一難度提升到了新的高度。

光器件技術(shù)實(shí)現(xiàn)了相反的方案，它可以通過(guò)多個(gè)機(jī)架進(jìn)行擴(kuò)展，從而擴(kuò)大系統(tǒng)規(guī)模，而無(wú)需像以往那樣在密集的空間內(nèi)塞入更多加速器，因?yàn)楹笳邔?duì)供電和散熱提出了更高的要求。雖然目前使用可插拔收發(fā)器可以實(shí)現(xiàn)這一點(diǎn)，但光收發(fā)器的成本及其高功耗使得這種方案并不實(shí)用。

銅纜與光纖在規(guī)模化應(yīng)用中的比較：帶寬擴(kuò)展

在銅纜上擴(kuò)展帶寬也變得越來(lái)越困難。英偉達(dá)的 Rubin 芯片采用了一種新型的雙向 SerDes 技術(shù)，實(shí)現(xiàn)了帶寬翻倍。在該技術(shù)中，發(fā)送和接收操作共享同一信道，從而實(shí)現(xiàn)了每個(gè)信道 224Gbit/s 的全雙工通信（發(fā)送 + 接收）。在銅纜上實(shí)現(xiàn)每通道 448G 的“真正”帶寬仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)，其上市時(shí)間也難以確定。相比之下，CPO 提供了多種擴(kuò)展帶寬的途徑：波特率、DWDM、額外的光纖對(duì)以及調(diào)制方式——所有這些都將在本文后續(xù)部分詳細(xì)討論。CPO何時(shí)才能做好迎接黃金時(shí)段的準(zhǔn)備？

那么，如果CPO是解決方案，為什么英偉達(dá)最初只將其應(yīng)用于橫向擴(kuò)展交換機(jī)，而不將其應(yīng)用于Rubin Ultra呢？這歸根結(jié)底是供應(yīng)鏈不成熟、制造工藝面臨挑戰(zhàn)以及客戶對(duì)部署的猶豫。推出Quantum和Spectrum CPO交換機(jī)的目的是為了幫助提升供應(yīng)鏈效率，并獲取更多關(guān)于數(shù)據(jù)中心可靠性和可維護(hù)性的實(shí)際數(shù)據(jù)。

在此期間，Meta 在 ECOC 期間發(fā)布的 CPO 可靠性數(shù)據(jù)提供了一些有用的信息。Meta與 Broadcom 合作開(kāi)展了這項(xiàng)研究，Broadcom也發(fā)布了一些有用的幻燈片。在這項(xiàng)研究中，Meta 對(duì) 15 臺(tái) Bailly 51.2T CPO 交換機(jī)進(jìn)行了規(guī)模適中的測(cè)試，累計(jì) 400G 端口設(shè)備小時(shí)數(shù)高達(dá) 104.9 萬(wàn)小時(shí)，并發(fā)布了最大非零 KP4 前向糾錯(cuò) (FEC) 值：

該論文還解釋了在測(cè)試期間，鏈路中沒(méi)有觀察到任何故障或不可糾正的碼字 (UCW)，并指出在整個(gè)測(cè)試期間（400G 端口設(shè)備運(yùn)行時(shí)間達(dá) 1,049k 小時(shí)）只觀察到一次 FEC bin > 10 的情況。

然而，Meta的研究并未止步于此。在ECOC大會(huì)上發(fā)表同一篇論文時(shí)，他們展示了高達(dá)1500萬(wàn)400G端口設(shè)備小時(shí)數(shù)的擴(kuò)展結(jié)果。這些結(jié)果表明，在前400萬(wàn)400G端口設(shè)備小時(shí)內(nèi)未出現(xiàn)UCW（未解決的故障），并且400G 2xFR4收發(fā)器（全球2xFR4收發(fā)器為55萬(wàn)）的平均故障間隔時(shí)間（MTBF）為0.5-1M設(shè)備小時(shí)，而CPO的MTBF為260萬(wàn)設(shè)備小時(shí)。（原文：Meta did not stop there, however. In the talk at ECOC presenting the same paper, they presented expanded results for up to 15M 400G port-device hours. These results showed that there were no UCWs for the first 4M 400G port device hours, and they also showed a 0.5-1M device hour mean time before failure (MTBF) for 400G 2xFR4 transceivers (550k for 2xFR4 globally) vs 2.6M device hour MTBF for CPO.）

雖然 1500 萬(wàn)端口設(shè)備小時(shí)聽(tīng)起來(lái)很大，但這是以 400G 端口小時(shí)為單位的。也就是說(shuō)，一臺(tái) 51.2T 交換機(jī)運(yùn)行一小時(shí)相當(dāng)于 128 個(gè) 400G 端口小時(shí)。15 臺(tái) 51.2T 交換機(jī)共計(jì) 1500 萬(wàn)個(gè) 400G 端口小時(shí)，相當(dāng)于 7812 個(gè)實(shí)際運(yùn)行小時(shí)，約合 325 天。事實(shí)上，這 1500 萬(wàn)小時(shí)通常被簡(jiǎn)單地稱為“小時(shí)”或“設(shè)備小時(shí)”，而省略了“端口”部分。盡管在 400 萬(wàn)端口設(shè)備小時(shí)內(nèi)零故障和零 UCW 統(tǒng)計(jì)數(shù)據(jù)非常有價(jià)值，但在轉(zhuǎn)向 CPO 橫向擴(kuò)展交換并投入數(shù)十億美元之前，業(yè)界需要的遠(yuǎn)不止是在實(shí)驗(yàn)室環(huán)境中測(cè)試 15 臺(tái) CPO 交換機(jī) 11 個(gè)月。

在動(dòng)態(tài)的現(xiàn)場(chǎng)環(huán)境中運(yùn)行數(shù)千臺(tái)橫向擴(kuò)展交換機(jī)是一項(xiàng)截然不同的挑戰(zhàn)，這些交換機(jī)在生產(chǎn)環(huán)境中的性能表現(xiàn)還有待觀察。生產(chǎn)環(huán)境中的溫度波動(dòng)可能比實(shí)驗(yàn)室環(huán)境更大，從而導(dǎo)致組件性能或耐久性出現(xiàn)意想不到的變化。Meta公司在其 Llama 3 論文中指出，數(shù)據(jù)中心 1-2% 的溫度波動(dòng)會(huì)對(duì)功耗波動(dòng)產(chǎn)生不利影響——這種波動(dòng)是否會(huì)以難以預(yù)料的方式影響整個(gè)網(wǎng)絡(luò)架構(gòu)？

即使是數(shù)據(jù)中心灰塵這種看似平常的問(wèn)題，也令技術(shù)支持人員頭疼不已，他們可能需要花費(fèi)大量時(shí)間清理光纖端面——當(dāng)然，CPO交換機(jī)通常配備LC或MPO型前置可插拔連接器，但CPO交換機(jī)機(jī)箱內(nèi)部的灰塵又該如何處理呢？0.06%的故障率聽(tīng)起來(lái)很誘人，但這種故障的影響范圍可達(dá)64個(gè)800G端口。本文主要討論的是基于FR光模塊的CPO交換機(jī)，而下一代CPO交換機(jī)將基于DR光模塊。以上僅列舉了一些已知的未知因素，在現(xiàn)場(chǎng)測(cè)試中還可能出現(xiàn)更多未知的未知因素。

事實(shí)上，這些結(jié)果通過(guò)提供切實(shí)可靠的可靠性數(shù)據(jù)，有力地說(shuō)服了業(yè)內(nèi)人士。我們的目的并非制造恐慌、不確定性或疑慮（FUD），而是呼吁開(kāi)展更大規(guī)模的現(xiàn)場(chǎng)測(cè)試，以便業(yè)界能夠快速了解并解決未預(yù)見(jiàn)的問(wèn)題，從而為更廣泛地采用CPO（網(wǎng)絡(luò)性能優(yōu)化）技術(shù)鋪平道路，尤其是在規(guī)模化網(wǎng)絡(luò)建設(shè)方面。

歸根結(jié)底，英偉達(dá)此次橫向擴(kuò)展CPO產(chǎn)品的發(fā)布，實(shí)際上是為真正的大規(guī)模部署進(jìn)行一次演練和清理。我們認(rèn)為，鑒于縱向擴(kuò)展相比橫向擴(kuò)展具有更顯著的總體擁有成本 (TCO) 和性能/TCO 比優(yōu)勢(shì)，其部署規(guī)模和影響將遠(yuǎn)超橫向擴(kuò)展。

此外，就橫向擴(kuò)展型CPO而言，Rubin Ultra計(jì)劃于2027年發(fā)布（我們認(rèn)為最終會(huì)是2027年底），但供應(yīng)鏈屆時(shí)還無(wú)法滿足數(shù)千萬(wàn)個(gè)CPO終端的交付需求，從而無(wú)法滿足GPU的需求。即使是這樣的時(shí)間表對(duì)英偉達(dá)來(lái)說(shuō)也過(guò)于雄心勃勃。因此，費(fèi)曼世代似乎是CPO注入英偉達(dá)生態(tài)系統(tǒng)的重點(diǎn)。

現(xiàn)在讓我們深入探討一下 CPO 的含義、技術(shù)考量、挑戰(zhàn)以及當(dāng)前生態(tài)系統(tǒng)的狀況。

CPO介紹和實(shí)施

CPO是什么？為什么大家都這么興奮？

CPO將光引擎直接集成到與高性能計(jì)算或網(wǎng)絡(luò)ASIC相同的封裝或模塊中。這些光引擎將電信號(hào)轉(zhuǎn)換為光信號(hào)，從而實(shí)現(xiàn)通過(guò)光鏈路進(jìn)行高速數(shù)據(jù)傳輸。由于銅纜上的高速電信號(hào)傳輸距離有限，因此必須使用光鏈路進(jìn)行幾米以上的遠(yuǎn)距離數(shù)據(jù)通信。

如今，大多數(shù)電光轉(zhuǎn)換都是通過(guò)可插拔光收發(fā)器實(shí)現(xiàn)的。在這種情況下，電信號(hào)會(huì)從交換機(jī)或處理芯片出發(fā)，經(jīng)過(guò)數(shù)十厘米甚至更遠(yuǎn)的PCB板，最終到達(dá)機(jī)箱前面板或后面板上的物理收發(fā)器外殼。可插拔光收發(fā)器就位于該外殼內(nèi)。收發(fā)器接收電信號(hào)，經(jīng)光數(shù)字信號(hào)處理器（DSP）芯片進(jìn)行重新處理后，再發(fā)送到光引擎組件，由其將電信號(hào)轉(zhuǎn)換為光信號(hào)。然后，光信號(hào)可以通過(guò)光纖傳輸?shù)芥溌返牧硪欢耍谀抢铮硪粋€(gè)收發(fā)器會(huì)反向執(zhí)行此過(guò)程，將光信號(hào)轉(zhuǎn)換回電信號(hào)，最終返回到目標(biāo)芯片。

在這個(gè)過(guò)程中，電信號(hào)（至少對(duì)于銅線而言）需要經(jīng)過(guò)相對(duì)較長(zhǎng)的距離，并經(jīng)過(guò)多個(gè)轉(zhuǎn)換點(diǎn)才能到達(dá)光鏈路。這會(huì)導(dǎo)致電信號(hào)衰減，并且需要大量的功率和復(fù)雜的電路（例如串行器/解串器）來(lái)驅(qū)動(dòng)和恢復(fù)信號(hào)。為了改善這種情況，我們需要縮短電信號(hào)的傳輸距離。這就引出了“共封裝光器件”的概念，即將原本位于可插拔收發(fā)器中的光引擎與主機(jī)芯片共封裝。由于光引擎距離擴(kuò)展處理器（XPU）或交換機(jī)專用集成電路（ASIC）更近，因此可以將電氣走線長(zhǎng)度從幾十厘米縮短到幾十毫米。這顯著降低了功耗，提高了帶寬密度，并通過(guò)最大限度地減少電氣互連距離和緩解信號(hào)完整性挑戰(zhàn)來(lái)降低延遲。

下圖展示了一種CPO（芯片封裝優(yōu)化）方案，其中光引擎與計(jì)算芯片或交換芯片封裝在同一芯片上。光引擎最初將位于基板上，未來(lái)將放置在中介層上。

如今，如下圖所示，前置可插拔光模塊解決方案已十分普及。該圖的主要意義在于說(shuō)明，電信號(hào)需要沿著銅線或架空電纜傳輸一段較長(zhǎng)的距離（15-30厘米）才能到達(dá)收發(fā)器中的光引擎。正如上文所述，這也意味著需要使用長(zhǎng)距離（LR）SerDes 來(lái)驅(qū)動(dòng)可插拔模塊。

此外，還有一些介于 CPO 和傳統(tǒng)前插拔光學(xué)器件之間的中間實(shí)現(xiàn)方式，例如近封裝光學(xué)器件 (NPO) 和板載光學(xué)器件 (OBO)。

近年來(lái)，非封裝光引擎（NPO）已成為實(shí)現(xiàn)復(fù)合封裝光引擎（CPO）的中間步驟。NPO有多種定義。NPO指的是光引擎并非直接封裝在ASIC基板上，而是封裝在另一個(gè)基板上。光引擎仍然保持可插拔狀態(tài)，可以從基板上拆卸下來(lái)。電信號(hào)仍然會(huì)從XPU封裝上的SerDes通過(guò)銅通道傳輸?shù)焦庖妗?/p>

還有一種方案是板載光模塊（OBO），它將光引擎集成到機(jī)箱內(nèi)的系統(tǒng)PCB上，使其更靠近主機(jī)ASIC。然而，OBO繼承了CPO的諸多挑戰(zhàn)，但在帶寬密度和功耗方面卻優(yōu)勢(shì)不明顯。我們認(rèn)為OBO是“兩頭不討好”的方案，因?yàn)樗劝薈PO的復(fù)雜性，又繼承了前插拔式光模塊的一些局限性。

共封裝銅

CPO 的另一種替代方案是“共封裝銅”（CPC：Co-packaged Copper）。CPC 使用直接從基板上的連接器引出的銅纜。CPC 使用的電纜與飛線電纜相同，用途也相同：繞過(guò) PCB 走線。CPC 在飛線電纜的基礎(chǔ)上更進(jìn)一步，其插座直接位于封裝基板上。所使用的電纜是絕緣良好的雙軸電纜（Twinax 電纜），可有效降低串?dāng)_，從而顯著降低插入損耗，遠(yuǎn)低于傳統(tǒng)的電氣走線。雖然該方案仍然使用銅，但它在信號(hào)完整性方面具有關(guān)鍵優(yōu)勢(shì)。CPC 可以為部署 448G SerDes 提供切實(shí)可行的途徑，從而進(jìn)一步擴(kuò)展封裝外互連技術(shù)。

CPC 的挑戰(zhàn)在于封裝基板的復(fù)雜性增加。基板必須將電源和信號(hào)路由到數(shù)千根這樣的電纜。盡管面臨這一挑戰(zhàn)，CPC 仍然比 CPO 簡(jiǎn)單得多，后者仍需克服供應(yīng)鏈多個(gè)環(huán)節(jié)的諸多制造難題。我們認(rèn)為 CPC 對(duì)于某些短距離應(yīng)用（例如機(jī)架內(nèi)擴(kuò)展連接）尤其具有吸引力，我們將在下文探討這一點(diǎn)。通過(guò)繞過(guò)損耗較大的 CCL 走線，CPC 有望成為實(shí)現(xiàn) 448G 線路速度的技術(shù)。此外，由于這種帶寬的信號(hào)在 PCB 中傳輸時(shí)會(huì)遭受不可接受的衰減，因此 CPC 也被廣泛用于實(shí)現(xiàn) 448G 傳輸。

過(guò)去阻礙 CPO 市場(chǎng)準(zhǔn)備的障礙：為什么現(xiàn)在才出現(xiàn)？

盡管CPO技術(shù)具有顯著優(yōu)勢(shì)，但由于諸多挑戰(zhàn)導(dǎo)致成本居高不下，其在實(shí)際應(yīng)用中仍然非常有限。這些挑戰(zhàn)包括：封裝的復(fù)雜性（其成本甚至高于原始設(shè)備制造商本身）、制造工藝的復(fù)雜性、可靠性和良率問(wèn)題，以及由緊密集成的光學(xué)和電子元件引起的散熱管理問(wèn)題。另一個(gè)障礙是缺乏行業(yè)標(biāo)準(zhǔn)。此外，客戶對(duì)可維護(hù)性的擔(dān)憂也阻礙了從傳統(tǒng)可插拔光學(xué)器件向CPO解決方案的過(guò)渡。

客戶的另一個(gè)主要擔(dān)憂是，采用CPO模式可能會(huì)讓他們失去控制成本的能力。相比于少數(shù)交換機(jī)廠商，向數(shù)量較多的收發(fā)器廠商壓榨成本要容易得多。

與此同時(shí)，可插拔光器件（CPO 將取代的現(xiàn)有技術(shù)）不斷改進(jìn)，并且仍然能夠?yàn)閹缀跛袘?yīng)用提供足夠好的性能，同時(shí)大大減少了最終用戶的焦慮。

在第二部分的剩余部分，我們將深入探討采用CPO的驅(qū)動(dòng)因素。

首先，我們將解釋SerDes的擴(kuò)展性已達(dá)到瓶頸，因此需要采用其他接口類型，例如Wide I/O與CPO相結(jié)合。然后，我們將討論制造方面的考量以及市場(chǎng)推廣策略。我們將討論CPO的關(guān)鍵組件，例如光引擎、光纖耦合器、外部激光源和調(diào)制器。最后，我們將介紹CPO帶寬擴(kuò)展的路線圖。

超越基于DSP的收發(fā)器：從LPO到CPO

數(shù)字信號(hào)處理收發(fā)器負(fù)責(zé)光信號(hào)的發(fā)射和接收，其內(nèi)部包含一個(gè)“光引擎”（OE），用于進(jìn)行電光轉(zhuǎn)換。光引擎由驅(qū)動(dòng)器（DRV）和調(diào)制器（MOD）組成，用于發(fā)射光信號(hào)；同時(shí)還包含跨阻放大器（TIA）和光電探測(cè)器（PD），用于接收光信號(hào)。

另一個(gè)重要組件是光DSP芯片，它有時(shí)會(huì)將驅(qū)動(dòng)器和/或TIA集成在一個(gè)封裝中。從主機(jī)交換或處理芯片發(fā)出的高頻電信號(hào)需要沿著損耗較大的銅線傳輸相對(duì)較長(zhǎng)的距離，才能到達(dá)服務(wù)器機(jī)箱前端的收發(fā)器。DSP負(fù)責(zé)對(duì)該信號(hào)進(jìn)行重定時(shí)和重新調(diào)整。它執(zhí)行糾錯(cuò)和時(shí)鐘/數(shù)據(jù)恢復(fù)，以補(bǔ)償信號(hào)從交換機(jī)或ASIC芯片通過(guò)基板或其他傳輸介質(zhì)傳輸過(guò)程中產(chǎn)生的電信號(hào)劣化和衰減。對(duì)于調(diào)制，以PAM4調(diào)制（四級(jí)脈沖幅度調(diào)制）為例，DSP將二進(jìn)制信號(hào)映射到四個(gè)不同的幅度級(jí)別，以增加每個(gè)信號(hào)的比特?cái)?shù)，從而實(shí)現(xiàn)更高的比特率和更大的帶寬。

DSP芯片是收發(fā)器中最耗電、最昂貴的組件之一，甚至可以說(shuō)是最耗電、最昂貴的組件。對(duì)于800G SR8收發(fā)器而言，DSP芯片的功耗幾乎占模塊總功耗的50%，這也是為什么人們?nèi)绱酥匾暼绾稳コ鼶SP芯片的原因。

構(gòu)建一個(gè)包含 18k GB300 服務(wù)器的集群，采用雙層 InfiniBand 網(wǎng)絡(luò)，需要 18,432 個(gè) 800G DR4 收發(fā)器和 27,648 個(gè) 1.6T DR8 收發(fā)器。使用 DSP 帶來(lái)的額外成本和功耗會(huì)顯著增加總擁有成本。假設(shè)每個(gè) 800G DSP 的功耗為 6-7W，每個(gè) 1.6T DSP 的功耗為 12-14W，那么僅整個(gè)集群的后端網(wǎng)絡(luò)就需要 480kW 的 DSP 功耗，相當(dāng)于每個(gè)服務(wù)器機(jī)架約 1.8kW。如果從知名品牌供應(yīng)商采購(gòu)，收發(fā)器的成本可能占集群總擁有成本的近 10%。因此，DSP 的功耗占總功耗的 50%，物料清單成本 (BOM) 的 20-30%，一些人甚至將其視為降低成本和提高能效的頭號(hào)敵人。

反對(duì)DSP的運(yùn)動(dòng)

數(shù)字信號(hào)處理器（DSP）的高成本和高功耗促使業(yè)界尋找能夠繞過(guò)DSP的技術(shù)。第一波攻擊DSP的浪潮是線性可插拔光（LPO）——它試圖完全移除DSP，讓交換機(jī)中的SerDes直接驅(qū)動(dòng)收發(fā)器中的TX和RX光元件。然而，正如DSP專家Loi Nguyen在2023年接受我們采訪時(shí)準(zhǔn)確預(yù)測(cè)的那樣，LPO尚未普及。

CPO 將 LPO 的概念提升到了一個(gè)新的層次，它將光引擎與計(jì)算或交換芯片封裝在同一芯片上。CPO 的一個(gè)關(guān)鍵優(yōu)勢(shì)在于，由于主機(jī)和光引擎之間的距離非常短，因此不再需要收發(fā)器中的 DSP。此外，CPO 還超越了 LPO，因?yàn)樗鼰o(wú)需使用功耗和面積都較大的長(zhǎng)距離 SerDes，而是采用短距離 SerDes，甚至在寬 I/O 接口的情況下采用時(shí)鐘轉(zhuǎn)發(fā)的寬 D2D SerDes，從而顯著提高了芯片的海岸線密度。

人們常說(shuō)，CPO技術(shù)其實(shí)近在咫尺，但過(guò)去二十年來(lái)它為何始終未能普及？為什么業(yè)界更傾向于使用可插拔DSP收發(fā)器？

可插拔收發(fā)器的一大優(yōu)勢(shì)在于其高度互操作性。憑借 OSFP 和 QSFP-DD 等標(biāo)準(zhǔn)封裝形式以及對(duì) OIF 標(biāo)準(zhǔn)的遵循，客戶通常可以獨(dú)立于交換機(jī)和服務(wù)器供應(yīng)商選擇收發(fā)器供應(yīng)商，從而享受采購(gòu)靈活性和更強(qiáng)的議價(jià)能力。

另一個(gè)巨大的優(yōu)勢(shì)是現(xiàn)場(chǎng)可維護(hù)性。收發(fā)器的安裝和更換非常簡(jiǎn)單，只需由遠(yuǎn)程人員將其從交換機(jī)或服務(wù)器機(jī)箱上拔下即可。相比之下，對(duì)于CPO（光纖光模塊），光引擎的任何故障都可能導(dǎo)致整個(gè)交換機(jī)無(wú)法使用。即使是可維護(hù)的故障，排查和修復(fù)也可能非常復(fù)雜。通常，激光器是最常見(jiàn)的故障點(diǎn)，目前大多數(shù)CPO方案都采用可插拔的外部激光器以提高可維護(hù)性和可更換性，但人們?nèi)匀粨?dān)心其他不可插拔的CPO組件會(huì)發(fā)生故障。

為什么需要CPO？I/O挑戰(zhàn)、帶寬密度和瓶頸

除了擺脫耗電且成本高昂的 DSP 和最大限度地減少或消除 LR SerDes 的使用之外，采用 CPO 的另一個(gè)巨大好處是相對(duì)于能耗而言更高的互連帶寬密度。

帶寬密度衡量單位面積或信道內(nèi)傳輸?shù)臄?shù)據(jù)量，反映了有限空間用于高速數(shù)據(jù)傳輸?shù)男省Ｄ芰啃柿炕藗鬏攩挝粩?shù)據(jù)所需的能量。

因此，互連帶寬密度與能耗之比是衡量給定互連客觀質(zhì)量的一個(gè)非常重要的指標(biāo)（FoM）。當(dāng)然，最優(yōu)互連方案還應(yīng)滿足距離和成本參數(shù)的要求。

觀察下圖，可以發(fā)現(xiàn)一個(gè)明顯的趨勢(shì)：對(duì)于電鏈路而言，隨著距離的增加，該性能指標(biāo)呈指數(shù)級(jí)下降。此外，從純電接口過(guò)渡到需要光電轉(zhuǎn)換的接口，效率會(huì)大幅下降——甚至可能下降一個(gè)數(shù)量級(jí)。這種下降是由于需要能量來(lái)驅(qū)動(dòng)信號(hào)從芯片傳輸?shù)角懊姘宓氖瞻l(fā)器。而為光DSP供電則需要更多能量。基于CPO的通信的性能指標(biāo)曲線明顯高于可插拔接口。如下圖所示，在相同的距離范圍內(nèi)，CPO在單位面積和單位能耗下具有更高的帶寬密度，因此是一種客觀上更優(yōu)的互連方式。

這張圖表也印證了“能用銅纜就用銅纜，必須用光纖才用”這句格言。如果條件允許，短距離銅纜通信性能更優(yōu)。英偉達(dá)在其機(jī)架級(jí)GPU架構(gòu)中秉承了這一理念，其設(shè)計(jì)目的就是為了突破機(jī)架內(nèi)部密度的極限，最大限度地提高可通過(guò)銅纜聯(lián)網(wǎng)的GPU數(shù)量。這正是GB200 NVL72所采用的縱向擴(kuò)展網(wǎng)絡(luò)架構(gòu)背后的邏輯，而英偉達(dá)在其Kyber機(jī)架中更進(jìn)一步地實(shí)踐了這一理念。然而，CPO技術(shù)的成熟只是時(shí)間問(wèn)題，它終將使縱向擴(kuò)展能夠充分利用其在性能優(yōu)化曲線中的優(yōu)勢(shì)，并從總體擁有成本（TCO）的角度帶來(lái)更高的性價(jià)比。

輸入/輸出 (I/O) 障礙和阻礙

雖然晶體管密度和計(jì)算能力（以 FLOPs 表示）得到了很好的擴(kuò)展，但 I/O 的擴(kuò)展速度卻慢得多，這造成了整體系統(tǒng)性能的瓶頸：由于要傳輸?shù)狡獾臄?shù)據(jù)需要通過(guò)有機(jī)封裝基板上有限數(shù)量的 I/O，因此可用于片外 I/O 的可用帶寬是有限的。

此外，提高每個(gè)I/O的信號(hào)傳輸速度變得越來(lái)越困難且耗電，進(jìn)一步限制了數(shù)據(jù)傳輸。這正是互連帶寬在過(guò)去幾十年中相對(duì)于其他計(jì)算趨勢(shì)而言擴(kuò)展性如此糟糕的一個(gè)關(guān)鍵原因。

由于單個(gè)倒裝芯片BGA封裝中凸點(diǎn)數(shù)量的限制，高性能計(jì)算（HPC）應(yīng)用的封裝外I/O密度已達(dá)到瓶頸。這制約了逃逸帶寬的擴(kuò)展。

電氣串行器/解串器擴(kuò)展瓶頸

在I/O數(shù)量有限的情況下，提高帶寬的關(guān)鍵在于提升每個(gè)I/O信號(hào)的傳輸頻率。目前，英偉達(dá)和博通在SerDes IP領(lǐng)域處于領(lǐng)先地位。英偉達(dá)在其Blackwell芯片中采用了224G SerDes，這正是其高速NVLink芯片的核心所在。同樣，博通也從2024年底開(kāi)始在其光DSP中提供224G SerDes的樣品。這兩家在AI浮點(diǎn)運(yùn)算能力方面領(lǐng)先的公司同時(shí)也是高速SerDes IP領(lǐng)域的領(lǐng)軍者，這絕非巧合。這進(jìn)一步印證了AI性能與吞吐量之間的根本聯(lián)系：最大化數(shù)據(jù)傳輸效率與提供強(qiáng)大的計(jì)算能力同樣至關(guān)重要。

然而，在理想傳輸距離下提供更高的線路速度正變得越來(lái)越具有挑戰(zhàn)性。如下圖所示，隨著頻率的增加，插入損耗也會(huì)增加。我們可以看到，在更高的SerDes信號(hào)傳輸速度下，損耗會(huì)增加，尤其是在信號(hào)路徑延長(zhǎng)的情況下。

SerDes 的擴(kuò)展性已接近瓶頸。在不增加信號(hào)恢復(fù)組件的情況下，更高的傳輸速率只能在極短的距離內(nèi)維持——而這些組件反過(guò)來(lái)又會(huì)增加復(fù)雜性、成本、延遲和功耗。因此，實(shí)現(xiàn) 224G SerDes 一直困難重重。

展望 448G SerDes，能否突破幾厘米的傳輸距離仍存在諸多不確定性。英偉達(dá)在 Rubin 芯片中采用雙向 SerDes 技術(shù)，實(shí)現(xiàn)了每個(gè)電通道 448G 的連接。要實(shí)現(xiàn)真正的 448G 單向 SerDes，還需要進(jìn)一步的研發(fā)。我們可能需要采用更高階的調(diào)制方式，例如 PAM6 或 PAM8，而不是自 56G SerDes 時(shí)代以來(lái)一直沿用的 PAM4 調(diào)制。使用每個(gè)信號(hào)編碼 2 位的 PAM4 來(lái)實(shí)現(xiàn) 448G 傳輸速率，需要 244Gbaud 的波特率，這很可能由于過(guò)高的功耗和插入損耗而難以實(shí)現(xiàn)。SerDes 擴(kuò)展瓶頸成為 NVLink 擴(kuò)展的障礙

在 NVLink 協(xié)議中，NVLink 5.0 的帶寬相比 NVLink 1.0 提升了 11 倍以上。然而，這種增長(zhǎng)并非源于通道數(shù)量的顯著增加，通道數(shù)量?jī)H從 NVLink 1.0 的 32 條略微增加到 NVLink 5.0 的 36 條。帶寬擴(kuò)展的關(guān)鍵驅(qū)動(dòng)因素是 SerDes 通道速度的 10 倍提升，從 20G 提升至 200G。然而，在 NVLink 6.0 中，Nvidia 預(yù)計(jì)將繼續(xù)使用 200G SerDes，這意味著它必須將通道數(shù)量翻倍——Nvidia 巧妙地利用雙向 SerDes 實(shí)現(xiàn)了這一點(diǎn)，在物理銅線數(shù)量不變的情況下，有效地將通道數(shù)量翻倍。除此之外，無(wú)論是提升 SerDes 速度，還是克服有限的線路容量來(lái)容納更多通道，都將變得越來(lái)越困難，最終總帶寬將無(wú)法滿足需求。

對(duì)于那些以吞吐量作為競(jìng)爭(zhēng)優(yōu)勢(shì)的尖端企業(yè)而言，擴(kuò)展逃逸帶寬至關(guān)重要。對(duì)于擁有NVLink擴(kuò)展架構(gòu)的英偉達(dá)來(lái)說(shuō)，這一障礙可能會(huì)讓AMD等競(jìng)爭(zhēng)對(duì)手以及超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商更容易迎頭趕上。

解決這一難題的方案——或者說(shuō)，必要的折衷方案——是盡可能縮短電氣輸入/輸出距離，并將數(shù)據(jù)傳輸卸載到盡可能靠近主機(jī)ASIC的光鏈路上，以實(shí)現(xiàn)更高的帶寬。這就是為什么CPO被認(rèn)為是互連領(lǐng)域的“圣杯”。CPO允許在ASIC封裝上進(jìn)行光通信，無(wú)論是通過(guò)基板還是中介層。電信號(hào)只需在封裝基板上傳輸幾毫米，理想情況下，通過(guò)更高質(zhì)量的中介層傳輸更短的距離，而無(wú)需像傳統(tǒng)方式那樣通過(guò)損耗較大的覆銅層壓板（CCL）傳輸數(shù)十厘米。

SerDes可以針對(duì)短距離傳輸進(jìn)行優(yōu)化，所需的電路比同等長(zhǎng)距離的SerDes少得多。這不僅簡(jiǎn)化了設(shè)計(jì)，還降低了功耗和芯片面積。這種簡(jiǎn)化使得高速SerDes更容易實(shí)現(xiàn)，并擴(kuò)展了SerDes的擴(kuò)展路線圖。然而，我們?nèi)匀皇艿絺鹘y(tǒng)帶寬模型的限制，即帶寬密度仍然與SerDes的速度成正比。

為了實(shí)現(xiàn)更高的帶寬密度，在極短距離下，寬 I/O PHY 是更佳選擇，其單位功耗帶寬密度優(yōu)于 SerDes 接口。寬 I/O 也意味著需要更復(fù)雜的封裝。然而，對(duì)于 CPO 而言，這無(wú)關(guān)緊要：其封裝技術(shù)已經(jīng)非常先進(jìn)，因此集成寬 I/O PHY 幾乎不會(huì)增加額外的封裝復(fù)雜性。

寬 I/O 與 SerDes

一旦不再需要將電信號(hào)傳輸?shù)较鄬?duì)較遠(yuǎn)的距離，我們就可以完全擺脫串行接口，轉(zhuǎn)而使用寬接口，從而在短距離內(nèi)提供更好的海岸線密度。

UCIe接口就是一個(gè)例子。UCIe-A可提供高達(dá)~10 Tbit/s/mm的海岸線密度，專為高級(jí)封裝（例如，通過(guò)距離小于2mm的中介層連接的芯片組）而設(shè)計(jì)。在光罩尺寸芯片的長(zhǎng)邊上，這相當(dāng)于高達(dá)330 Tbit/s（41TByte/s）的封裝外帶寬。這意味著從芯片兩側(cè)邊緣可獲得660 Tbit/s的雙向帶寬。相比之下，Blackwell接口的封裝外帶寬僅為23.6 Tbit/s，相當(dāng)于約0.4 Tbit/s/mm的海岸線密度，兩者差距巨大。

當(dāng)然，這并非完全等同的比較，因?yàn)檫@些封裝外的PHY芯片需要用于遠(yuǎn)距離傳輸。恰恰相反，這正是本文要說(shuō)明的重點(diǎn)：采用CPO技術(shù)后，傳輸距離不再是問(wèn)題，因?yàn)樾盘?hào)無(wú)需通過(guò)電信號(hào)進(jìn)行遠(yuǎn)距離傳輸。在10 Tbit/s/mm的帶寬密度下，瓶頸不再是電接口，而是鏈路的其他部分，即另一端光纖能夠傳輸多少帶寬。

達(dá)到這種限制條件距離目前的實(shí)際情況還很遙遠(yuǎn)，而且OE必須與主機(jī)共享一個(gè)中介層。將CPO集成到中介層本身，其研發(fā)進(jìn)度甚至比將OE可靠地集成到基板上還要慢。當(dāng)然，基板上的PHY性能會(huì)更差，UCIe-S的海岸線密度約為1.8Tbit/s/mm。但這仍然比我們認(rèn)為224G SerDes的約0.4Tbit/s/mm的性能有了顯著提升。

然而，盡管寬接口具有諸多優(yōu)勢(shì)，博通和英偉達(dá)仍然堅(jiān)持在其產(chǎn)品路線圖中推進(jìn)電控SerDes技術(shù)。主要原因是他們相信SerDes仍具有可擴(kuò)展性，并且需要針對(duì)銅纜進(jìn)行設(shè)計(jì)，尤其是在光芯片普及速度緩慢的情況下。此外，混合封裝的銅纜和光芯片解決方案似乎更有可能長(zhǎng)期存在，這就要求他們同時(shí)針對(duì)這兩種封裝進(jìn)行優(yōu)化。采用這種方法是為了避免為不同的解決方案進(jìn)行多次芯片流片。

鏈路彈性（Link Resiliency）

鏈路彈性和可靠性是CPO技術(shù)的其他重要驅(qū)動(dòng)因素。在大型AI集群中，鏈路中斷會(huì)顯著影響集群的整體可用性，即使鏈路可用性和穩(wěn)定性方面有微小的提升，也能為基礎(chǔ)設(shè)施投資帶來(lái)巨大的回報(bào)。

如今，在一個(gè)擁有近百萬(wàn)條鏈路且采用可插拔模塊的大型人工智能集群中，每天可能會(huì)發(fā)生數(shù)十次鏈路中斷。其中一些是“硬”故障，由組件故障或硬件質(zhì)量問(wèn)題導(dǎo)致；而許多則是“軟”故障，其根本原因多種多樣，源于可插拔解決方案固有的復(fù)雜性和可變性。故障模式多種多樣，包括但不限于信號(hào)完整性問(wèn)題和波動(dòng)、連接器和引線鍵合質(zhì)量、組件和引腳污染、噪聲注入以及其他瞬態(tài)效應(yīng)。這些故障與組件故障的相關(guān)性很低。因鏈路故障而退回的光模塊中，80%經(jīng)檢測(cè)“未發(fā)現(xiàn)故障”。

CPO 通過(guò)以下方式顯著降低了大規(guī)模 AI 網(wǎng)絡(luò)中高速信號(hào)路徑固有的復(fù)雜性和可變性：

1、顯著減少光接口中的組件數(shù)量。光子級(jí)和芯片/封裝級(jí)的高集成度降低了關(guān)鍵高速組件的復(fù)雜性，并提高了系統(tǒng)級(jí)的可靠性和良率。電光接口的數(shù)量也減少了，從而最大限度地降低了每個(gè)接口處的功率損耗。

2、顯著改善主機(jī)ASIC（例如交換機(jī)）與光引擎之間主機(jī)電氣接口的信號(hào)完整性。通過(guò)將光引擎封裝在具有非常明確且確定的設(shè)計(jì)規(guī)則和制造公差的第一級(jí)封裝上，顯著降低了插入損耗、反射和其他非線性損傷。

3、降低交換機(jī)高速信號(hào)路徑中端口間的差異，可以減少DSP信號(hào)處理、主機(jī)和模塊均衡、主機(jī)和模塊固件以及鏈路優(yōu)化算法的開(kāi)銷和復(fù)雜性。所有可插拔模塊解決方案以及主機(jī)SerDes都必須設(shè)計(jì)成能夠適應(yīng)這種端口間性能的差異，否則會(huì)導(dǎo)致復(fù)雜性增加和故障點(diǎn)增多。

消除光鏈路配置中的“人為”因素。CPO交換機(jī)或光引擎在出廠前已完成組裝和測(cè)試，確保“已知良好”，無(wú)需進(jìn)行大量的現(xiàn)場(chǎng)操作來(lái)配置交換機(jī)中的光模塊，從而避免了安裝差異、損壞、污染以及系統(tǒng)和光模塊之間的兼容性問(wèn)題。

CPO上市及部署挑戰(zhàn)

CPO光學(xué)引擎制造考量及市場(chǎng)推廣

CPO 的產(chǎn)量尚未達(dá)到大規(guī)模應(yīng)用所需的水平。博通是唯一一家交付搭載 CPO 的生產(chǎn)系統(tǒng)的廠商，其產(chǎn)品包括 Bailly 和 Humboldt 交換機(jī)，但現(xiàn)在英偉達(dá)也加入了競(jìng)爭(zhēng)。不過(guò)，這些產(chǎn)品的出貨量仍然非常低。CPO 引入了許多新的制造工藝，給生產(chǎn)制造帶來(lái)了巨大的挑戰(zhàn)。可以理解的是，考慮到供應(yīng)鏈的不成熟以及可靠性數(shù)據(jù)的缺乏，客戶也不愿貿(mào)然采用這項(xiàng)技術(shù)。

要使CPO獲得市場(chǎng)認(rèn)可，行業(yè)領(lǐng)導(dǎo)者必須投資于這些產(chǎn)品的交付，并推動(dòng)供應(yīng)鏈開(kāi)發(fā)可擴(kuò)展的制造和測(cè)試流程。英偉達(dá)率先邁出了這一步，他們的目標(biāo)是讓供應(yīng)鏈做好準(zhǔn)備，識(shí)別并解決問(wèn)題，并幫助數(shù)據(jù)中心運(yùn)營(yíng)商為我們認(rèn)為的“殺手級(jí)”應(yīng)用——縱向擴(kuò)展網(wǎng)絡(luò)——做好準(zhǔn)備。關(guān)于CPO，有幾個(gè)關(guān)鍵組成部分和注意事項(xiàng)需要關(guān)注，所有這些都會(huì)對(duì)性能和可制造性產(chǎn)生影響。這些組成部分和注意事項(xiàng)包括：

1、主機(jī)和光引擎封裝（Host and Optical Engine packaging）

2、光纖和光纖耦合（Fibers and Fiber coupling）

3、激光源和波長(zhǎng)復(fù)用（Laser Sources and Wavelength Multiplexing）

4、調(diào)制器類型（Modulator Type）

一、主機(jī)和光引擎封裝

顧名思義，“共封裝光學(xué)器件”從根本上來(lái)說(shuō)是一個(gè)封裝和組裝方面的挑戰(zhàn)。

光引擎包含光學(xué)元件和電子元件。光電探測(cè)器和調(diào)制器是光學(xué)元件，包含在光子集成電路（PIC）中。驅(qū)動(dòng)器和跨阻放大器是電子電路，包含在電子集成電路（EIC）中。光引擎需要將PIC和EIC集成在一起才能正常工作。目前存在多種封裝方法來(lái)實(shí)現(xiàn)PIC-EIC的集成。

光引擎可以通過(guò)在同一片硅晶圓上制造光子集成電路 (PIC) 和電子集成電路 (EIC) 來(lái)實(shí)現(xiàn)單片集成。就寄生參數(shù)、延遲和功耗而言，單片集成是最理想的方案。

Ayar Labs 的第二代 TeraPHY 芯片就采用了這種方案（盡管他們的下一代芯片將轉(zhuǎn)向臺(tái)積電 COUPE 工藝）。GlobalFoundries、Tower 和 Advanced Micro Foundry 等代工廠可以提供單片 CMOS 和 SiPho 工藝。然而，由于光子工藝無(wú)法像傳統(tǒng) CMOS 工藝那樣擴(kuò)展，單片工藝的幾何尺寸通常止步于 35nm 左右。這限制了 EIC 的性能，尤其是在 CPO 系統(tǒng)中，由于需要更高的通道速度，單片集成就顯得尤為重要。

盡管單片集成本身具有簡(jiǎn)潔性和優(yōu)勢(shì)，但這也使得它難以擴(kuò)展。因此，Ayar Labs 正在將其產(chǎn)品路線圖轉(zhuǎn)向異構(gòu)集成光引擎，以實(shí)現(xiàn)進(jìn)一步的擴(kuò)展。

異構(gòu)集成正逐漸成為主流方法，該方法包括使用硅光電（SiPho）工藝制造光子集成電路（PIC），并通過(guò)先進(jìn)封裝技術(shù)將其與CMOS晶圓上的電子集成電路（EIC）集成。目前存在多種封裝解決方案，更先進(jìn)的封裝方案可提供更高的性能。其中，3D集成可提供最佳的帶寬和能效。EIC與PIC通信的一大難題是寄生效應(yīng)，它會(huì)降低性能。大幅縮短走線長(zhǎng)度可以顯著降低寄生效應(yīng)，從而提高耦合效率：從帶寬和功耗的角度來(lái)看，3D集成是實(shí)現(xiàn)CPO性能目標(biāo)的唯一途徑。

臺(tái)積電 COUPE 正在成為首選的集成方案

臺(tái)積電正迅速成為下一代光引擎（OE）的首選代工合作伙伴，無(wú)論是大型無(wú)晶圓廠廠商還是初創(chuàng)公司都對(duì)其青睞有加。首批采用CPO（緊湊型通用光子引擎）終端的大批量產(chǎn)品以“COUPE”之名推出，COUPE是“Compact Universal Photonic Engine”（緊湊型通用光子引擎）的縮寫(xiě)。這包括EIC（電子集成電路）和PIC（光子集成電路）的制造，以及在臺(tái)積電COUPE解決方案下的異構(gòu)集成。

英偉達(dá)在GTC 2025大會(huì)上自豪地展示了其COUPE光引擎，這些產(chǎn)品將成為首批交付的COUPE產(chǎn)品。博通也已將COUPE納入其未來(lái)產(chǎn)品路線圖，盡管其現(xiàn)有幾代光引擎由其他供應(yīng)鏈合作伙伴提供。如前所述，此前依賴Global Foundries的Fotonix平臺(tái)制造單片光引擎的Ayar Labs，現(xiàn)在也已將COUPE納入其產(chǎn)品路線圖。

與在傳統(tǒng)CMOS邏輯領(lǐng)域的統(tǒng)治地位不同，臺(tái)積電此前在硅光子學(xué)領(lǐng)域的份額有限，GlobalFoundries和Tower Semi是其首選的代工合作伙伴。然而，近年來(lái)，臺(tái)積電在光子學(xué)方面的能力正在迅速追趕。臺(tái)積電在用于EIC組件的尖端CMOS邏輯方面擁有無(wú)可爭(zhēng)議的優(yōu)勢(shì)，以及領(lǐng)先的封裝能力——臺(tái)積電是唯一一家成功實(shí)現(xiàn)合理規(guī)模的芯片-晶圓混合鍵合技術(shù)的代工廠，已批量交付了多款A(yù)MD混合鍵合芯片。

混合鍵合是一種性能更高的PIC和EIC鍵合方法，但成本也顯著更高。英特爾正在努力開(kāi)發(fā)類似的技術(shù)，但在開(kāi)創(chuàng)這項(xiàng)技術(shù)方面面臨著諸多挑戰(zhàn)。

總體而言，盡管臺(tái)積電此前在獨(dú)立硅光電器件（SiPho）領(lǐng)域?qū)嵙^弱，但如今已成為封裝封裝（CPO）領(lǐng)域的關(guān)鍵參與者。與其他主要廠商一樣，臺(tái)積電的目標(biāo)是盡可能多地占據(jù)價(jià)值鏈。通過(guò)采用臺(tái)積電的COUPE解決方案，客戶實(shí)際上承諾使用臺(tái)積電制造的光子集成電路（PIC），因?yàn)榕_(tái)積電不封裝其他代工廠的硅光電晶圓。許多專注于封裝封裝的公司已果斷地將臺(tái)積電的COUPE方案納入其未來(lái)幾年的市場(chǎng)推廣解決方案中。

芯片制造：臺(tái)積電提供全面的芯片制造解決方案。EIC采用N7工藝制造，集成了高速光調(diào)制器驅(qū)動(dòng)器和TIA。它還包含加熱器控制器，以實(shí)現(xiàn)波長(zhǎng)穩(wěn)定等功能。而PIC則采用SOI N65工藝制造，臺(tái)積電為光子電路設(shè)計(jì)、光子布局設(shè)計(jì)和驗(yàn)證，以及光子電路的仿真和建模（涵蓋射頻、噪聲和多波長(zhǎng)等方面）提供廣泛的支持。

EIC 和 PIC 采用 TSMC-SoIC 鍵合工藝進(jìn)行鍵合。如前所述，較長(zhǎng)的走線長(zhǎng)度意味著更多的寄生效應(yīng)，從而降低性能。TSMC 的 SoIC 是一種無(wú)凸點(diǎn)接口，可在不采用單片集成的情況下提供盡可能短的走線長(zhǎng)度，因此是實(shí)現(xiàn) EIC 和 PIC 異構(gòu)集成的最佳性能方案。如下所示，在等功耗下，基于 SoIC 的 OE 的帶寬密度是采用凸點(diǎn)集成的 OE 的 23 倍以上。

COUPE 支持整個(gè)光學(xué)引擎設(shè)計(jì)和集成流程。在光學(xué) I/O 方面，它支持微透鏡設(shè)計(jì)，可在晶圓或芯片級(jí)集成微透鏡，并支持涵蓋反射鏡、微透鏡、光柵耦合器 (GC) 和反射器等光學(xué) I/O 路徑的仿真。在 3D 堆疊方面，它支持 3D 布局規(guī)劃、SoIC-X/TDV/C4 凸點(diǎn)布局實(shí)現(xiàn)、接口物理檢查以及高頻通道模型提取和仿真。為確保無(wú)縫開(kāi)發(fā)，公司提供完整的 COUPE 設(shè)計(jì)和驗(yàn)證 PDK 和 EDA 工作流程，使設(shè)計(jì)人員能夠高效地實(shí)現(xiàn)其技術(shù)。

耦合：稍后我們將詳細(xì)介紹，主要有兩種耦合方式——光柵耦合 (GCgrating coupling ) 和邊緣耦合 (ECedge coupling)。COUPE 在無(wú)凸點(diǎn) PIC 堆疊結(jié)構(gòu)上使用相同的 EIC 來(lái)實(shí)現(xiàn) GC 和 EC。然而，COUPE-GC 結(jié)構(gòu)將采用硅透鏡 (Si 透鏡) 和金屬反射器 (MR)，而 COUPE-EC 結(jié)構(gòu)則具有獨(dú)特的 EC 端面（用于將 EC 端接至光纖）。對(duì)于 GC，Si 透鏡設(shè)計(jì)在 770μm 厚的硅載體 (Si 載體) 上，MR 位于 GC 正下方，并帶有優(yōu)化光學(xué)性能所需的介質(zhì)層。然后，Si 載體通過(guò)晶圓級(jí) (WoW) 鍵合到芯片級(jí) (CoW) 晶圓上。

光纖連接單元 (FAUFiber Attach Unit) ：FAU 的設(shè)計(jì)需要與 COUPE 的光路相匹配。FAU 的作用是以低插入損耗將來(lái)自硅透鏡的光耦合到光纖中。隨著 I/O 數(shù)量的增加，制造難度也會(huì)增加，但如果業(yè)界能夠遵循特定標(biāo)準(zhǔn)，則可以縮短開(kāi)發(fā)時(shí)間并降低成本。總而言之，每個(gè)組件都需要優(yōu)化設(shè)計(jì)才能實(shí)現(xiàn)最佳光學(xué)性能。

產(chǎn)品路線圖：COUPE 的首批迭代產(chǎn)品將是基板上的光引擎，最終目標(biāo)是將光引擎放置在中介層上。中介層可提供更高的 I/O 密度，從而實(shí)現(xiàn)光引擎與 ASIC PHY 之間更大的帶寬，單個(gè)光引擎的帶寬最高可達(dá) 12.8Tbit/s，相當(dāng)于約 4Tbit/s/mm。集成中介層的挑戰(zhàn)在于如何縮小中介層的尺寸（中介層比封裝基板更昂貴）以容納光引擎。

這就是為什么博通盡管此前已采用SPIL開(kāi)發(fā)的扇出型晶圓級(jí)封裝（FOWLP）技術(shù)迭代了多代CPO解決方案，最終還是決定轉(zhuǎn)向臺(tái)積電的COUPE技術(shù)。值得注意的是，博通已承諾在其未來(lái)的交換機(jī)和客戶加速器產(chǎn)品路線圖中采用COUPE技術(shù)。我們了解到，由于寄生電容過(guò)大，F(xiàn)OWLP技術(shù)無(wú)法實(shí)現(xiàn)單通道100G以上的擴(kuò)展，因?yàn)殡娦盘?hào)必須通過(guò)模內(nèi)通孔（TMV）才能到達(dá)EIC。為了保持產(chǎn)品路線圖的競(jìng)爭(zhēng)力，博通必須轉(zhuǎn)向COUPE技術(shù)，因?yàn)樵摷夹g(shù)具有更優(yōu)異的性能和可擴(kuò)展性。這凸顯了臺(tái)積電的技術(shù)優(yōu)勢(shì)，使其即使在以往被認(rèn)為較弱的光學(xué)領(lǐng)域也能贏得市場(chǎng)。

將 OE 與主機(jī)打包

OE本身被放置在基板上，之后基板通過(guò)倒裝芯片鍵合連接到主機(jī)封裝上。共封裝OE需要很大的封裝面積。這就需要顯著增大封裝基板或中介層的尺寸，具體取決于OE的放置位置。例如，英偉達(dá)Spectrum-X Photonics開(kāi)關(guān)ASIC封裝的基板尺寸為110mm x 110mm。相比之下，Blackwell封裝的尺寸為70mm x 76mm，而B(niǎo)lackwell本身也是一個(gè)非常大的芯片。

此外，將更多元件連接到基板上會(huì)帶來(lái)良率方面的挑戰(zhàn)。同樣，對(duì)于 Spectrum-X 而言，需要先將 36 個(gè)已知良率良好的 OE 元件倒裝鍵合到基板上，然后再將中介層模塊鍵合到基板上，完成“基板上”組裝步驟，從而完成 CoWoS 組件的組裝。

同樣，對(duì)于中介層而言，制造尺寸更大的中介層成本更高，需要粘合更多元件，這會(huì)帶來(lái)良率方面的挑戰(zhàn)。此外，隨著中介層/基板尺寸的增大，翹曲問(wèn)題會(huì)更加突出，從而加劇這些挑戰(zhàn)。

二、FAU 和光纖耦合

光纖從OE引出用于數(shù)據(jù)傳輸。一條光通道由兩根光纖或一對(duì)光纖組成（發(fā)送加接收）。光纖耦合——即將光纖與片上波導(dǎo)精確對(duì)準(zhǔn)以實(shí)現(xiàn)平滑高效的光傳輸——是芯片光子輸出 (CPO) 中至關(guān)重要且極具挑戰(zhàn)性的步驟，而光纖陣列單元 (FAU) 在 CPO 中被廣泛用于輔助這一過(guò)程。實(shí)現(xiàn)光纖耦合主要有兩種方式：邊緣耦合 (EC) 和光柵耦合 (GC)。

邊緣耦合

邊緣耦合將光纖沿芯片邊緣對(duì)齊。從下圖可以看出，光纖末端必須與芯片的拋光邊緣精確對(duì)齊，以確保光束準(zhǔn)確進(jìn)入邊緣耦合器。光纖末端的微透鏡將光聚焦并導(dǎo)向芯片，引導(dǎo)光束進(jìn)入波導(dǎo)。波導(dǎo)的錐形部分逐漸變寬，從而實(shí)現(xiàn)平滑的模式過(guò)渡，減少反射和散射，確保耦合效率。如果沒(méi)有這樣的透鏡和錐形部分，光纖端面和波導(dǎo)端面之間的界面處將存在顯著的光損耗。

邊緣耦合因其耦合損耗低、可與寬波長(zhǎng)范圍的光配合使用以及對(duì)偏振不敏感而備受青睞。然而，它也存在一些缺點(diǎn)：

1、制造過(guò)程更加復(fù)雜，需要進(jìn)行底切和深蝕刻；

2、由于纖維是一維結(jié)構(gòu)，因此纖維密度可能受到限制；

3、它與芯片堆疊不兼容（因?yàn)門(mén)SV需要減薄）；

4、機(jī)械可靠性方面的挑戰(zhàn)包括外形尺寸、機(jī)械應(yīng)力、翹曲和纖維處理；

5、它的熱可靠性較低；

6、總體而言，生態(tài)系統(tǒng)兼容性不足。

在今年的超大規(guī)模集成電路（VLSI）大會(huì)上，Global Foundries（GFS）展示了一款單片集成的SiN邊緣耦合器，該耦合器在其標(biāo)志性的45nm“Fotonix”平臺(tái)上實(shí)現(xiàn)了32個(gè)通道和127μm間距。

光柵耦合（GC）

在光柵耦合器（GC）中，光從頂部進(jìn)入，光纖以較小的角度位于光柵上方。當(dāng)光到達(dá)光柵時(shí)，周期性結(jié)構(gòu)會(huì)散射光并將其向下彎曲進(jìn)入波導(dǎo)。

光柵/垂直耦合的主要優(yōu)勢(shì)在于能夠容納多排光纖，從而允許每個(gè)光引擎使用更多光纖。此外，光柵耦合器無(wú)需放置在基板底部，因此可以將光引擎放置在中介層上。最后，光柵耦合器的定位精度要求不高，并且可以通過(guò)簡(jiǎn)單的兩步蝕刻工藝輕松制造。光柵耦合器的缺點(diǎn)是單偏振光柵耦合器僅適用于有限的波長(zhǎng)范圍，并且對(duì)偏振非常敏感。

英偉達(dá)之所以偏愛(ài)GC技術(shù)，是因?yàn)樗哂兄T多優(yōu)勢(shì)——它能實(shí)現(xiàn)二維高密度封裝，占地面積更小，制造工藝更簡(jiǎn)便，并且相比EC技術(shù)，晶圓級(jí)測(cè)試也更簡(jiǎn)單。然而，該公司也意識(shí)到GC技術(shù)的幾個(gè)缺點(diǎn)——它通常會(huì)引入更高的光損耗，并且光帶寬比EC技術(shù)更窄（后者通常可以容納更寬的光譜范圍）。

臺(tái)積電顯然也更偏愛(ài)GC，其COUPE平臺(tái)支持GC。

三、激光器類型和波分復(fù)用（WDM）

將激光器集成到 CPO 中主要有兩種方法。

第一種方法是片上激光器，它將激光器和調(diào)制器集成在同一光子芯片上，通常是通過(guò)將 III-V 族（InP）材料鍵合到硅上來(lái)實(shí)現(xiàn)的。雖然片上激光器簡(jiǎn)化了設(shè)計(jì)并降低了插入損耗，但也存在一些挑戰(zhàn)：

眾所周知，激光器是系統(tǒng)中故障率最高的組件之一——如果將其集成到 CPO 引擎中，故障將產(chǎn)生巨大的影響范圍，因?yàn)樗鼤?huì)摧毀整個(gè)芯片；

激光器對(duì)熱也很敏感，將它們放在共封裝的 OE 上會(huì)使激光器暴露在高溫下，因?yàn)樗鼤?huì)非常靠近系統(tǒng)中溫度最高的部分——主體硅，這只會(huì)加劇這個(gè)問(wèn)題；

片上激光器通常難以提供足夠高的功率輸出。

目前業(yè)界普遍認(rèn)同的方案是采用外部光源（ELS）。激光器位于一個(gè)獨(dú)立的模塊中，通過(guò)光纖連接到光引擎。通常，這種激光器采用可插拔封裝，例如OSFP。這種設(shè)計(jì)簡(jiǎn)化了激光器故障（這種情況相當(dāng)常見(jiàn)）的現(xiàn)場(chǎng)維修。

ELS的缺點(diǎn)是功耗較高。如下圖所示，在基于ELS的系統(tǒng)中，由于連接器損耗、光纖耦合損耗和調(diào)制器效率低下等多種因素，輸出功率會(huì)在多個(gè)階段損失。因此，該系統(tǒng)中的每個(gè)激光器必須提供24.5 dBm的光功率來(lái)補(bǔ)償損耗并確保可靠傳輸。高功率激光器會(huì)產(chǎn)生更多熱量，并且在熱應(yīng)力下性能下降更快，激光器和熱電冷卻器約占ELS功耗的70%。雖然激光器設(shè)計(jì)、封裝和光路方面的改進(jìn)有所幫助，但激光器高功率需求的問(wèn)題尚未得到徹底解決。

在今年的 VLSI 大會(huì)上，Nvidia 重點(diǎn)介紹了其生態(tài)系統(tǒng)中的幾家激光合作伙伴：Lumentum 提供單個(gè)高功率 DFB，Ayar Labs 提供 DFB 陣列，Innolume 提供量子點(diǎn)鎖模梳，以及 Xscape、Enlightra 和 Iloomina 提供泵浦非線性諧振梳。

英偉達(dá)也曾討論過(guò)探索使用VCSEL陣列作為潛在的替代激光解決方案。雖然單根光纖的數(shù)據(jù)速率會(huì)較低，并且可能存在一些散熱問(wèn)題，但VCSEL或許能夠提供更高的功率和成本效益，并且適用于“寬帶寬、低速”的應(yīng)用。不過(guò)，我們認(rèn)為這并非英偉達(dá)的當(dāng)務(wù)之急。

波分復(fù)用 (WDM) 是指在同一根光纖上傳輸多個(gè)不同波長(zhǎng)（或稱λ）的光。WDM 的兩種常見(jiàn)變體是粗波分復(fù)用 (CWDM) 和密集波分復(fù)用 (DWDM)。CWDM 通常承載較少的通道，通道間距相對(duì)較大（通常為 20 nm），而 DWDM 則承載許多通道，通道間距非常小（通常小于 1 nm）。CWDM 較寬的通道間距限制了其容量，而 DWDM 較窄的通道間距可以容納 40、80 甚至 100 多個(gè)通道。WDM 非常重要，因?yàn)槟壳按蠖鄶?shù) CPO 實(shí)現(xiàn)方案都受到可連接到光引擎的光纖數(shù)量的限制。有限的光纖對(duì)意味著必須最大化利用每一對(duì)光纖。

四、調(diào)制器類型

當(dāng)激光進(jìn)入光子集成電路（PIC）時(shí)，它們會(huì)經(jīng)歷一個(gè)調(diào)制階段（由驅(qū)動(dòng)器驅(qū)動(dòng)），在此階段，電信號(hào)被編碼到激光的波長(zhǎng)中。用于此過(guò)程的三種主要調(diào)制器是馬赫-曾德?tīng)栒{(diào)制器（MZM）、微環(huán)調(diào)制器（MRM）和電吸收調(diào)制器（EAM）。每個(gè)波長(zhǎng)（單個(gè)光路上的單個(gè)波長(zhǎng)）都需要一個(gè)調(diào)制器。馬赫-曾德?tīng)栒{(diào)制器（MZM）

1、馬赫-曾德?tīng)栒{(diào)制器（ MZM：Mach-Zehnder Modulator ）

通過(guò)將連續(xù)波光信號(hào)分成兩路波導(dǎo)臂來(lái)編碼數(shù)據(jù)，這兩路波導(dǎo)臂的折射率可通過(guò)施加電壓來(lái)改變。當(dāng)兩路波導(dǎo)臂重新組合時(shí)，它們的干涉圖樣會(huì)調(diào)制信號(hào)的強(qiáng)度或相位。

在三種調(diào)制器中，MZM 最易于實(shí)現(xiàn)，且熱敏感性低，因此無(wú)需精確的溫度控制。其高線性度支持 PAM4 和相干 QAM 等高級(jí)調(diào)制格式（盡管 QAM 不適用于高性能計(jì)算/人工智能工作負(fù)載）。MZM 的低啁啾特性提高了高階調(diào)制和遠(yuǎn)距離傳輸?shù)男盘?hào)完整性。此外，MZM 還支持更高的單通道帶寬：已證實(shí)每通道 200G 的帶寬可行，并且據(jù)信使用非相干 PAM 調(diào)制可以實(shí)現(xiàn)每通道 400G 的帶寬。

然而，MZM的缺點(diǎn)是：

由于MZM需要兩個(gè)波導(dǎo)臂和一個(gè)合路區(qū)，其尺寸較大，以毫米級(jí)測(cè)量（相比之下，MRM的尺寸以微米級(jí)測(cè)量），這會(huì)占用更多的芯片面積，并限制光電集成電路（OE PIC）中調(diào)制器（以及通道）的密度。MZM的尺寸約為12,000mm2 ，EAM約為250mm2 （5x50mm），而MRM的尺寸在25mm2到225mm2之間（直徑5-15mm2 ）。這是MZM的一個(gè)關(guān)鍵缺點(diǎn)，會(huì)限制其尺寸的縮小。然而，如果考慮到包含驅(qū)動(dòng)器和調(diào)制器周圍光電控制電路的完整PIC/EIC組合的尺寸，MZM的尺寸劣勢(shì)可能就不那么明顯了。

由于相移過(guò)程需要大量能量，因此馬赫-曾德?tīng)栒{(diào)制器（MZM）的功耗較高。此外，其偏置條件（即啟動(dòng)電壓）也高于工作在亞電壓下的MRM。然而，像Nubis這樣的公司正在嘗試開(kāi)發(fā)巧妙的設(shè)計(jì)來(lái)改善MZM的功耗劣勢(shì)。

在創(chuàng)業(yè)生態(tài)系統(tǒng)中，Nubis是主要利用MZM構(gòu)建其規(guī)模化CPO解決方案的公司之一。由于MZM體積較大且lambda函數(shù)數(shù)量有限，因此在創(chuàng)業(yè)生態(tài)系統(tǒng)中并未得到廣泛應(yīng)用。微環(huán)調(diào)制器（MRM）

2、調(diào)制反射調(diào)制器（ MRM：Micro-Ring Modulators ）

使用一個(gè)緊湊的環(huán)形波導(dǎo)，該波導(dǎo)與一個(gè)或多個(gè)直波導(dǎo)耦合。電信號(hào)會(huì)改變環(huán)形波導(dǎo)的折射率，從而改變其諧振波長(zhǎng)。通過(guò)調(diào)節(jié)諧振頻率使其與輸入光波長(zhǎng)對(duì)齊或錯(cuò)位，MRM 可以調(diào)制光信號(hào)的強(qiáng)度或相位，從而實(shí)現(xiàn)數(shù)據(jù)編碼。

光源從輸入端口進(jìn)入環(huán)形諧振器——對(duì)于大多數(shù)波長(zhǎng)的光，環(huán)形諧振器不會(huì)發(fā)生諧振，因此光會(huì)從輸入端口穿過(guò)器件到達(dá)直通端口。如果波長(zhǎng)滿足諧振條件，則光會(huì)在環(huán)形諧振器中發(fā)生相長(zhǎng)干涉，并被引入下端口。如下圖所示的歸一化功率曲線所示，特定波長(zhǎng)的光會(huì)在下端口引起傳輸功率的尖峰，并在直通端口引起相應(yīng)的傳輸功率下降。這種效應(yīng)可用于調(diào)制。

光引擎通常使用多個(gè) MRM，每個(gè)環(huán)都可以調(diào)諧到不同的波長(zhǎng)，從而可以使用環(huán)本身實(shí)現(xiàn)波分復(fù)用 (WDM)，而無(wú)需額外的設(shè)備來(lái)實(shí)現(xiàn) WDM。

MRM具有以下幾個(gè)主要優(yōu)勢(shì)：

它們極其緊湊（尺寸在幾十微米以內(nèi)），因此可以比 MZM 具有更高的調(diào)制器密度。MZM 的尺寸約為 12,000mm2 ，EAM 約為 250mm2 （5x50mm），MRM 的尺寸在 25mm2到225mm2之間（直徑 5-15mm2）；

環(huán)形天線非常適合 WDM 應(yīng)用（包括 8 或 16 個(gè)波長(zhǎng)的 DWDM），并且具有內(nèi)置復(fù)用/解復(fù)用功能；

MRM 可以非常節(jié)能（每比特功耗更低）；

最后，環(huán)形天線的啁啾聲很低，這提高了信號(hào)質(zhì)量。

然而，MRM也面臨一些挑戰(zhàn)：

MRM 的溫度敏感度可能比 MZM 和 EAM 高 10-100 倍，因此需要非常精確的控制系統(tǒng)，而這些控制系統(tǒng)的設(shè)計(jì)和制造都具有挑戰(zhàn)性；

它們是非線性的，這使得 PAM4/6/8 等高階調(diào)制變得復(fù)雜；

由于每個(gè)設(shè)計(jì)都有精確的要求，因此 MRM 的靈敏度和嚴(yán)格的溫度控制公差使得標(biāo)準(zhǔn)化變得困難。

在眾多解決方案提供商中，英偉達(dá)對(duì)微控制器模塊（MRM）表現(xiàn)出明顯的偏好。他們聲稱是首家設(shè)計(jì)并將MRM應(yīng)用于CPO系統(tǒng)的公司。該公司認(rèn)為MRM的關(guān)鍵優(yōu)勢(shì)在于其緊湊的尺寸和低驅(qū)動(dòng)電壓，這有助于降低功耗。然而，MRM技術(shù)也以難以控制而著稱，因此設(shè)計(jì)精度對(duì)于成功實(shí)施至關(guān)重要——而這恰恰是英偉達(dá)的優(yōu)勢(shì)所在。

在制造方面，臺(tái)積電先進(jìn)的CMOS技術(shù)非常適合制造高精度、高品質(zhì)因數(shù)的微反射鏡。此外，Tower公司在光子學(xué)節(jié)點(diǎn)方面也擁有強(qiáng)大的制造能力。

MRM（混合存儲(chǔ)器模塊）的實(shí)現(xiàn)雖然具有挑戰(zhàn)性，但并非完全不可行。它們有望實(shí)現(xiàn)比MZM（混合零模存儲(chǔ)器）更高的帶寬密度。正因如此，臺(tái)積電、英偉達(dá)以及眾多CPO（芯片產(chǎn)品）公司，例如Ayar Labs、Lightmatter和Ranovus，都將目光聚焦于這項(xiàng)技術(shù)路線圖。電吸收調(diào)制器（EAM）

3、電吸收調(diào)制器（EAM：Electro-Absorption Modulators）

通過(guò)改變其對(duì)光的吸收能力來(lái)調(diào)制信號(hào)，這種改變?nèi)Q于所施加的電壓。更具體地說(shuō)，當(dāng)對(duì)EAM施加低電壓或無(wú)電壓時(shí)，該器件允許大部分入射激光通過(guò)，使其呈現(xiàn)透明或“開(kāi)放”狀態(tài)。當(dāng)施加較高電壓時(shí)，鍺硅（GeSi）調(diào)制器的帶隙會(huì)移動(dòng)以覆蓋高C波段范圍（1500nm以上），從而增加這些波長(zhǎng)的吸收系數(shù)，并衰減“關(guān)閉”通過(guò)附近波導(dǎo)的光信號(hào)。這被稱為弗朗茨-凱爾迪什效應(yīng)。這種“開(kāi)放”和“關(guān)閉”狀態(tài)之間的切換會(huì)調(diào)制光的強(qiáng)度，從而有效地將數(shù)據(jù)編碼到光信號(hào)上。

如今，采用電吸收調(diào)制激光器 (EML) 進(jìn)行調(diào)制的收發(fā)器也運(yùn)用了相同的原理。連續(xù)波 (CW：continuous wave) 分布式反饋 (DFB：distributed feedback) 激光器和基于磷化銦 (InP) 的電吸收調(diào)制器 (EAM) 耦合在一起，構(gòu)成一個(gè)獨(dú)立的 EML，可以調(diào)制一條光纖通道。例如，一個(gè) 800G DR8 收發(fā)器在 8 條獨(dú)立的光纖通道上使用 8 個(gè) EML，每個(gè) EML 使用 PAM4 調(diào)制（2 比特/信號(hào)），信令速率約為 56 GBaud。與基于鍺硅 (GeSi) 的調(diào)制器不同，InP 調(diào)制器的帶隙對(duì)應(yīng)于 O 波段 (1310nm)，這是所有數(shù)據(jù)通信 DR 光器件的標(biāo)準(zhǔn)波長(zhǎng)，從而實(shí)現(xiàn)了高度的互操作性。

InP調(diào)制器存在一些缺點(diǎn)，使其不太適合用于CPO工藝。InP晶圓尺寸通常較小（3英寸或6英寸），且良率較低——這兩個(gè)因素都會(huì)導(dǎo)致基于InP的器件單位成本高于可采用8英寸或12英寸工藝制造的硅器件。此外，將InP與硅耦合也比將GeSi與其他硅器件耦合要困難得多。

與 MRM 和 MZI 相比，EAM 具有以下幾個(gè)優(yōu)勢(shì)：

顯然，EAM 和 MRM 都具有控制邏輯和加熱器，用于穩(wěn)定其工作溫度，但 EAM 對(duì)溫度的敏感性從根本上來(lái)說(shuō)要低。與 MRM 相比，EAM 在 50°C 以上具有更好的熱穩(wěn)定性，而 MRM 對(duì)溫度非常敏感。MRM 的典型穩(wěn)定性為 70-90 pm/°C，這意味著 2°C 的溫度變化會(huì)導(dǎo)致諧振頻率偏移 0.14nm，遠(yuǎn)遠(yuǎn)超過(guò) MRM 性能崩潰所需的 0.1nm 諧振頻率偏移。相比之下，EAM 可以承受高達(dá) 35°C 的瞬時(shí)溫度變化。這種耐受性對(duì)于 Celestial AI 的方案尤為重要，因?yàn)樗麄兊?EAM 調(diào)制器位于高功耗 XPU 計(jì)算引擎下方的中介層中，該引擎會(huì)消耗數(shù)百瓦的功率。EAM 還可以承受高達(dá) 80°C 的環(huán)境溫度，這可能適用于位于 XPU 旁邊而非下方的芯片組應(yīng)用。

與馬赫-曾德?tīng)栒{(diào)制器 (MZI) 相比，電吸收調(diào)制器 (EAM) 的尺寸要小得多，功耗也更低。這是因?yàn)?MZI 的尺寸相對(duì)較大，需要較高的電壓擺幅，而 EAM 需要通過(guò)放大串行器/解調(diào)器 (SerDes) 來(lái)實(shí)現(xiàn) 0-5V 的擺幅。馬赫-曾德?tīng)栒{(diào)制器 (MZM) 的面積約為 12,000mm2 ，EAM 約為 250mm2 ( 5x50mm)，而馬赫-曾德?tīng)栒{(diào)制器 (MRM) 的面積則在 25mm2 到 225mm2 之間（直徑5-15mm2 ）。此外，MZI 還需要更高的功率來(lái)驅(qū)動(dòng)加熱器，以維持如此大的器件在所需的偏置電壓下工作。

另一方面，使用GeSi EAM進(jìn)行CPO也存在一些缺點(diǎn)：

基于硅或氮化硅的物理調(diào)制器結(jié)構(gòu)，例如MRM和MZI，通常被認(rèn)為比基于GeSi的器件具有更高的耐久性和可靠性。事實(shí)上，鑒于鍺基器件的加工和集成難度，許多人對(duì)基于GeSi的器件的可靠性表示擔(dān)憂。但Celestial公司認(rèn)為，基于GeSi的EAM（本質(zhì)上是光電探測(cè)器的逆過(guò)程）的可靠性是毋庸置疑的，因?yàn)槿缃窆怆娞綔y(cè)器在收發(fā)器中應(yīng)用廣泛。

GeSi調(diào)制器的能帶邊緣天然位于C波段（即1530nm-1565nm）。設(shè)計(jì)量子阱將其移至O波段（即1260nm-1360nm）是一個(gè)非常棘手的工程難題。這意味著基于GeSi的EAM很可能構(gòu)成一個(gè)封閉式CPO系統(tǒng)，而難以融入開(kāi)放式芯片生態(tài)系統(tǒng)。

與使用成熟的O波段連續(xù)波激光器生態(tài)系統(tǒng)相比，圍繞C波段激光器構(gòu)建激光生態(tài)系統(tǒng)可能會(huì)存在規(guī)模不經(jīng)濟(jì)的問(wèn)題。大多數(shù)數(shù)據(jù)通信激光器都是為O波段設(shè)計(jì)的，但Celestial指出，目前也生產(chǎn)相當(dāng)數(shù)量的1577nm XGS-PON激光器。這些激光器通常用于家庭和企業(yè)光纖到戶連接應(yīng)用。

SiGe EAM 的插入損耗約為 4-5dB，而 MRM 和 MZI 的插入損耗約為 3-5dB。雖然 MRM 可以直接復(fù)用不同波長(zhǎng)，但 EAM 需要單獨(dú)的復(fù)用器來(lái)實(shí)現(xiàn) CWDM 或 DWDM，這會(huì)略微增加潛在的損耗預(yù)算。

總體而言，EAM 在當(dāng)前的 CPO 實(shí)施中并未得到廣泛應(yīng)用，而 Celestial AI 是少數(shù)積極采用這種方法的公司之一。

OE路線圖——擴(kuò)大OE規(guī)模

目前市面上的光學(xué)引擎通常提供 1.6T 到 3.2T 的總帶寬。英偉達(dá)的 Quantum CPO 包含一個(gè) 1.6T 的引擎，并計(jì)劃為 Spectrum 推出 3.2T 版本。博通展示了其為 Bailly 平臺(tái)開(kāi)發(fā)的 6.4T 光學(xué)引擎，但其尺寸非常大（寬度是英偉達(dá)產(chǎn)品的 2-3 倍），并且需要兩個(gè) FAU，因此其帶寬密度可能與英偉達(dá)的產(chǎn)品類似。Marvell 的 6.4T 光學(xué)引擎也存在同樣的問(wèn)題，需要兩個(gè) FAU，因此占用空間較大。據(jù)我們所知，Marvell 的光學(xué)引擎近期也不會(huì)應(yīng)用于任何量產(chǎn)系統(tǒng)。

正如我們之前討論過(guò)的，英偉達(dá)Spectrum-X光子交換機(jī)中采用的3.2T光引擎（OE）方案，其海岸線帶寬密度并不比采用長(zhǎng)距離SerDes的可插拔交換機(jī)更高。換句話說(shuō)，光引擎密度必須成倍提升才能帶來(lái)顯著的性能優(yōu)勢(shì)并推動(dòng)客戶采用。這意味著既要擴(kuò)展主機(jī)芯片與光引擎EIC之間的電氣接口，也要擴(kuò)展光纖輸出的帶寬。

但是，如果我們能夠自由地設(shè)計(jì)下一代互連技術(shù)，那么有哪些方法可以為這一代以及未來(lái)的互連技術(shù)釋放更大的帶寬呢？擴(kuò)展帶寬的關(guān)鍵方法

讓我們來(lái)探討一下擴(kuò)展共封裝光引擎帶寬的關(guān)鍵方法：

1、繼續(xù)采用基于電SerDes的PHY：通過(guò)使用短距離（SR）SerDes而非長(zhǎng)距離SerDes，可以簡(jiǎn)化設(shè)計(jì)實(shí)現(xiàn)、減小面積并降低功耗。但最終，這仍然會(huì)受到電接口處SerDes速度的限制，而我們?cè)谶@方面已經(jīng)接近極限。此處的想法是采用一種過(guò)渡方案，使芯片設(shè)計(jì)人員無(wú)需重新設(shè)計(jì)其I/O。此外，使用電SerDes還可以靈活地在同一芯片上使用現(xiàn)有的可插拔光模塊和/或銅箔。

2、使用寬 I/O PHY（例如 UCIe），并采用較低的波特率（例如 56G）和 NRZ 調(diào)制。這可以降低光引擎的 EIC 要求，甚至可以省去昂貴的混合綁定，因?yàn)樵诘退賯鬏敃r(shí)寄生效應(yīng)的影響較小。然而，使用低信號(hào)速率意味著離開(kāi)光引擎的光纖數(shù)量更容易成為瓶頸。波分復(fù)用 (WDM) 通過(guò)允許每根光纖并行傳輸多個(gè)數(shù)據(jù)流來(lái)解決這個(gè)問(wèn)題。

3、使用諸如 UCIe 之類的寬 I/O PHY，然后讓 EIC 將信號(hào)串行化到較少數(shù)量的光纖通道。繼續(xù)使用高波特率和 PAM4 調(diào)制來(lái)最大化每條光通道的速度，如果需要，可以使用 WDM 方案添加多個(gè)波長(zhǎng)，從而允許每對(duì)光纖傳輸多個(gè)波長(zhǎng)，以進(jìn)一步提高帶寬。

解決了電氣方面的問(wèn)題后，下一個(gè)挑戰(zhàn)是光纖能夠承載多大的逃逸帶寬。光纖總帶寬取決于三個(gè)關(guān)鍵因素：1）光纖數(shù)量（決定光通道數(shù)量）；2）每條光通道的傳輸速度；3）每根光纖的波長(zhǎng)數(shù)量——每個(gè)因素都代表著一個(gè)擴(kuò)展維度。

近來(lái)，業(yè)界將光纖傳輸理念分為兩大類：快速窄帶和慢速寬帶（Fast and Narrow vs Slow and Wide）。快速窄帶方案設(shè)想每個(gè)光纖單元 (FAU) 使用較少的光纖（最多不超過(guò)兩位數(shù)），并且每對(duì)光纖都提供高速鏈路；而慢速寬帶方案則基于更多的光纖對(duì)（可能采用更小的間距）以及每對(duì)光纖更低的帶寬。

1、更多光纖對(duì)：光纖密度受光纖間距限制，而單個(gè)光纖陣列單元 (FAU) 內(nèi)的光纖總數(shù)則受限于制造工藝，超過(guò)此限制，良率就會(huì)受到影響。目前，光纖的最小間距為 127 微米 (μm)，這意味著每毫米最多可容納 8 根光纖。業(yè)界正致力于研發(fā) 80 μm 間距和多芯光纖，以進(jìn)一步提高特定區(qū)域可容納的光纖數(shù)量。然而，增加光纖數(shù)量會(huì)帶來(lái)制造方面的挑戰(zhàn)：

A) 光纖對(duì)準(zhǔn)仍然需要大量人工操作，容易造成良率損失，而且每增加一根需要對(duì)準(zhǔn)的光纖，F(xiàn)AU 的良率都會(huì)下降；雖然像 Ficontec 這樣的公司提供了自動(dòng)化工具，但它們的吞吐量仍然很低；

B) 耦合方式的選擇也很重要：邊緣耦合將光纖陣列限制為單行，而光柵耦合可以支持多行。目前我們見(jiàn)過(guò)的最大光纖陣列是 Nubis 的二維 FAU，它包含 36 根光纖。

2、每lane的速度：影響lane速度的因素有兩個(gè)：

A)波特率：定義每秒發(fā)送的符號(hào)數(shù)；目前先進(jìn)的系統(tǒng)運(yùn)行在 100 Gbaud，而業(yè)界正在努力實(shí)現(xiàn) 200 Gbaud。然而，更高的波特率對(duì)調(diào)制器提出了更高的要求，即需要以更高的頻率進(jìn)行切換；在各種類型的調(diào)制器中，MZM 在這方面表現(xiàn)最佳，并且相對(duì)而言，實(shí)現(xiàn) 200 Gbaud 的路徑也最為清晰。

B)調(diào)制方式：定義每個(gè)符號(hào)攜帶的比特?cái)?shù)。NRZ（每個(gè)符號(hào) 1 比特）和 PAM4（每個(gè)符號(hào) 2 比特，通過(guò) 4 種不同的幅度）目前被廣泛采用。研究正在擴(kuò)展到 PAM6（每個(gè)符號(hào)約 2.6 比特）和 PAM8（每個(gè)符號(hào) 3 比特）。通過(guò)使用不同相位的光信號(hào)以及多個(gè)幅度級(jí)別，可以實(shí)現(xiàn)更高階的調(diào)制方案。 DP-16QAM 可實(shí)現(xiàn)兩個(gè)正交平面，每個(gè)平面具有 4 種不同的幅度、4 種不同的相位，總共可產(chǎn)生 256 種可能的信號(hào)——每個(gè)信號(hào)可提供 8 位。

3、波分復(fù)用 (WDM) ：光纖可以同時(shí)傳輸多個(gè)波長(zhǎng)的光。例如，一根具有 8 個(gè)波長(zhǎng)的光纖，每個(gè)波長(zhǎng)傳輸 200Gbit/s 的數(shù)據(jù)，總傳輸容量可達(dá) 1.6Tbit/s。目前市售的 DWDM 解決方案通常提供 8 波長(zhǎng)或 16 波長(zhǎng)配置。研究人員也在探索寬光譜、頻帶復(fù)用和交織技術(shù)來(lái)增加波長(zhǎng)數(shù)量。擴(kuò)展波長(zhǎng)數(shù)量的一個(gè)關(guān)鍵挑戰(zhàn)是開(kāi)發(fā)能夠可靠高效地產(chǎn)生多條光通道的激光光源。

Ayar Labs 的 Supernova 光源配備了一個(gè)能夠產(chǎn)生 16 個(gè)波長(zhǎng)的激光器（該激光器由 Sivers 提供）。Scintil 的晶圓級(jí) InP 激光器同樣可以提供多達(dá) 16 個(gè)波長(zhǎng)，而 Xscape Photonics 正在致力于開(kāi)發(fā)一種可調(diào)諧的梳狀激光器，其波長(zhǎng)可達(dá) 64 個(gè)。在調(diào)制器中，MRM 最適合處理多個(gè)波長(zhǎng)，并且具有內(nèi)置的復(fù)用（mux）和解復(fù)用（demux）功能。

下表概述了將光學(xué)引擎擴(kuò)展到 12.8T 及以上的幾種方法。

CPO 的采用速度和部署挑戰(zhàn)

英偉達(dá)的首批CPO產(chǎn)品將面向后端橫向擴(kuò)展交換機(jī)，其中InfiniBand CPO交換機(jī)將于2025年下半年上市，以太網(wǎng)CPO交換機(jī)將于2026年下半年上市。我們認(rèn)為，這一初期階段主要目的是進(jìn)行市場(chǎng)測(cè)試，并為供應(yīng)鏈的成熟做好準(zhǔn)備。我們預(yù)計(jì)2026年的總出貨量將在1萬(wàn)至1.5萬(wàn)臺(tái)之間。

要使CPO部署能夠更快、更廣泛地推進(jìn)并真正普及，就必須有更令人信服的理由來(lái)支持采用CPO。可能的原因有兩種：一是采用CPO能夠顯著降低總體擁有成本；二是驅(qū)動(dòng)信號(hào)從交換機(jī)ASIC傳輸?shù)浇粨Q機(jī)盒前面板所需的長(zhǎng)距離SerDes在速度或傳輸距離方面遇到了瓶頸。

數(shù)據(jù)中心運(yùn)營(yíng)商不喜歡部署基于 CPO 的系統(tǒng)，而這主要體現(xiàn)在兩個(gè)方面，即缺乏互操作性和可維護(hù)性挑戰(zhàn)，從而抵消了 TCO 的任何優(yōu)勢(shì)。

CPO的挑戰(zhàn)不僅限于封裝內(nèi)部，還延伸至整個(gè)系統(tǒng)。光纖管理、前面板密度、外部激光器等都是至關(guān)重要的環(huán)節(jié)，但也極具挑戰(zhàn)性。為了實(shí)現(xiàn)CPO，芯片公司需要提供客戶可部署的端到端解決方案。這延續(xù)了我們目前觀察到的趨勢(shì)，尤其是在英偉達(dá)（Nvidia）身上，該公司專注于系統(tǒng)設(shè)計(jì)以擴(kuò)展性能。

專有解決方案與標(biāo)準(zhǔn)

CPO 采用面臨的一個(gè)關(guān)鍵挑戰(zhàn)是實(shí)現(xiàn)互操作性，同時(shí)克服業(yè)界對(duì)成熟且高度互操作的可插拔光模塊模型的根深蒂固的依賴。

互操作性主要有三種類型：（1）電氣互操作性，（2）光學(xué)互操作性，以及（3）機(jī)械互操作性。對(duì)于可插拔設(shè)備而言，互操作性：

1、通常由光互聯(lián)網(wǎng)論壇 (OIF) 負(fù)責(zé)處理，

2、通常由 IEEE（有時(shí)也由 OIF）負(fù)責(zé)處理。IEEE 通過(guò)其 IEEE 802.3 標(biāo)準(zhǔn)發(fā)揮著核心作用，該標(biāo)準(zhǔn)定義了以太網(wǎng)物理介質(zhì)相關(guān) (PMD) 層。這些規(guī)范涵蓋了關(guān)鍵參數(shù)，例如調(diào)制格式、通道速度、通道數(shù)量、傳輸距離、介質(zhì)類型以及光信號(hào)的波長(zhǎng)。通過(guò)遵循這些標(biāo)準(zhǔn)化的 PMD，不同廠商的收發(fā)器可以互換使用，從而確保在多廠商生態(tài)系統(tǒng)中實(shí)現(xiàn)真正的即插即用兼容性，

3、通常由多源協(xié)議 (MSA) 負(fù)責(zé)處理。MSA 定義了專門(mén)的解決方案，并確保在官方 IEEE 標(biāo)準(zhǔn)之外的多廠商互操作性。

通過(guò) OIF、IEEE 標(biāo)準(zhǔn)和 MSA 的結(jié)合，可插拔收發(fā)器實(shí)現(xiàn)了廣泛的互操作性和強(qiáng)大的多廠商生態(tài)系統(tǒng)。對(duì)于 CPO 而言：

1、CPO 模塊的電氣兼容性至關(guān)重要，否則它們將無(wú)法與最先進(jìn)的 SerDes 通信。

2、光兼容性也十分重要，因?yàn)樗梢耘c集群中其他位置的標(biāo)準(zhǔn)可插拔設(shè)備兼容。

3、需要注意的是，CPO 目前仍處于“蠻荒西部”階段，一些解決方案和架構(gòu)決策導(dǎo)致了完全專有的外形尺寸。這正是新的 OIF 高密度互連方案（例如 CPX 范式）試圖解決的問(wèn)題。

一旦滿足了 (1)+(2)+(3) 的要求，CPO 的操作方式將與可插拔設(shè)備非常相似，這將有助于其廣泛應(yīng)用。

然而，目前CPO在標(biāo)準(zhǔn)化方面還不如可封裝芯片那樣成熟，也無(wú)法像光收發(fā)器那樣保證互操作性。部分原因是廠商更傾向于推廣系統(tǒng)級(jí)解決方案，而不是單獨(dú)向芯片制造商銷售芯片。這是因?yàn)镃PO的挑戰(zhàn)不僅限于封裝內(nèi)部，還延伸到整個(gè)系統(tǒng)。光纖管理、前面板密度、調(diào)制器架構(gòu)和外部激光器等都是至關(guān)重要的環(huán)節(jié)，同時(shí)也帶來(lái)了諸多挑戰(zhàn)。為了推動(dòng)CPO的普及，像英偉達(dá)這樣的公司需要首先提供端到端的解決方案。

實(shí)現(xiàn)這一目標(biāo)的一種方法是采用組件級(jí)標(biāo)準(zhǔn)化解決方案，其中共封裝的光電器件（OE）采用標(biāo)準(zhǔn)化的光纖接口，并集成符合以太網(wǎng)標(biāo)準(zhǔn)或多標(biāo)準(zhǔn)協(xié)議（MSA）的波長(zhǎng)、速度和調(diào)制方式的光子組件，例如激光器、調(diào)制器和光電二極管。這將實(shí)現(xiàn)真正的互操作性，使客戶能夠混合搭配不同供應(yīng)商的產(chǎn)品，而無(wú)需從單一...

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.