![]()
(一)廣域網,橫跨海陸
為了AI還真是,
搞網絡的錢不少花,
大動作,大投入,
數據中心內部網絡,重做;
數據中心外部網絡,也重做;
確切表達,不是完全推翻,但也是大變革。
數據中心里的網絡,
譚老師我寫了好幾篇了,
高低得看看,跨數據中心的網絡,也就是廣域網,
這網規模大,非常大,巨大,
這么大,還想做好,豈不很難?
重做,要有很大決心,挑戰一堆。
但有AI在,誰也阻擋不了頭部大廠的決心。
有網絡技術大佬曾和我說,
大網的難度比起小網,至少高兩個數量級。
這種大網,動不動就跨海;
Meta的廣域網海底電纜怎么搞的呢?
2025年11月,
《解鎖AI潛力,跨越5萬公里全球》;
5萬公里,比地球周長還長。
每根光纜里塞16對光纖;
這是老系統的兩倍容量;
還要“疏通高層關系”,
跨越50個司法管轄區,
花近6年時間,動用35艘海上船只,
累計運營時長相當于32年。
![]()
以前的海底光纜,大多是運營商專屬,
要么一家獨攬,要么幾家瓜分,
小服務商想拿到帶寬,不僅貴,還得看人臉色。
這么大的工程,為啥是美國Meta公司出頭?
這背后,是科技巨頭對全球廣域網話語權的爭奪;
就不展開了,C位是廣域網,
科技巨頭的投入和野心,都濃縮在漫畫里了。
跨海之后就上岸,城市之間建廣域網,
那該怎么干呢?
(二)先問客戶,需要一張什么樣的廣域網?
面對尊敬的金主(網絡用戶),
穩定性要高、性能要好、成本要低,
請努力保持微笑。
(此處有3000字的怨氣沒發出來)
穩定性,首屈一指重要,
或者說,穩定性是n個零前面的一,
歷史中絕不缺少穩定性的教訓,
不過,人類從歷史中學到的唯一的教訓,
就是沒有從歷史中吸取任何教訓;
而且,廣域網的故障,
從來沒有“小教訓”;
![]()
風波歷盡,在保障穩定的前提下,
就要比拼性能了。
性能有幾個最重要的核心指標:
帶寬、網絡延時、丟包率;
而今,需求五花八門,
“高性能”早已不再是單一維度的指標。
有些要低延遲,像視頻會議;
有些追求極致低延遲,
如,股票高頻交易;
有些更看重帶寬穩定與零丟包,
如,AI訓練的數據同步;
正因如此,好網絡不在于一味給帶寬給資源,
而在于“對癥下藥”,
根據每類(應用)需求,
恰如其分地提供服務質量,精細控制。
這種理念背后還有一個現實考量:
高性能,有成本,
如果為所有流量都配超低延遲,
零丟包和超高帶寬,
不僅資源浪費嚴重,
整體系統成本也將難以承受。
事實上,許多應用對網絡瑕疵很有容忍度。
例如,普通網頁瀏覽,
過程中偶爾丟失幾個數據包,
瀏覽器會自動重傳,用戶幾乎毫無感知;
而同樣的丟包,
若發生在AI模型訓練的數據同步階段,
則可能導致訓練速度驟降,甚至任務失敗。
于是,“差異化服務”這一能力走上舞臺中央,
因此,理想的網絡架構應當——
能識別不同業務類型,
并為其分配匹配的服務等級(SLA)。
啥業務配啥待遇,
不搞一刀切;
這種“因地制宜”的策略,
既保障了核心業務的性能需求,
又避免了不必要的開銷。
歸根結底,最好的性能并非“絕對最強”,
而是“剛剛好”。
這正是,網絡的核心價值所在。
成本是商業邏輯的基礎,無須多言;
![]()
再加一點,
離開規模談穩定,性能和成本,
是耍流氓。
什么意思呢?一個AI實驗室里,
5臺服務器40張GPU卡,
穩定和性能都可以十分卓越,
但,這種卓越無法復制于,
4000張GPU卡的大規模集群。
站在頭部大云廠商角度,
要以低成本提供高穩定,
高性價比的網絡服務,
成本包括Capx(資本性支出),
和Opex(運營性支出),
其中Opex是大頭,
也就是說,大規模網絡的運維效率是重中之重,
怎么樣提升?又做到何種程度?
我只能說,這種“理想”,
AWS做到了,谷歌,Meta也做到了,
阿里云做到了,
這類代表性網絡架構,也已成熟,
比如,阿里云HPN。
這些是數據中心網絡的情況,
而對于廣域網而言,
則是另一番天地。
廣域網歷史包袱很重,
以前的廣域網(技術架構),
過于復雜,已然事實,
想翻轉此局面,
中小廠商肯定沒有實力,
大廠商誰會出手?
在何時出手,而又如何出手?
復雜加復雜,直接遭遇不可能三角,走不通了。
![]()
![]()
(三)聊下廣域網設計原則
如何達成“夢中情網”?
簡化的確是一條思路,
關鍵在于,怎么簡化?
得找個真正的專家聊聊;
好在,有機會和,
阿里云廣域網架構與研發總監蘇遠超聊了,
他是這么說的:
“多年以前,當我還在思科做架構的時候,
我們就開始思考,
傳統網絡架構需要增加新功能,
恐怕勉為其難,力不從心;
比如,控制面特別繁重、擴展困難、
運維繁瑣、容易出錯……
但是重構這事,在思科公司落不了地,
它不只是網絡本身的變革。
有很多依賴項,
需要網絡和運營支撐系統一體化才能做成。”
這可能是阿里廣域網(eCore)曾經的“野望”,
而今,eCore正在運行,用“現實”代替“想法”。
幾個小時,我們討論得很充分,
還是那句老話,技術的突破,常在工程前沿陣地。
我順手總結了超哥的核心觀點:
![]()
一舉解決從前傳統廣域網三十年的難題,
第一,最根本的一點就是“簡化”。
過去,網絡協議繁雜,功能堆疊,
導致路由器設備十分龐大,
從上到下簡化,將原有的N個協議,
精簡至兩個(ISIS和BGP),
大大縮小了難題的空間,
難度指數級地下降。
第二是高可靠架構設計,
架構高冗余,故障域減少;
AI對網絡穩定性的要求苛刻,
“故障爆炸半徑最小化”。
第三是運維卓越,
第四是面向服務,此篇按下不表。
這些原則需要在具體設計中平衡。
不難觀察:頂級廠商創新方向,
他們力圖簡化,
且追求獲得更好的服務。
我總結一下:簡化的工作很多,
不僅簡化控制平面,
還重構網絡分層、協議運行域劃分等,
把全網的大域分解成,
小的平面和更緊湊的運行區域;
這樣一來,協議狀態無需全域同步,
從根本上縮小故障域,
從而提升穩定性。
“穩定性”一詞,總是頻繁提到,
甚至有時候把一些表面上的改進,
也歸為“為了穩定性”。對穩定性的考驗,
一天24小時,要真實數據加以說明。
蘇遠超告訴我:
“今年城域網故障就減少了80%以上。”
![]()
![]()
(四)“為何你們能做單棧單片”?
單棧的“棧”是協議棧,
單片的“片”是芯片;
很明晰哪,單棧是軟件,單片是硬件,
挑戰性問題拋給阿里:
為何你們能做,而不是別人?
這就得從歷史的相似性中找一些啟發:
以前思科公司,
為了讓一個路由器達到很大的帶寬,
把一個路由器拓展到,
多框連在一起(Multi-Chassis Router),
可惜,這個做法很有局限性,
雖然解決了一個問題,
但是引入了更棘手的問題。
也就是:解決了規模和性能,
但是引入了,
高運維成本和難運維的問題;
這熟悉的配方,熟悉的套路,
這套“枷鎖”和當下熱門的AI超節點,
是不是十分類似?
我不下結論,交給讀者自己判斷。
打開這個“枷鎖”的鑰匙,
我認為是“單棧單片”,
這是一種設計理念。
先把協議簡化,簡化軟件,
再簡化硬件,雙管齊下。
為什么以前不這么干?
因為以前軟件和硬件,都沒準備好。
比如,路由器承載很多功能,
且要求大帶寬。
芯片很難同時做到,
因為功能豐富和帶寬是相互妥協的關系。
要么放棄豐富功能,要么放棄大帶寬,
糾結很多年,總需要一個新出路。
這時候就不得不提,
源于思科公司的Segment Routing技術。
或者說,思科團隊也追求簡化思想,
需要和一個持有相同技術理念的軟件團隊,
雙向奔赴。
于是,思科和阿里的合作,水到渠成。
協議簡化之后,
路由器設備也可以采用大帶寬芯片來實現功能。
然而,對于路由器設備來說,
僅僅依靠大帶寬是不夠的,
它還需要大緩存來支持長距離傳輸。
針對這一需求,
思科的Silicon One
P200芯片應運而生。
單棧單片架構,
既具備大帶寬,又具備大緩存,
是經過特定優化的芯片。
于是,一通操作猛如虎,
帶寬直達51.2T。
![]()
架構和協議簡化了,
高效且專門優化的,
大帶寬芯片(51.2T)也有了,
此時,控制面和數據面的條件都已具備,
單芯片的路由器已然成為可能。
設備簡化到什么程度呢?
披薩盒式(Pizza-box)白盒路由器,
最終,做到了:
原本,復雜設備(大框路由器),
需要多個芯片拼接在一起;
現在每臺設備只配備一個芯片,
避免了多芯片協作的復雜性。
結果,雖然設備數量增多,
但每臺設備變得簡單,
整體架構高效和靈活。
簡單來說,
這是協議棧的簡化和大帶寬芯片,
相輔相成的結果,
也就是“單棧單片”。
![]()
(五)架構設計圖長啥樣?
簡化,聽上去真不錯,
但要落地,并非易事,
如何簡化呢?最好先來看全局圖;
蘇遠超給我看了一張《高層次設計圖》,
![]()
將廣域網分解成多個層次,
每個層次負責處理特定的功能或問題,
從而簡化了整個網絡的管理和操作,
層次化設計確實可以看作,
是一種“分而治之”的策略。
圖上阿里云廣域網絡(名叫eCore),
分為邊緣(Edge)和核心(Core)兩部分。
核心層里有EC(核心路由器),
就像城市間的飛機,
數據經過EC,好比坐上了飛機;
有飛機自動導航系統,
路由器之間使用ISIS協議,
在不同的城市之間,
比如,京滬牛馬專線,傳輸數據;
而在邊緣層是(也就是EAR和ESR),
分別好比汽車和電瓶車,
負責處理從overlay網絡(虛擬網絡),
到underlay網絡(底層網絡)的轉發。核心層里,
核心路由器主要任務是路由計算,
比如,最短路徑選擇,
讓流量按最優路徑傳輸。
![]()
我們按照進出的順序擼一遍,
當要傳輸內容從數據中心出去時,
怎么走呢?
首先,會經過邊緣路由器,
這些路由器擅長處理數據的封裝,解封裝。
接著,數據流會進入核心層路由器,
在這些核心路由器上,計算最優路徑,
簡而言之,核心層和邊緣層的劃分,
體現在路由器負責工作的不同。
![]()
怎么進出數據中心?
得好好理解核心層和邊緣層,
再捋一下《數據中心一日游》攻略:
1.PKT(原始發送的內容)先到ESR:
數據包從源頭出發后,
首先到達ESR(Edge Service Router)層。
在此階段,原始數據包(PKT),
會被封裝(overlay網絡),
形成一個新的封裝層,
使得數據包可以通過虛擬網絡進行傳輸。
2.ESR封裝后,進入EAR:
給數據包封裝(underlay網絡),
通過EAR(Edge Access Router),
進入underlay網絡。
盡管數據包仍然帶有overlay封裝,
EAR會給數據包加上封裝(underlay網絡),
使其能夠在物理網絡中轉發。
EAR負責將帶有封裝的數據包
(overlay和underlay),
傳輸到下游網絡。
3.數據包走出EC設備,
會在EAR剝掉封裝(underlay網絡),
再在ESR階段把封裝剝掉(overlay網絡),
走出EAR和ESR之后,
進入數據中心前,會恢復為原始數據包(PKT)。
(六)為何服務得更細膩
理解這點,需要理解源路由技術,
英文名,Segment Routing,SR;
有了SR,用上SRV6協議,
才能有提供精細服務的可能。
當然落地還需要芯片,
思科公司Silicon One芯片。
不過,得單拎出來講;
這篇到此,下篇見。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.