網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Kubernetes把IP地址當消耗品用

2026-03-25 12:41:12　來源: 全棧遛狗員

北京舉報

分享至

2024年云原生技術報告顯示，單個中型K8s集群每天平均銷毀重建Pod超過12000次。這意味著什么？你的應用每小時可能要換3次"門牌號"。

如果每個容器都是一間辦公室，傳統(tǒng)運維思維是給每間辦公室裝固定電話。Kubernetes的做法更極端：它讓辦公室每天搬家，然后告訴你"反正前臺總機找得到人"。這套反直覺的設計，成了云原生時代最被低估的工程決策。

一、從"找房間"到"找服務"：IP地址的貶值運動

傳統(tǒng)虛擬機時代，IP地址是資產(chǎn)。運維會為關鍵服務申請固定IP，寫進防火墻白名單，刻進配置文件的每一個角落。遷移一次服務器，變更流程能跑兩周。

Kubernetes把這個邏輯連根拔起。它給每個Pod分配IP，但明確告訴你：這個地址隨時會失效。Pod崩潰、擴容、節(jié)點調(diào)度——任何操作都可能讓IP變成歷史。

這不是設計缺陷，是刻意為之的架構選擇。

Google Borg系統(tǒng)的遺產(chǎn)在這里顯現(xiàn)。Borg工程師早在2005年就發(fā)現(xiàn)：試圖在動態(tài)環(huán)境中維護固定地址，成本遠高于接受"地址即臨時標識"。K8s繼承了這個判斷，把穩(wěn)定性責任從網(wǎng)絡層上移到服務發(fā)現(xiàn)層。

結果是一套分層解耦的系統(tǒng)。網(wǎng)絡層只管連通性，服務層管尋址，應用層只管調(diào)用服務名。每層只關心自己的鄰居，不用穿透整個棧去猜"那個IP現(xiàn)在是誰在用"。

這種設計在微服務場景下尤其鋒利。一個電商系統(tǒng)可能有300個服務實例在跑，手動維護它們的地址矩陣，相當于在地震帶蓋摩天樓。K8s的做法是：讓地震成為常態(tài)，然后設計抗震結構。

二、Service：集群里的"總機小姐"

Service是K8s對"穩(wěn)定地址"問題的答案。它不指向具體容器，指向一組標簽匹配的Pod。Pod來了，自動加入；Pod走了，自動剔除。

技術實現(xiàn)上，Service通過kube-proxy維護節(jié)點上的iptables或IPVS規(guī)則。當流量命中Service的ClusterIP，會被負載均衡到后端Pod。對調(diào)用方來說，感知不到后端變化——就像打電話給總機，永遠有人接，但接電話的人可能每次都不同。

這里有個容易被忽略的細節(jié)：Service的穩(wěn)定性是相對的。ClusterIP在Service生命周期內(nèi)不變，但Service本身可以被刪除重建。生產(chǎn)環(huán)境中，更可靠的尋址方式是通過DNS——CoreDNS會為每個Service創(chuàng)建A記錄，名字比IP更持久。

DNS記錄 + Service = 雙保險。IP變了？DNS指向沒變。Service重建？名字還在，重新關聯(lián)即可。

這套機制的代價是額外的網(wǎng)絡跳數(shù)和DNS查詢延遲。但在分布式系統(tǒng)的復雜度面前，這點開銷屬于"可接受的稅"。畢竟，手動維護服務注冊表的隱性成本，往往被嚴重低估。

社區(qū)對此有過激烈爭論。2019年Kubernetes網(wǎng)絡特別興趣小組的會議記錄顯示，部分成員主張"有狀態(tài)服務應該支持固定IP"，但最終被否決。核心論據(jù)是：固定IP會鼓勵錯誤的設計模式，把臨時解決方案變成架構依賴。

三、Ingress與負載均衡：當流量從外部涌入

Service解決集群內(nèi)部通信，但外部流量怎么進？NodePort是最簡單的答案：在每個節(jié)點上開放一個端口，映射到Service。問題在于端口范圍受限（30000-32767），且節(jié)點IP暴露在外。

生產(chǎn)環(huán)境更常見的選擇是Ingress。它引入第7層路由，基于域名和路徑分發(fā)流量。一個Ingress控制器（如Nginx、Traefik）監(jiān)聽80/443端口，根據(jù)規(guī)則把請求轉(zhuǎn)給不同Service。

這相當于在寫字樓門口設了智能前臺。訪客說"找市場部"，前臺查表后引導到A座15層；說"找技術部"，引導到B座8層。同一大門，不同目的地。

Ingress的進化史反映了K8s社區(qū)的務實傾向。早期Ingress資源對象功能有限，各家控制器實現(xiàn)差異大。Gateway API作為繼任者，正在標準化流量管理語義，但Ingress的存量部署預計還會存在多年。

云廠商的托管K8s服務通常提供更上層抽象：AWS的ALB Ingress Controller、GCP的GCE Ingress，直接把云負載均衡器掛進集群。用戶配置一個注解，背后自動生成數(shù)十個云資源。這是K8s生態(tài)的典型模式——核心保持精簡，擴展交給供應商和社區(qū)。

四、服務網(wǎng)格：當Sidecar成為標配

Istio、Linkerd等服務網(wǎng)格項目，把服務發(fā)現(xiàn)推向了極端。它們在每個Pod里注入Sidecar代理，攔截所有進出流量。服務間不再直接通信，而是通過代理中轉(zhuǎn)。

這相當于給每間辦公室配了專屬秘書。你想聯(lián)系隔壁部門，先告訴你的秘書；秘書查內(nèi)部通訊錄，找到對方秘書，建立連接。雙方老板只感知到"通話質(zhì)量"，不感知路由細節(jié)。

Sidecar模式的優(yōu)勢是功能集中：mTLS加密、流量鏡像、熔斷限流、可觀測性，都在代理層統(tǒng)一實現(xiàn)。應用代碼保持干凈，不用關心這些橫切關注點。

代價同樣明顯。資源開銷增加15-30%，延遲增加毫秒級，調(diào)試復雜度上升。2023年Istio社區(qū)推動的Ambient Mesh架構，試圖用節(jié)點級代理替代Sidecar，就是對這個代價的回應。

服務網(wǎng)格的采用曲線很有意思。早期 adopters 是金融、電信等對合規(guī)和可觀測性要求極高的行業(yè)。普通互聯(lián)網(wǎng)公司往往停留在"Service + Ingress夠用"的階段，直到微服務規(guī)模突破某個閾值，才被迫升級。

這個閾值沒有統(tǒng)一數(shù)字，但有一個信號：當開發(fā)者開始抱怨"找不到哪個服務在拖慢整體"，就是網(wǎng)格化的時候了。

五、eBPF：內(nèi)核里的新戰(zhàn)場

服務網(wǎng)格的性能問題，催生了更激進的解決方案。Cilium等項目用eBPF（extended Berkeley Packet Filter，擴展伯克利包過濾器）把網(wǎng)絡功能下沉到Linux內(nèi)核，繞過iptables和Sidecar的用戶態(tài)開銷。

eBPF允許在內(nèi)核中安全地執(zhí)行沙箱程序，無需修改內(nèi)核源碼或加載內(nèi)核模塊。Cilium用它實現(xiàn)高性能的網(wǎng)絡策略、負載均衡和可觀測性，同時保持K8s的原生語義兼容。

這相當于把寫字樓的弱電系統(tǒng)全面升級，從模擬電話換成光纖到戶。前臺、秘書、總機這些角色還在，但通信延遲從"人說話的速度"變成"電信號的速度"。

2024年，eBPF在K8s網(wǎng)絡中的滲透率正在快速上升。GKE、EKS等主流托管服務都提供了Cilium作為網(wǎng)絡插件選項。一個值得關注的指標是：Cilium的GitHub star數(shù)在2022-2024年間增長了340%，增速超過大多數(shù)基礎設施項目。

但eBPF不是銀彈。它需要較新的內(nèi)核版本（4.19+），調(diào)試工具鏈仍在成熟，學習曲線陡峭。對于網(wǎng)絡需求簡單的集群，傳統(tǒng)CNI插件可能仍是更務實的選擇。

六、從"找得到"到"找得快"：DNS的隱性成本

Service和DNS解耦了服務名與IP，但引入了新問題：DNS查詢本身成為瓶頸。CoreDNS默認的緩存策略、ndots配置、搜索域列表，都曾導致生產(chǎn)事故。

一個經(jīng)典案例：某頭部電商在2022年大促期間，因CoreDNS解析延遲飆升，導致訂單服務超時。根因是Java應用的DNS緩存TTL與K8s Pod生命周期不匹配，頻繁觸發(fā)全量解析。

修復方案是分層緩存：應用層緩存、NodeLocal DNSCache、CoreDNS本身緩存，加上合理的TTL調(diào)優(yōu)。這相當于在寫字樓里增設多個問詢處，減少總臺的查詢壓力。

更激進的優(yōu)化是繞過DNS。部分團隊采用服務網(wǎng)格的xDS協(xié)議直接下發(fā)端點列表，或讓客戶端直連Service的ClusterIP。這些做法犧牲了部分靈活性，換取延遲確定性。

在K8s網(wǎng)絡優(yōu)化中，"找得到"和"找得快"是兩個獨立維度。很多團隊只驗證了連通性，沒壓測過解析延遲，直到故障發(fā)生才補課。

七、網(wǎng)絡策略：當開放成為默認選項

K8s的網(wǎng)絡設計有一個常被批評的特性：默認全開放。任何Pod可以訪問任何其他Pod，除非顯式配置NetworkPolicy限制。

這與其他系統(tǒng)的"默認拒絕"原則相反。Docker默認隔離容器，VMware NSX默認微分段，K8s選擇信任開發(fā)者知道自己在做什么。

安全團隊的應對是策略即代碼：用OPA（Open Policy Agent，開放策略代理）或Kyverno在CI/CD階段審計NetworkPolicy覆蓋，用Cilium的Hubble可視化流量矩陣，用Falco檢測異常連接模式。

2023年Kubernetes安全審計報告指出，73%的生產(chǎn)集群缺乏有效的網(wǎng)絡分段策略。這個數(shù)字背后，是"先跑起來再優(yōu)化"的工程文化，與安全合規(guī)要求的持續(xù)張力。

一些團隊采用漸進式收緊：先監(jiān)控所有流量，標記已知合法的連接，再逐步阻斷未標記的流量。這相當于在開放式辦公室里先裝攝像頭，觀察三個月，再決定隔板怎么擺。

八、多集群與混合云：當"一棟樓"變成"一個園區(qū)"

單集群的服務發(fā)現(xiàn)相對簡單。當業(yè)務擴展到多集群、多云、甚至邊緣節(jié)點，事情變得復雜。

Submariner、Skupper、Karmada等項目試圖在不同集群間建立扁平網(wǎng)絡，讓Pod跨集群直接通信。這相當于在園區(qū)內(nèi)的多棟寫字樓之間鋪設地下通道，保持"同一地址空間"的幻覺。

更常見的做法是接受集群邊界，用全局負載均衡（GSLB）或服務網(wǎng)格的多集群模式，在應用層處理跨集群路由。犧牲透明性，換取運維獨立性。

Google的Anthos、微軟的Arc、紅帽的ACM，都在推各自的混合云網(wǎng)絡方案。它們的共同點是：不把K8s網(wǎng)絡當作孤立問題，而是與企業(yè)現(xiàn)有的SD-WAN、專線、云互聯(lián)服務整合。

這個領域的標準仍在演化。Gateway API的多集群擴展、ClusterSetIP提案，都是2024年的活躍話題。對于多數(shù)團隊，建議策略是：單集群內(nèi)用原生機制，跨集群用顯式網(wǎng)關，避免過早追求網(wǎng)絡透明。

九、可觀測性：當流量成為信號

服務發(fā)現(xiàn)系統(tǒng)的健康，最終要通過數(shù)據(jù)驗證。K8s網(wǎng)絡的可觀測性分層展開：CNI插件提供節(jié)點級指標，CoreDNS提供解析日志，Service網(wǎng)格提供應用級追蹤，eBPF程序提供內(nèi)核級事件。

Prometheus + Grafana是事實標準，但網(wǎng)絡指標的解讀有門檻。kube-proxy的同步延遲、conntrack表滿、DNS 5xx錯誤，各自指向不同層面的問題。

Netflix開源的Skuber工具、Pixie的eBPF自動追蹤，都在降低這個門檻。它們的思路是：把網(wǎng)絡數(shù)據(jù)翻譯成應用開發(fā)者能理解的語義，比如"這個API調(diào)用的網(wǎng)絡路徑上有幾跳，每跳延遲多少"。

最理想的可觀測性，是讓網(wǎng)絡問題"自解釋"——不是拋出原始指標，而是直接指出"Pod A到Pod B的延遲異常，建議檢查節(jié)點X的CPU steal time"。

這要求把網(wǎng)絡、計算、存儲的監(jiān)控數(shù)據(jù)打通，目前仍是少數(shù)頭部團隊的特權。多數(shù)生產(chǎn)環(huán)境，網(wǎng)絡故障排查仍依賴tcpdump和kubectl exec的原始組合。

十、設計哲學的回響：為什么K8s敢這么設計

回顧K8s網(wǎng)絡架構的演進，有一條主線清晰可見：把復雜性推到更高抽象層，讓下層保持簡單和快速。

IP不穩(wěn)定？用Service和DNS封裝。負載均衡不夠靈活？用Ingress和Gateway擴展。安全策略復雜？用NetworkPolicy和CNI插件外掛。性能瓶頸？用eBPF下沉到內(nèi)核。

這種分層不是偶然，是Google十年Borg運營經(jīng)驗的結晶。Borg工程師在2015年的論文中寫道："我們學到的最重要一課，是避免在基礎設施中嵌入業(yè)務邏輯。"K8s的網(wǎng)絡設計忠實地執(zhí)行了這個原則。

對比同時代的Docker Swarm或Mesos，K8s的默認選擇往往更"極端"：更動態(tài)、更無狀態(tài)、更依賴外部系統(tǒng)。這些選擇在早期增加了采用門檻，但在大規(guī)模場景下展現(xiàn)出韌性。

2024年的K8s網(wǎng)絡生態(tài)，正在經(jīng)歷從"能用"到"好用"的轉(zhuǎn)型。Gateway API成熟、eBPF普及、服務網(wǎng)格簡化，都是這個轉(zhuǎn)型的標志。但核心設計哲學沒有變：IP是消耗品，服務是契約，網(wǎng)絡是平臺而非產(chǎn)品。

對于正在評估技術棧的團隊，一個實用的判斷標準是：你的應用能否接受"每天換12000次地址"而不出錯？如果答案是否定的，需要檢查的不只是網(wǎng)絡配置，可能是整個架構的耦合度。

一位在K8s早期就參與社區(qū)建設的工程師，去年在KubeCon的演講末尾說：「我們花了八年時間，才讓大多數(shù)人相信動態(tài)IP不是問題。現(xiàn)在的問題是，下一代開發(fā)者會不會以為這是唯一的方式？」

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.