337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

360 如何用 AutoMQ 解決千億級 Kafka 冷讀難題

0
分享至


作者 | 王任義 360 云平臺,基礎架構部消息中間件研發

“我們運維上百套裸金屬 Kafka 集群多年,最頭疼的就是業務高峰期消費積壓拖垮整個集群的寫入。切換到 AutoMQ 后,日志檢索平臺的生產 P99 從 10 秒降到 500 毫秒,積壓量下降了 40 倍,硬件成本還節省了一半。現在團隊終于可以把精力從基礎設施運維轉向業務優化。”

1 關于 360:從安全到云原生基礎設施

360 集團是中國領先的互聯網安全公司,也是互聯網免費安全的倡導者和先行者。自 2005 年創立以來,先后推出 360 安全衛士、360 手機衛士、360 安全瀏覽器等安全產品,服務數億用戶。隨著業務版圖從安全延伸到搜索、游戲、智能硬件等領域,360 內部的數據規模也在持續膨脹——每天產生千億級日志,PB 級數據需要實時采集、傳輸和分析。

支撐這一切的底座,是360 云平臺。作為集團技術中臺,360 云平臺為所有業務線提供存儲、計算、中間件等基礎云服務,而 Kafka 是其中最核心的消息隊列中間件。生產環境運行著上百套 Kafka 集群,主要采用裸金屬部署,單 Topic 峰值 60 萬 QPS,集群峰值 500 萬 QPS。

隨著集群規模持續增長,運維成本隔離性問題日益突出——硬件故障處理、擴容遷移、追趕讀拖垮寫入,這些都是大規模裸金屬 Kafka 的老大難問題。在云原生和 Serverless 的大趨勢下,360 云平臺開始思考:是否有更先進的 Kafka 架構,能更好地適配云時代?

團隊開始調研新一代方案,AutoMQ 基于 S3 的 Diskless Kafka 架構引起了關注——存算分離、讀寫路徑隔離、秒級彈性伸縮,這些特性恰好對準了 360 在大規模 Kafka 運維中最頭疼的問題。而 360 內部團隊基于 Apache OZone 提供了支持 S3 API 標準協議的分布式存儲系統,意味著 AutoMQ 所需的對象存儲底座在 360 內部已經具備,落地條件成熟。

2 冷 讀:從 Kafka 的架構短板到 AutoMQ 的解法

追趕讀(catch-up read)是消息系統中非常常見的場景:下游消費者因為處理瓶頸或批處理任務,需要從較早的位點開始消費已經不在內存中的“冷數據”。對于大多數消息系統來說,這本不應該是個難題,但 Apache Kafka 的架構設計讓冷讀變成了一個影響全局的性能殺手。

問題的根源在于 Kafka 讀寫路徑上的兩個關鍵技術選擇:

第一,Page Cache 無法區分冷熱數據。 Kafka 將內存管理完全交給操作系統的 Page Cache,自身不做冷熱分離。當消費者讀取冷數據時,大量磁盤數據被加載進 Page Cache,擠占了熱數據的內存空間,導致原本可以從內存直接讀取的實時消費(tail read)也開始頻繁觸發磁盤 IO。

第二,SendFile 系統調用阻塞網絡線程。 Kafka 的零拷貝機制依賴 SendFile 系統調用,而這個調用發生在 Kafka 的網絡線程池中。當 SendFile 需要從磁盤拷貝冷數據時,會阻塞網絡線程。由于同一個線程池同時處理讀寫請求,冷讀不僅拖慢自己,還會級聯影響同集群所有 Topic 的寫入性能


這是一個已知的架構問題(KAFKA-7504),至今未被根本解決。

https://issues.apache.org/jira/browse/KAFKA-7504

360 云平臺對此深有體感。360 有一個核心業務場景:線上服務的統一日志檢索平臺,所有服務的運行日志通過 Kafka 收集,統一寫入 Elasticsearch,業務基于 ES 做日志檢索和告警。這個業務的特點是波峰波谷明顯——每天業務高峰期,下游 ES 寫入達到瓶頸,消費者跟不上生產者,消息開始積壓,正是上面描述的冷讀場景。實際表現:業務高峰期消息積壓達到 10 億條、約 200 GB,集群寫入 P99 飆升到約 10 秒,同集群內其他業務的 Topic 也受到影響,日志檢索和告警的及時性無法保障。


AutoMQ 從架構設計的第一天就考慮了冷熱數據隔離問題,將數據路徑拆分為三條獨立通道:


寫入使用 Direct IO 繞過 Page Cache,從根本上避免了冷讀對寫入路徑的干擾。冷讀走對象存儲的高吞吐通道,充分利用對象存儲的帶寬能力,不與寫入和實時消費爭搶資源。三條路徑在架構層面徹底隔離,意味著無論下游消費者積壓多少數據,追趕讀都不會影響生產者的寫入性能


對 360 來說,AutoMQ 的三路徑架構直接對應了日志檢索平臺面臨的冷讀問題。同時,AutoMQ 100% 兼容 Kafka 協議,360 已有的業務代碼和自研 Client 框架無需改造;云原生的 K8s 部署模式也與 360 云平臺已全面容器化的基礎設施天然契合。

3 性能評估與驗證

在正式投入生產之前,360 團隊在 Kubernetes 上搭建了評估集群,從基礎延遲、冷讀隔離、彈性伸縮三個維度對 AutoMQ 進行了系統性驗證。評估集群使用 StatefulSet 分別管理 AutoMQ 的 Controller(2C/4GB)和 Broker(4C/16GB),數據持久化到對象存儲。

性能基準測試

評估環境就緒后,第一步是驗證基礎延遲是否滿足生產要求。團隊在 8 節點 Broker 集群上,使用業界標準的 OpenMessaging Benchmark 框架,分別以 100 MiB/s 和 500 MiB/s 兩個負載級別進行壓測(acks=all,確保數據持久化后再返回成功):

  • 發送延遲(ms)


  • 端到端延遲(ms)


追趕讀隔離測試

團隊以 100 MiB/s 持續發送,在累積 100 GiB 數據后拉起消費者從最早位點開始消費,模擬業務高峰期的冷讀場景。結果表明:寫入速率和延遲在追趕讀期間保持穩定,追趕讀峰值達到約 461 MiB/s,能夠快速消化積壓消息。讀寫路徑的隔離性得到驗證。


彈性伸縮測試

對于 360 這樣擁有上百套 Kafka 集群的團隊來說,彈性伸縮能力直接決定了運維負擔的大小。傳統 Apache Kafka 的擴容之所以慢,根本原因在于 Broker 是有狀態的——每個 Broker 本地磁盤上存儲著大量 partition 數據,新增節點后需要跨網絡遷移這些數據才能實現負載均衡,數據量越大遷移越慢,動輒數小時甚至數天。AutoMQ 的存算分離架構從根本上改變了這一點:數據全部持久化在對象存儲中,Broker 是無狀態的,新節點啟動后只需接管 partition 的元數據,無需遷移任何數據,因此可以做到秒級分區遷移和分鐘級彈性擴容。擴容完成后,AutoMQ 內置的自動重平衡機制會持續監測各節點負載,動態調度分區分配,確保流量在新舊節點間自動均衡。

360 團隊設計了一個極端場景來驗證這一能力:集群初始只有 1 個 Broker,創建 1000 分區的 Topic,直接以 1 GiB/s 的流量發送。從監控告警觸發到批量擴容再到流量自動均衡,全程 4 分鐘完成,無需人工干預,實際驗證效果如下圖所示。



相比傳統 Kafka 擴容動輒數小時的數據遷移,這個結果意味著 360 未來面對突發流量時,可以真正實現自動化的彈性響應,而不再依賴人工值守和提前預留大量冗余資源。

評估結論

三輪測試全部符合預期。基礎延遲在 acks=all 配置下依然保持毫秒級;追趕讀期間寫入性能完全不受影響,冷熱隔離的架構承諾得到了實測驗證;彈性伸縮從 0 到 1 GiB/s 僅需 4 分鐘,徹底改變了傳統 Kafka 擴容的運維模式。

4 生產部署與收益

基于評估結果,360 團隊決定將日志檢索平臺——冷讀問題最突出的業務——作為第一個生產業務切換到 AutoMQ。

生產部署架構

生產環境沿用了評估階段的部署模式。AutoMQ 的架構設計理念是將數據持久性和可用性卸載給云存儲,對象存儲本身的高可用性是整個架構的基石。為了在此基礎上進一步提升可用性,360 額外設計了集群級故障切換方案。

360 的做法是:每個 AutoMQ 集群配備一個 HA 備用集群,定時同步集群元數據。生產集群通過實時寫檢測持續監控健康狀態,一旦檢測到異常,自動將集群 DNS 解析切換到備用集群,同時修改 Endpoint 服務返回的集群地址。客戶端側配置 metadata.recovery.strategy=rebootstrap (Kafka KIP-899),故障發生后客戶端自動重新初始化連接地址完成集群切換,備用集群按需彈性擴容承接流量。這套方案充分利用了 AutoMQ Broker 無狀態的特性——備用集群無需預先承載數據,只需在切換時快速擴容即可。


在資源配置上,單個日志檢索集群高峰期部署 30 個 Broker Pod(4C/16GB),配合 HPA 自動伸縮,低峰期自動縮容節省資源。相比此前裸金屬 Kafka 需要長期預留大量物理機應對峰值流量,容器化部署的資源利用率有了質的提升。

上線收益

日志檢索平臺切換到 AutoMQ 后,困擾團隊已久的業務高峰期消息積壓問題被徹底解決。下表對比了切換前后積壓數據處理的核心指標,可以看到 AutoMQ 顯著提升了 Kafka 生產消費鏈路在消息堆積場景下的處理效率。

Kafka 常被用于削峰填谷,消息堆積本身是正常現象,關鍵在于消費者能否快速消化這些積壓數據。Apache Kafka 的傳統架構下,冷讀會觸發 Broker 磁盤 I/O,顯著拖慢消費速率。

AutoMQ 采用 Diskless 架構,天然實現冷熱數據分離:冷讀時通過 prefetch 和并發優化直接從對象存儲拉取歷史數據,既不影響實時寫入和追尾讀,也不會引發 Broker 側的磁盤 I/O 和性能劣化,因此能夠顯著提升積壓數據的消費速率,避免流量高峰期間堆積過多的數據。


從吞吐監控可以看到,切換后的日志檢索集群在業務高峰期峰值吞吐達到 1.4 GB/s,30 個 4C/16GB 的 Pod 即可穩定承載,寫入曲線平滑無毛刺。


存儲方面,數據自動持久化到對象存儲,存儲容量隨業務量彈性增長,無需提前規劃磁盤容量,也不再有裸金屬時代磁盤空間告警的運維負擔。


對比最為直觀的是 Consumer Lag 曲線:切換前,業務高峰期積壓峰值超過 10 億條消息;切換后,同樣的業務流量下積壓量下降了 40 倍,消費者能夠快速追上生產進度。

其中最關鍵的變化是隔離性:切換前,業務高峰期的消息積壓會通過冷讀污染 Page Cache,級聯拖垮同集群所有 Topic 的寫入;切換后,由于 AutoMQ 的讀寫路徑在架構層面徹底隔離,即使下游 ES 出現寫入瓶頸導致消費積壓,生產端的寫入延遲依然保持在毫秒級,日志檢索和告警的及時性得到保障。


切換 AutoMQ 前的 Consumer Lag


切換 AutoMQ 后的 Consumer Lag (積壓下降 40 倍)

5 展 望

日志檢索平臺的上線驗證了 AutoMQ 在 360 生產環境中的可行性。作為集團技術中臺,360 云平臺承載著上百套 Kafka 集群,覆蓋日志采集、實時計算、監控告警、數據同步等多種業務場景。日志檢索平臺只是第一步,接下來團隊計劃將 AutoMQ 逐步推廣到更多業務線的 Kafka 集群,充分利用存算分離架構帶來的彈性伸縮和成本優勢,最終實現從裸金屬到云原生 Kafka 架構的整體升級

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
80年陳云建議陳錫聯辭職,陳錫聯猛拍桌:讓我干啥,我絕無二話!

80年陳云建議陳錫聯辭職,陳錫聯猛拍桌:讓我干啥,我絕無二話!

抽象派大師
2026-03-25 12:04:28
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-25 21:05:22
真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

吃瓜局
2025-11-11 16:23:49
場上效果很不理想,湖人鋒線大閘到了季后賽估計還是很難出場?

場上效果很不理想,湖人鋒線大閘到了季后賽估計還是很難出場?

稻谷與小麥
2026-03-27 01:18:15
“14天12板”!000908,復牌后上演“地天板”

“14天12板”!000908,復牌后上演“地天板”

大眾證券報
2026-03-26 17:58:54
馬筱梅曬汪寶滿月宴,六菜一湯很低調,張蘭未參加,小心思太明顯

馬筱梅曬汪寶滿月宴,六菜一湯很低調,張蘭未參加,小心思太明顯

阿庫財經
2026-03-27 00:01:45
15戰14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

15戰14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

鍋子籃球
2026-03-26 11:25:55
巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

懂球帝
2026-03-26 06:43:09
外媒:40%的消費者希望中國品牌汽車進入美國市場

外媒:40%的消費者希望中國品牌汽車進入美國市場

環球網資訊
2026-03-24 13:45:12
伊朗再獲重大勝利!美國,又被打慘了!

伊朗再獲重大勝利!美國,又被打慘了!

大嘴說天下
2026-03-26 19:32:16
15名津巴布韋人被俄羅斯騙去烏克蘭當炮灰戰死,當局怒揭殘酷真相

15名津巴布韋人被俄羅斯騙去烏克蘭當炮灰戰死,當局怒揭殘酷真相

老馬拉車莫少裝
2026-03-27 00:00:37
伊朗抓捕14名叛國分子

伊朗抓捕14名叛國分子

財聯社
2026-03-26 20:04:13
路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

泠泠說史
2026-03-26 18:06:17
白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

每日經濟新聞
2026-03-26 17:08:49
菲總統候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

菲總統候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

小丸說故事
2026-03-17 14:23:29
柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

DS北風
2026-03-26 17:58:06
電影《挽救計劃》高口碑熱映 以跨文明協作詮釋守望相助溫暖內核

電影《挽救計劃》高口碑熱映 以跨文明協作詮釋守望相助溫暖內核

封面新聞
2026-03-26 18:56:02
智能麻將桌殺到:傳統麻將館真的要被“取代”了?

智能麻將桌殺到:傳統麻將館真的要被“取代”了?

生活新鮮市
2026-03-20 06:28:56
原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

證券時報e公司
2026-03-26 22:23:23
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
2026-03-27 02:16:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12207文章數 51820關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

時尚
游戲
家居
藝術
公開課

400萬人愛過的女孩,被黃謠網暴180天后

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

家居要聞

傍海而居 靜觀蝴蝶海

藝術要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版