337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

如何在Kubernetes上運行AI/ML?

0
分享至

  在機器學習(ML)領域,訓練出高性能模型只是第一步,真正的挑戰在于如何將模型快速、可靠且經濟、高效地部署到生產環境中進行推理。特別是在大規模場景下,GPU資源管理、延遲優化、批處理策略、模型版本控制、可觀測性以及輔助服務(如預處理器、特征存儲庫和向量數據庫)的編排,都是亟待解決的難題。Kubernetes作為容器編排領域的佼佼者,為AI/ML應用提供了一個可擴展、可移植的平臺,不僅能夠有效管理GPU等計算資源,還能自動調整工作負載規模,以應對批處理任務以及實時推理的不同需求。

  Kubernetes,一個為AI/ML高效分配資源的理想平臺

  Kubernetes通過其強大的調度能力,能夠高效分配GPU和其他計算資源,實現工作負載的緊密打包和自動伸縮。同時,還能協調包含模型服務器、預處理器、向量數據庫和特征存儲在內的復雜系統,確保低延遲端點的穩定運行。容器化技術為模型環境提供了可重復性和一致性,使得模型的持續集成與持續部署(CI/CD)成為可能。Kubernetes內置的滾動更新、流量分割以及指標追蹤功能,進一步增強了生產環境的安全性和可靠性。

  對于追求操作簡便性的團隊,托管端點服務或許是一個選擇,但在需要高度控制、可移植性、高級編排以及實時服務能力的場景下,Kubernetes無疑是首選。

  典型ML推理設置,KServe在Kubernetes上的應用

  使用KServe在Kubernetes上進行機器學習推理,有一個典型架構,那就是客戶端(如數據科學家、應用程序或批處理作業)通過Ingress向KServe的InferenceService發送請求。內部,通過可選的Transformer組件負責預處理輸入數據,預測器用來加載模型并提供預測功能,而可選的解釋器則提供模型洞察。模型工件從模型存儲中提取,并通過TensorFlow、PyTorch、scikit-learn、ONNX或Triton等運行時進行處理。整個系統運行在Knative/Kubernetes之上,支持CPU和GPU計算層,并可與AWS、Azure、Google Cloud等云服務提供商集成。


  至于,MLFlow與KServe的集成如何操作?MLFlow是一個開源的機器學習框架,旨在解決模型從實驗到生產過程中遇到的常見問題,如實驗數據丟失、結果重現困難以及模型版本管理混亂。它通過跟蹤運行情況、保存環境代碼和管理模型版本,為模型部署提供了有序的流程。MLFlow還支持將模型打包為Docker鏡像,便于分發到Kubernetes等服務平臺。

  MLFlow與Kubernetes的集成,有一個關鍵點需要注意,雖然MLFlow提供了基于FastAPI的推理服務器,并通過mlflow models build-docker命令支持容器化部署,但這種方法在大規模生產環境中可能不夠高效。FastAPI的輕量級特性使其難以應對極端并發或復雜的自動伸縮模式。相比之下,KServe(前身為KFServing)為TensorFlow、XGBoost、scikit-learn和PyTorch等主流機器學習庫提供了高性能、可擴展且與框架無關的推理平臺。

  更好地托管AutoML,把Azure ML轉為AKS

  首先,Azure ML與AKS進行集成。Azure ML是一個全面的機器學習生命周期管理平臺,支持實驗跟蹤、模型注冊表、訓練、部署和監控。對于需要高度控制運行時、擴展和網絡的場景,Azure Kubernetes Service(AKS)是一個理想的選擇。它允許自定義運行時、進行嚴格的性能調整,并與現有Kubernetes基礎設施集成。

  其次,進行分步操作,在AKS上部署Azure ML AutoML模型。

  讓Kubernetes上的LLM服務更好地運行,還需要vLLM與KServe的集成。接下來的問題是,如何把LLM與Kubernetes進行結合?在Kubernetes上運行大型語言模型(LLM)可以實現可靠、可擴展且可重復的推理。Kubernetes提供了GPU調度、自動伸縮和基本功能編排,而vLLM等優化運行時則提供了高通量、高內存效率的推理能力。通過結合請求批處理和可觀測性(指標、日志記錄和健康檢查),可以提供低延遲的API服務。

  使用vLLM和KServe部署LLM的步驟如下:

  1.準備集群和KServe。配置Kubernetes集群(AKS/GKE/EKS或本地),并安裝KServe。

  2.獲取vLLM。克隆vLLM倉庫,安裝vLLM,并在本地測試vllm serve命令。

  3.創建vLLM服務運行時/容器。構建容器鏡像,或使用KServe支持的vLLM服務時間配置。

  4.部署InferenceService。應用KServe InferenceService YAML文件,引用vLLM服務的運行時和模型存儲。

  5.驗證和調諧。通過Ingress/負載均衡器調用端點,測量延遲/吞吐量,并調整vLLM批處理/令牌緩存設置和KServe自動伸縮規則。

  另外, vLLM、KServe,還要與BentoML進行集成。vLLM,作為高通量、GPU高效的推理引擎,負責實際執行LLM;BentoML,封裝模型加載、自定義預處理/后處理以及穩定的REST/gRPC API,構建可重復的Docker鏡像或工件;KServe,作為Kubernetes控制平面,部署Bento鏡像或vLLM鏡像,并處理自動伸縮、路由、健康檢查和生命周期管理。最終,通過BentoML打包模型和請求邏輯,KServe將該容器以InferenceService的形式運行,提供自動伸縮、流量控制和可觀測性。

  值得一提的是,不同的技術路線選擇,都有自己的優缺點。KServe作為Kubernetes-原生機器學習服務與編排框架,提供了豐富的路由、內置遙測和解釋器集成以及多運行時支持,但學習曲線較陡,操作面較大。BentoML以Python為中心,提供了出色的開發者人體工學設計和可重復的圖像,但集群原生控件較少。NVIDIA Triton推理服務器則以其出色的GPU吞吐量和混合幀支持著稱,但同樣需要額外的設置來實現自動伸縮和高級Kubernetes操作。

  結論

  在生產環境中運行可靠、低延遲的AI/ML應用,同時控制成本、性能和可重復性,是每個ML團隊的目標。Kubernetes通過其強大的編排能力,為模型及其支持服務提供了所需的資源管理和自動伸縮功能。結合優化的運行時、服務層和推理引擎,我們可以在保持高輸入性能的同時,獲得生產級操作控制。從小處著手,使用單個模型進行驗證,然后根據清晰的SLO選擇符合性能和操作需求的服務棧,最終迭代出彈性且可擴展的服務。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
搶奪現金當場被抓!臨縣警方5小時速破案件

搶奪現金當場被抓!臨縣警方5小時速破案件

黃河新聞網呂梁
2026-03-29 08:10:32
5500臺全球第一,4000臺吃灰:宇樹機器人,終究是實驗室的狂歡?

5500臺全球第一,4000臺吃灰:宇樹機器人,終究是實驗室的狂歡?

墨印齋
2026-03-27 18:34:46
4月即將上市的7款重磅新車,最后一款大概率涼涼?

4月即將上市的7款重磅新車,最后一款大概率涼涼?

汽車天涯
2026-03-29 10:51:42
當MPV學會"算力平權":第二代騰勢D9預售開啟,38.98萬元起

當MPV學會"算力平權":第二代騰勢D9預售開啟,38.98萬元起

菁英侃車
2026-03-29 23:58:20
西方集體改口!中國不再解釋,直接亮出四張硬核底牌

西方集體改口!中國不再解釋,直接亮出四張硬核底牌

Thurman在昆明
2026-03-29 19:59:52
朱芳雨賭對了!CBA第一中鋒將加盟廣東隊,這可是杜鋒的爭冠底牌

朱芳雨賭對了!CBA第一中鋒將加盟廣東隊,這可是杜鋒的爭冠底牌

緋雨兒
2026-03-29 14:03:10
難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

銘記歷史呀
2026-03-21 17:44:21
NBA官宣!東契奇被禁賽!湖人遭受雙重打擊

NBA官宣!東契奇被禁賽!湖人遭受雙重打擊

籃球教學論壇
2026-03-29 09:25:30
德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

大西體育
2026-03-29 21:29:44
饅頭又立功!主治醫師:饅頭冷凍再加熱,抗性淀粉增加減肥又健康

饅頭又立功!主治醫師:饅頭冷凍再加熱,抗性淀粉增加減肥又健康

健康之光
2026-03-18 08:55:31
張雪峰員工:看到張老師躺著,公司下班無人離開,紅色錦旗被拆完

張雪峰員工:看到張老師躺著,公司下班無人離開,紅色錦旗被拆完

一盅情懷
2026-03-29 16:22:05
被指責“強行”侵權演唱《李白》,單依純道歉!李榮浩再發四連問:無授權你用什么立場、什么權利、什么角度、什么心態演唱?

被指責“強行”侵權演唱《李白》,單依純道歉!李榮浩再發四連問:無授權你用什么立場、什么權利、什么角度、什么心態演唱?

每日經濟新聞
2026-03-29 17:39:06
【2026.3.29】扒醬料不停:那些你不知道的八卦一二三

【2026.3.29】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-03-29 23:43:09
保衛處招聘要求“京內生源、碩士及以上學歷”,北師大回應:事業編制,不是“部分網友認為的保安”

保衛處招聘要求“京內生源、碩士及以上學歷”,北師大回應:事業編制,不是“部分網友認為的保安”

大象新聞
2026-03-27 20:45:06
把iPad mini 7當手機用一天,我人都麻了

把iPad mini 7當手機用一天,我人都麻了

雷科技
2026-03-29 14:15:04
不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

策前論
2026-03-29 21:12:53
張本智和父親:請中國人不要罵我兒子,他比你們99%的人都優秀!

張本智和父親:請中國人不要罵我兒子,他比你們99%的人都優秀!

拳擊時空
2026-03-29 04:58:33
一代金牌司儀何守信加國返港坐巴士近況曝光,曾公開不滿被洩行蹤

一代金牌司儀何守信加國返港坐巴士近況曝光,曾公開不滿被洩行蹤

粵睇先生
2026-03-29 22:18:57
萬斯獲美共和黨保守派陣營過半支持

萬斯獲美共和黨保守派陣營過半支持

界面新聞
2026-03-29 07:24:40
伊朗還能扛多久?法國專家算了筆賬:再打兩到四個月,問題不大

伊朗還能扛多久?法國專家算了筆賬:再打兩到四個月,問題不大

透視到底
2026-03-27 08:50:37
2026-03-30 01:15:00
ITPUB學院
ITPUB學院
分享技術干貨,了解最新動態
1191文章數 629關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

中國警告美國:勿將"沖突戰亂"引入亞太地區

頭條要聞

中國警告美國:勿將"沖突戰亂"引入亞太地區

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

數碼
游戲
本地
時尚
公開課

數碼要聞

內存條價格被曝出現斷崖式下跌,一天跌去百元

LCK傳奇選手被曝重磅丑聞?韓網爆料Ruler疑似逃稅遭調查!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

來到1980的周也,好毛利蘭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版