![]()
2月24日至26日,第24屆USENIX文件與存儲技術會議(USENIX Conference on File and Storage Technologies, FAST)在美國圣克拉拉舉辦。清華大學計算機系存儲實驗室發表的論文“GPU檢查點保存和恢復的快速和輕量級方案”(GPU Checkpoint/Restore Made Fast and Lightweight)獲得杰出技術貢獻獎(Distinguished Artifact Award)。該論文第一作者為計算機系2021級博士生曾少勛(南大本科校友),導師為清華大學計算機系副教授陸游游。
清華大學存儲研究組是國內最早從事網絡存儲系統研究單位之一,隸屬于清華大學計算機系高性能所,由舒繼武教授(南大博士校友、國家杰青、閩江學院校長)、陸游游副教授(南大本科校友、國家優青)帶領從事存儲系統方面的研究。自本團隊成立以來,團隊在包括OSDI, SOSP, FAST, MICRO, SC等頂級會議以及ACM/IEEE Trans. 權威期刊發表學術論文近百篇,此外,在存儲系統方面,清華大學存儲研究組還獲得了國家科技進步二等獎、國家技術發明二等獎及省部級獎項等多項獎勵。
![]()
Shaoxun Zeng, Tingxu Ren, Jiwu Shu, Youyou Lu.GPU Checkpoint/Restore Made Fast and Lightweight.The 24th USENIX Conference on File and Storage Technologies (FAST'26), 2026.
【論文介紹】
該論文提出了一種快速且輕量級的GPU檢查點保存和恢復方案GCR,通過分離數據路徑與控制路徑提高保存和恢復過程中的帶寬利用率,并提出高效的GPU增量式檢查點技術。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多種型號的GPU。該論文因高質量的開源工作獲得本次大會獎項,其在功能完備性、性能可復現性等方面均展現出了高水準。
基于該論文,我們構建并開源了項目GPU-CR(https://github.com/gpu-os/GPU-CR),并在大模型推理場景進行了系統評估。實驗選取了多個主流模型進行測試,包括 Llama-8B、Qwen3-1.7B 等。實驗分別在 NVIDIA GPU 環境 和 AMD GPU 環境 下進行,對比方案為 cuda-checkpoint 和 CRIU。
實驗結果表明,GPU-CR 在 Checkpoint 和 Restore 兩個階段均取得了顯著的性能提升。
在 CUDA 平臺上,相比傳統 CUDA Checkpoint 方案:
·Checkpoint 階段實現 3.1 – 3.2 倍的加速
·Restore 階段實現 2.3 – 3.3 倍的加速
![]()
圖一:GPU-CR與cuda-checkpoint實驗結果圖
在 AMD 平臺上,相較于CRIU:
·Checkpoint 階段獲得 2.7 – 3.2 倍的加速
·Restore 階段獲得 1.6 – 2.2 倍的加速
![]()
圖二:GPU-CR與CRIU實驗結果圖
GCR能高效支撐多種現代GPU負載的關鍵應用場景,包括彈性GPU任務快速擴展、GPU多任務切換、容錯的GPU計算等,對于提升GPU集群整體利用率具有重要意義。
編輯、審核:胡大可
版權聲明:本文由“TOP大學來了”綜合自“清華大學計算機系、清華大學存儲研究組”,文章轉摘只為學術傳播,如涉及侵權問題,請聯系我們,我們將及時修改或刪除。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.