網易首頁 > 網易號 > 正文申請入駐

36.4萬超聲圖文對！中國團隊構建首個大規模超聲專屬數據集

2026-04-12 15:16:51　來源: 量子位

北京舉報

分享至

Ultrasound-CLIP團隊投稿
量子位 | 公眾號 QbitAI

超聲領域也有大模型了！

超聲影像憑借實時、無輻射的優勢，成為臨床各場景的一線診斷手段。

但異質的解剖結構、多樣的診斷屬性，讓通用視覺語言預訓練模型難以直接適配，且現有醫療跨模態數據中超聲樣本占比不足5%，成為領域研究的核心瓶頸。

△超聲圖像統計數據跨越主要基準點的分布情況。

上圖紅色區域和內部百分比顯示了超聲圖像所占的比例，而藍色區域則展示了其余模態的占比情況。頂部標簽表示絕對數量（以千為單位）。論文中所提出的US-365K是首個大規模、100%專用于超聲影像的數據集。

針對這一問題，浙大城市學院聯合浙江大學、香港城市大學、香港浸會大學、浙江大學醫學院附屬第一醫院、浙江大學醫學院附屬婦產科醫院等團隊，構建了首個大規模通用超聲圖像-文本數據集US-365K，并提出專為超聲場景設計的語義感知對比學習框架Ultrasound-CLIP，讓模型真正理解超聲的臨床診斷語義，相關成果被CVPR 2026接收，數據集及代碼已開源。

核心痛點：超聲跨模態學習的三重障礙

現有視覺語言模型在超聲領域的應用，始終面臨三個關鍵問題：

1. 數據缺口顯著：主流醫療跨模態數據集以CT、MRI等為主，超聲樣本占比極低，缺乏大規模、標準化的專屬訓練數據；

2. 語義模糊難對齊：超聲診斷報告的表述多樣，相同病變存在不同描述方式，傳統對比學習難以精準界定正負樣本，易產生語義偏差；

3. 缺乏臨床結構先驗：超聲診斷依賴病灶與診斷屬性的復雜關聯，通用模型無法建模這類專業的臨床推理邏輯，僅能實現簡單的關鍵詞匹配。

△UDT和Ultrasound-CLIP概述。

上圖中(a) UDT作為語義基礎，通過標準化解剖層次結構（UHAT）和定義9個關鍵診斷屬性（UDAF）來形式化超聲知識。(b) Ultrasound-CLIP利用UDT的方式有兩種：(1)基于UDAF的異構圖編碼器通過交叉注意力將屬性關系融合到文本嵌入中，以建模結構化推理。(2)構建基于UDAF的語義先驗，以實現雙目標優化，從而解決歧義。該框架將視覺特征與這些圖增強的、語義感知的文本表示對齊。

為從根本上解決上述問題，研究團隊立足超聲臨床診斷的專業邏輯，從標準化數據構建和定制化模型設計兩大維度出發，打造全鏈路適配超聲場景的跨模態學習體系，實現雙重核心技術突破。

第一步：構建UDT知識框架，打造標準化US-365K數據集

團隊率先建立超聲診斷分類體系（UDT），為超聲數據的標準化標注和模型學習確立統一的專業依據，該體系包含兩大核心模塊，實現超聲診斷知識的結構化、形式化：

超聲層級解剖分類（UHAT）：按臨床診斷原則，系統梳理9大人體系統、52個器官的層級解剖結構，明確各器官的層級歸屬與上下文關聯，徹底解決不同數據源中解剖分類混亂的問題，實現超聲解剖標注的標準化；

超聲診斷屬性框架（UDAF）：凝練臨床醫生解讀超聲影像時核心關注的9大診斷維度，包括身體系統、器官、診斷結果、形狀、邊緣、回聲性、內部特征、后方聲學現象、血流信號，為每個維度定制臨床有效描述詞匯表，形成標準化的超聲診斷描述體系。

△基于UHAT的US-365K解剖層次結構可視化。

基于UDT標準化框架，團隊從5個國際權威醫療數據庫收集體量超聲數據，經多步驟精細化處理：先過濾非超聲內容，將超聲視頻按0.5秒間隔分解為靜態幀，平衡數據多樣性與冗余性；再基于UDAF框架，通過大模型+結構化提示的混合流水線，提取標準化診斷標簽；最后經醫療專家逐例審核、篩選，剔除模糊、不一致樣本，最終構建出US-365K數據集。

該數據集包含36.4萬對超聲圖像-文本樣本、11676個臨床真實病例，覆蓋全解剖區域，是業內首個100%專屬超聲的大規模圖文數據集，數據有效率超90%，填補了超聲跨模態大規模標準化數據的行業空白，為超聲AI研究奠定高質量數據基礎。

第二步：提出Ultrasound-CLIP框架，實現超聲語義的精準建模與對齊

針對超聲場景的語義模糊和結構缺失難題，團隊設計出Ultrasound-CLIP語義感知對比學習框架，在經典雙編碼器（圖像+文本）基礎上，創新融入UDAF引導的異質圖編碼器和基于UDAF的語義軟標簽兩大核心模塊，并采用雙目標優化策略，讓模型具備超聲領域的結構化臨床推理能力，突破通用模型的局限：

（1）UDAF引導的異質圖編碼器，建模臨床屬性結構化關聯

團隊將每個超聲樣本的文本標注，轉化為樣本專屬的異質圖：基于UDAF框架定義診斷節點和屬性節點兩類核心節點，根據樣本的標準化診斷標簽確定激活節點集，并在診斷節點與屬性節點間構建全二分連接，形成病灶-屬性的關聯圖結構。

通過輕量級異質圖神經網絡（GNN）對異質圖進行編碼，得到包含節點關聯信息的節點嵌入，再經注意力池化生成圖匯總向量，最后通過多頭交叉注意力將圖嵌入與原始文本嵌入融合，并通過門控殘差連接實現穩定融合，得到圖增強的文本嵌入。這一過程讓文本嵌入融入超聲診斷標簽與屬性的結構化臨床關聯，突破單純關鍵詞匹配的局限，讓模型能捕捉超聲診斷的專業語義邏輯。

（2）基于UDAF的語義軟標簽，實現細粒度語義相似度度量

摒棄傳統二進制硬標簽，團隊基于UDAF的9大診斷維度，構建連續語義相似度軟標簽：為每個診斷維度預定義標準化標簽相似度矩陣，計算樣本對在各維度的語義親和力，再加權聚合得到樣本對的整體語義先驗相似度，形成B×B的軟先驗矩陣（B為批次大小），實現細粒度的語義重疊識別，解決超聲診斷報告表述多樣帶來的語義模糊問題。

（3）雙目標優化策略，實現跨模態精準對齊與語義正則化

框架采用對比損失+語義損失的雙目標優化策略，讓模型同時實現圖像-文本跨模態精準對齊和語義特征的正則化：

對比損失（L(CLIP)）：采用經典對稱對比損失，最大化正樣本對（圖像-對應文本）的相似度，最小化負樣本對的相似度，實現圖像與文本的基礎跨模態對齊；

語義損失（L(semantic)）：融合均方誤差（MSE）和KL散度，讓模型預測的相似度矩陣與UDAF基語義軟先驗矩陣匹配，既實現相似度的數值匹配，又保證分布一致性，讓語義相似的樣本在特征空間中有效聚類。

通過雙目標聯合優化，模型既能實現超聲圖像與文本的精準跨模態對齊，又能精準捕捉超聲診斷的細粒度語義特征，真正理解超聲的臨床語言。

實驗驗證：全任務性能領先，泛化能力適配多臨床場景

團隊以US-365K為基礎，在多任務分類、圖像-文本檢索任務中開展實驗，并在4個公開的超聲下游數據集上驗證模型泛化能力，結果顯示Ultrasound-CLIP全面優于現有醫療CLIP基線模型：

多任務分類：平均準確率達59.61%，其中病灶邊緣、診斷結果等核心臨床屬性的識別準確率分別達84.44%、64.05%，能精準捕捉超聲診斷的關鍵信息。

圖像-文本檢索：圖像到文本檢索（I2T）@10達37.45%，文本到圖像檢索（T2I）@50達80.22%，實現超聲圖文的高效雙向匹配。

下游泛化：在乳腺、胃腸超聲等4個數據集的零樣本、線性探測、全微調任務中均取得最優性能，可適配不同超聲臨床診斷場景。

資源開源：助力超聲AI領域共同研究

為推動超聲跨模態學習領域的發展，團隊已將研究相關的代碼和US-365K數據集公開，為后續研究者提供可直接復用的基礎資源。

論文標題：
Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding
作者：
Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu*, Binbin Zhou*
單位：
浙大城市學院、香港浸會大學、浙江大學、浙江大學醫學院附屬第一醫院、浙江大學醫學院附屬婦產科醫院、香港城市大學
發表：
CVPR 2026
arxiv論文地址：
http://arxiv.org/abs/2604.01749
項目地址：
https://github.com/ZJUDataIntelligence/Ultrasound-CLIP
數據集地址：
https://huggingface.co/datasets/JJY-0823/US-365K
作者簡介：
本文第一作者為金佳云，浙大城市學院碩士生，研究方向為多模態大模型。本文在周斌彬副教授和劉潔博士的指導下完成。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.