網易首頁 > 網易號 > 正文申請入駐

AI賦能虛擬空間蛋白組學，Cell、Nature Medicine論文復現及原理全解析

2026-03-24 12:34:15　來源: 生物世界

上海舉報

分享至

在生命科學快速發展的今天，空間組學讓我們看到細胞在組織中的位置與狀態，而AI 大模型則進一步打破了實驗與計算的邊界，讓我們有機會從一張普通病理切片中預測空間蛋白和分子信息。

本次培訓將系統學習從多模態配準到模型訓練、推理和課題遷移的完整流程，重點理解 AI大模型項目是如何從任務定義、數據配對、輸入輸出設計、訓練優化到結果評估，真正學會搭建屬于自己的 AI 大模型。

不僅看懂頂刊、復現頂刊，更能舉一反三，把“會用模型”真正升級為“會搭建自己 AI 大模型”，把 AI 大模型沉淀成服務自己課題和成果產出的核心競爭力。

論文介紹

本次復現的兩篇論文如下

論文鏈接：https://doi.org/10.1038/s41591-025-04060-4

論文鏈接：https://doi.org/10.1016/j.cell.2025.11.016

課程特色

1.真正學會搭建自己的AI大模型：

不是只學會調用現成大模型，而是系統掌握從任務定義、數據配對、輸入輸出設計，到大模型訓練、調參、評估和模型推理的完整搭建邏輯。

2.兩篇頂刊復現與模型構建雙線并進：

既復現CELL、Nature Medicine等頂刊文章的核心流程，又理解模型如何產生結果、如何支撐機制與結論，打通“論文復現 → 方法理解 → 模型構建”。

3.多模態全流程打通（圖像 × 單細胞 × 空間）：

從H&E病理圖像、CODEX多通道數據，到單細胞表達矩陣構建，再到空間映射與模型訓練，完整打通圖像 → 分子 → 空間 → AI建型，真正建立跨模態整合能力。

4.可直接遷移到自己課題：

強調如何把病理預測空間蛋白、虛擬mIF、預后建模等思路遷移到自己的數據和研究中。

5.直播授課 + 錄屏回看 + 長期答疑（一對一指導 + 包教包會）：

直播帶跑、課后錄屏反復看，資料包（代碼/講義/數據）全配齊；團隊七名全職答疑助理，即使課程結束，一對一指導答疑不結束，真正做到包教包會。

課程時間

一個半月系統教學，實打實包教包會

每周三、周五、周日晚19:00-22:00

（注意：錯過直播可以看錄播補上，看錄播過程中遇到問題也是七名助理一對一指導答疑）

共二十二節課：十八節精講課，四節零基礎編程教學課

課程核心模塊

課程總體分為四個模塊：

零基礎學習python編程四節課：課程適合完全零基礎“小白”報名

Nature Medicine 復現十節課：AI大模型如何用H&E病理切片預測空間蛋白

CELL 復現四節課：AI如何用病理切片生成虛擬mIF（多重免疫熒光）

TCGA公共數據庫四節課：病理切片公共數據挖掘（自己病理數據也可以挖掘）

模塊一：課前預熱四節課

第1節：Python環境搭建
1.Spyder和Anaconda軟件安裝（Windows、Linux、Mac）
2.Conda環境管理和鏡像設置
3.用conda和 pip安裝python包/庫的安裝方式
4.Jupyter Lab安裝和使用

第2節：Python編程語言入門

1.Python的縮進、命名規范（變量、函數、常量的命名方式）
2.包和模塊的基本概念，import的三種寫法
3.對象屬性與方法的調用
4.自定義函數def：參數、返回值、位置參數/關鍵字參數
5.條件語句和循環語句

第3節：Python數據結構進階

1.列表、元組、字典、集合基本數據結構的系統講解

2.生成和索引、增刪改查、列表排序、統計和去重

3.矩陣的新建和行/列取子集，布爾索引（使用numpy）

4.數據框的新建、行列選擇、數據類型轉換（使用pandas）

第4節：seaborn和matplotlib繪圖（數據可視化）
1.matplotlib基本繪圖流程
2.seaborn常用圖：histplot、boxplot、violinplot、barplot、heatmap
3.使用 plotnine（ggplot風格）繪圖
4.自定義顏色+配色，圖片設置、拼圖和圖片保存

模塊二：Nature Medicine 復現：AI大模型如何用H&E病理切片預測空間蛋白

第一講：掌握病理圖像與 CODEX（多重免疫熒光空間成像）超大圖像

1.掌握H&E 圖像的文件結構與基礎讀取，理解OME-TIFF 的底層結構

2.病理大圖多級分辨率金字塔與超大圖像按需讀取，實現效率與精度的平衡

3.CODEX 多通道圖像的高維結構，通過 XML 解析提取通道

4.空間多通道融合與共定位，單通道增強、偽彩融合可視

第二講：數字病理切片圖像和CODEX 多模態圖像對齊

1.對齊前基線建立，明確 H&E 與 CODEX/IF 在配準中的角色

2.理解 Palom 的核心數據流與參數體系以及Aligner 構建

3.縮略圖級粗對齊與仿射矩陣中縮放和平移

4.分塊精對齊與局部位移場優化，理解局部位移計算、異常位移約束

5. 配準結果輸出、質量控制與效果評估、圖像增強

第三講：掌握H&E 與 DAPI 兩種模態細胞核分割，將 CODEX 質心映射到 H&E 坐標系

1.StarDist 預訓練模型選擇與雙模態細胞核分割

2.細胞核形態特征提取

3.CODEX 質心映射到 H&E 坐標系，掌握基于全局仿射和局部分塊仿射

4.最近鄰距離分析與亞細胞級配準精度評估

第四講：配準后單細胞表達矩陣構建與組織空間分布模式

1. 雙模態圖像讀取，從細胞核到細胞區域的單細胞邊界劃分

2.多通道 CODEX 強度轉化為 scRNA 的 cell × gene 表達矩陣

3.單細胞矩陣的指控、標準化、降維與聚類分析

4.局部空間回投與 Marker基因空間展示，完成組織空間分布模式

5.掌握全切片圖像預處理與智能切塊全流程

第五講：復現Nature Medicine論文WSI 與 CODEX 處理流程

1. 雙模態數據讀取，H&E 全切片預處理與 40x 統一標準化

2. 偽影的多層質控體系過濾與高質量 Tile 篩選策略

3. H&E 染色標準化與 Tile 級特征提取

4.CODEX 通道歸一化與 Tile 表達矩陣構建

第六講：HEX 模型訓練，從訓練數據準備到模型微調與性能評估

1. HEX大模型的訓練數據格式轉換與標準化組織，包括圖像轉換、蛋白標簽以及命名規范統一。

2. 配對數據質控與訓練前完整性驗證，確認圖像內容與標簽信號的生物學一致性

3.HEX 訓練流程與輸入數據對接，掌握從數據準備完成到正式進入模型訓練的完整銜接邏輯。

4.模型訓練參數微調，包括凍結骨干網絡、解凍末層、魯棒損失函數和 Checkpoint 保存等關鍵訓練參數

5.HEX 模型性能評估：結合 Pearson 相關系數、MSE 等結果，判斷模型在不同蛋白通道上的預測能力與可用性。

第七講：HEX 大模型推理：從 H&E Patch 到 40 通道虛擬蛋白預測

1. 輸入H&E的Patch理解，建立模型任務對輸入形式和圖像預測蛋白表達的認知

2.系統理解 HEX 的整體網絡結構，掌握 MUSK 視覺編碼器作為病理特征的作用

3. 推理前預處理與標準化，確保輸入數據能夠正確送入模型。

4.完成從單張或多張 H&E Patch 到 40 維蛋白表達向量的批量推理

5. 將模型輸出整理為預測矩陣、預測結果展示與生物學解讀

第八講：HEX的AI大模型WSI高分辨率虛擬蛋白生成與空間可視化

1. 全切片推理任務設計與關鍵參數配置

2. 掌握全切片虛擬蛋白預測結果的存儲架構

3.AI大模型在 WSI 上的高分辨率推理流程

4.通過偽彩融合和色調映射生成論文級虛擬蛋白空間表達圖譜

5. 全通道瀏覽，比較不同免疫、基質和腫瘤相關標記物的共定位，形成對全切片空間微環境的整體理解

第九講：從Nature Medicine復現到HEX大模型構建，學會搭建自己的 AI 大模型（真正學會舉一反三，如何搭建自己的AI大模型，也是本次課程內容的核心）

1. 理解真正的 AI 大模型項目完整的搭建流程，從“腳本層面”深入到“項目層面”

2.掌握AI 大模型項目真正的骨架，圖像格式理解→ 多模態圖像配準→ 單細胞分割與空間映射→ WSI 預處理與高質量 patch 生成→ 模型輸入輸出定義→ HEX 模型訓練/推理→ 虛擬蛋白生成

3.AI大模型搭建的八步法：大模型從任務定義、數據訓練配對、原始數據標準化、空間對齊、特征構建、模型訓練、模型性能評估、多模態融合

4.理解大模型搭建策略：先選問題、找輸入、找標簽、建立輸入輸出配對關系、選訓練策略、設計評估體系、落到科學問題

5. 建立漸進式訓練思路，從小樣本快速跑通流程，再逐步過渡到正式訓練和微調，兼顧效率、穩定性和模型性能。

第十講：如何把Nature Medicine的思路遷移到你自己的課題

案例1：HE切片預測 IHC，實現從組織形態到虛擬 IHC 染色圖譜的預測

案例2：病理切片預測空間轉錄組，訓練模型從病理形態中推斷基因表達或功能模塊的空間分布。

案例3：病理圖像 + 臨床做預后預測，將 WSI 提取的圖像特征與年齡、分期等臨床變量融合建模，輸出患者風險評分并完成生存預后預測。

案例4：單細胞圖譜輔助構建圖像標簽，，訓練模型從病理形態中識別組織微環境特征。

CELL 復現：AI如何用病理切片生成虛擬mIF（多重免疫熒光）

第十一講：多級精配準，從初步對齊到亞像素級 ROI 精細配準

1. 雙模態全圖讀取與高質量 ROI 自動篩選

2. H&E RGB ROI和CODEX DAPI ROI 裁切與配準輸入構建

3. 三級漸進式配準策略：Rigid、Non-Rigid 與 Micro

4. 配準質量控制、多層次配準結果可視化與形變場解析

第十二講：CELL主刊GigaTIME大模型復現與自定義 WSI 局部推理

1.CELL主刊樣例數據預處理與二值掩碼解包，理解多通道蛋白信號的存儲機制

2. 非細胞區域過濾與激活密度定量評估，量化預處理對不同蛋白通道的影響。

3. 自定義 WSI 讀取與組織區域自動定位，建立從全切片到局部分析區域的標準化入口。

4. ROI Patch 網格提取與第一輪全通道推理，識別該區域高激活蛋白通道

5.通道空間熱圖重建與局部空間模式解析，揭示蛋白表達與組織形態之間的空間對應關系。

第十三講：GigaTIME 大模型全面解析

1. GigaTIME 的任務目標與從輸入病理圖像到輸出多通道空間預測結果的整體框架

2. 模型結構解析：從編碼到解碼，系統拆解 GigaTIME 的網絡主體結構。 3. UNet 架構在空間預測中的作用，深入理解 UNet 在局部空間信息保留、多尺度特征融合和像素級預測中的優勢與適用性。 4. 損失函數與模型優化，掌握損失函數如何約束模型學習，理解其在提升空間定位精度和表達強度預測能力中的作用。

第十四講：最小可運行測試與訓練：端到端流程驗證

1. 從預訓練權重到推理評估，完成預訓練模型加載，驗證模型環境、數據接口和推理流程是否能正常跑通。 2. 測試指標解讀：理解 Dice 系數和 Pearson 相關系數的意義，學會從測試結果中判斷模型的空間重疊能力和連續值預測能力。 3. 通過最小訓練實驗走通訓練、驗證和指標記錄的完整流程，建立先驗證后擴展的工程化思維。 4. 訓練結果輸出與歷史曲線分析，掌握 checkpoint、training history 等訓練產物的含義，并學會判斷訓練是否朝著正確方向進行。

TCGA公共數據庫病理切片挖掘（自己病理數據也可以挖掘）

第十五講：TCGA 隊列構建、臨床數據解析與 WSI 預處理

1. 掌握TCGA公開臨床數據和病理切片的標準化下載流程

2. 生存信息與關鍵臨床變量提取，包括生存時間、刪失狀態及年齡、性別、TNM 分期等等

3. 臨床數據標準化解析與建立 slide_id 與 case_id 的準確映射關系

4. LUAD/LUSC 隊列結構檢查與數據完整性質控

5. 理解WSI 多倍率坐標切片預處理，掌握從全切片生成 20x 與 40x 兩套坐標的流程

第十六講：TCGA病理切片特征提取與訓練數據準備

1.掌握從坐標讀取、Patch 提取到雙流特征生成的完整流程

2. WSI 形態特征與虛擬蛋白特征的結構解析

3.雙流特征規模對比與多模態信息互補，每張切片的雙流特征與生存標簽準確關聯，完成標準化訓練數據集構建

4. 訓練數據整理與交叉驗證劃分，掌握按 case_id 分組的 K-Fold 劃分策略

第十七講：生存預測模型訓練與 Kaplan-Meier 評估，從跨癌種泛化到臨床風險分層

1.雙流生存模型訓練與跨隊列驗證，掌握雙流形態特征與虛擬蛋白特征融合建模。

2.模型輸出的風險分數與生存時間、刪失狀態和臨床分期等變量整合分析

3. C-index 與早期分期亞組的模型性能評估

4. Kaplan–Meier 生存曲線與風險分層驗證，評估模型的生存分層效果

第十八講：虛擬蛋白下游分析：生物標志物關聯、病理分期與生存預測

1. 下游分析數據體系與整體框架搭建，探索性分析和臨床分析中的適用場景。

2. 蛋白-生物標志物關聯分析，通過虛擬蛋白與已知分子標志物之間的關聯，驗證有生物學合理性和分子層面的解釋

3. 虛擬蛋白與病理分期的關聯分析，探索虛擬蛋白在反映腫瘤進展階段和組織異質性中的潛在價值。

4. 單個蛋白生存分析：基于 Kaplan–Meier 曲線和 Cox 回歸，逐通道篩選具有預后分層能力的虛擬蛋白標記物。

5. 多蛋白 Signature 構建與生存分析，將多個虛擬蛋白通道整合為多維特征，通過 K-means 聚類識別不同免疫微環境亞型

課程費用

課程費用**** 元/人

團體報名享優惠，兩人報名九折，三人八五折，含講義、代碼、數據等完整資料包

團隊七名全職答疑助理，安裝等實操過程中有問題全程答疑

掃碼加微信咨詢課程

也可以搜索微信添加： huage5389

合作機構

華哥科研平臺

授課理念：將CNS文章的新技術學懂（理解）、學會（會敲代碼分析）、學透徹（站在課題頂層設計角度理解）、學以致用（用到自己的標書申請和文章發表中）。

初心使命：普及前沿技術，服務科研一線，賦能創新突破，助推生命科學進步

主講老師（一）

楊奕濤，東京大學醫學科學研究所助理教授，日本學術振興會（JSPS）特別研究員，長期深耕深度學習算法、醫療AI與空間組學交叉領域，積累了豐富的科研實踐經驗；現致力于多模態融合、生物醫學基礎大模型開發及轉化醫學相關算法研究。發表Nature Communications等SCI期刊發表論文多篇；與中日及歐美頂尖計算生物學實驗室深度合作，參與多項國際前沿科研項目，致力于以人工智能驅動生命科學新發現。

主講老師（二）

張振華，華哥生信創始人，目前在東京大學從事醫學人工智能研究。深耕單細胞多組學、空間轉錄組與機器學習領域6年，培養學員3萬余人 ; 指導學員發表CNS主刊文章18篇、一區及子刊100余篇 ; 參與國自然重點、國家重大專項、孔雀計劃等項目申報;合作院士團隊及國際頂尖實驗室，發表SCI論文26篇（Sci.Adv、 Mol Cell、 PNAS、 JACS、NC、 Cell Rep Med、Mol Cancer、EMBO Mol Med等頂刊）。

課程收獲

1. 學會搭建屬于自己的AI大模型
真正掌握從任務定義、數據準備、輸入輸出設計，到模型訓練、調參、評估和模型推理的完整流程，而不是只會調用現成模型。

2. 掌握頂刊級AI大模型復現能力
能夠系統復現CELL、Nature Medicine等文章中的核心流程，理解每一步是怎么做出來的、為什么這樣做。

3. 打通圖像到分子的完整分析
學會把H&E病理圖像、多模態配準、空間蛋白預測、單細胞表達構建和下游分析連成一個完整閉環。

4. 具備遷移到自己課題的實戰能力
能夠把課程中的思路和流程遷移到自己的病理數據、空間組學數據或臨床研究中，真正服務課題設計和文章發表。

5. 建立 AI大模型項目化思維
不再只是會跑代碼，而是學會從頂刊思路中提煉研究框架，具備獨立設計AI項目、分析結果和產出成果的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.