AI將如何重塑生物技術的未來?
英偉達給出了自己的答案。
“AI界春晚”英偉達GTC大會開幕當天,英偉達發布了一款蛋白質模型Protein-Complexa。
研發團隊做了史上最大規模的濕試驗驗證。
針對127 靶點中,86個達到命中,91.2%為靶點特異性。
單個蛋白質下,命中率高達63.5%, 且有皮摩爾級親和力,有望直接成藥!
甚至,Protein-Complexa首次從頭設計出能結合碳水化合物的蛋白質,傳統方法下這根本做不到!
據悉,醫藥巨頭諾和諾德已經利用該方法進行藥物研發,并進行實驗驗證。
團隊已經將該項目開源。
包括英偉達和羅氏開啟了一項重磅合作,發布面向醫藥的高性能仿真工具、擴充AphaFold數據庫等。
毫無疑問,英偉達的一系列動作的終極目的,是用AI改變整個生命健康的格局。
![]()
一步生成蛋白質
當前,蛋白質從頭設計技術進展迅速,主要分為兩大主流技術路徑。
要么根據蛋白質模板信息,實際用的時候直接生成設計結果,不會再優化調整;
要么就是按照hallucination的方式,模型不依賴提前訓練的生成規則,而是在實際設計時,從零開始生成優化結合劑序列/結構。
這兩種方法都有短板,還得搭配額外模型,進行序列設計與優化。
與之相比,Protein-Complexa是首個在連續潛在空間中進行序列-結構聯合生成+推理時搜索的蛋白質設計方法。
這種方法統一了生成與優化,克服了傳統方法(如RFdiffusion、BindCraft)依賴獨立逆折疊模型的局限性。
這種方法結合了兩種方法的長處。
既能同時設計蛋白質的序列和結構,且無需逆折疊,在實際使用模型時做針對性優化。
因此生成序列是直接使用的,無需單獨的重新設計步驟。
這種全新方式直接擴展蛋白質設計的能力邊界。
為了解決實驗數據稀缺的問題,團隊還構建了名為Teddymer的 結合劑—靶點配對數據 數據集,比PDB(蛋白質數據銀行)大一個數量級。
該方法還大大節省了算力成本。
由于它能端到端同步生成序列和結構,省去了傳統方法中先設計再用其他模型反向折疊/優化的步驟,避免了額外的算力消耗。
在虛擬實驗的基準測試中,Proteina-Complexa 生成單個結合劑樣本的耗時遠低于 RFDiffusion、APM 等主流方法。
如蛋白質靶點設計中,Proteina-Complexa耗時15.6秒,遠低于 RFDiffusion 的 70.8 秒,相同算力下能生成更多候選樣本,進一步提升篩選到優質結合劑的概率。
![]()
迄今最大規模的實驗性頭對頭比較
為了驗證模型效果,英偉達聯合多家生物公司、高校做了超大規模實驗,生成了超100萬種設計的結合劑。
結果顯示,Proteina-Complexa是目前從頭設計蛋白質結合劑最強的開源模型。
首先,模型的廣譜性強。
團隊測試了127個不同類型的靶點里,成功設計出能和其中86個靶點結合的蛋白質。這樣的適用廣度,遠超市面上主流蛋白質生成模型。
其次,Proteina-Complexa和市場上領先的模型進行比較評估,BoltzGen、RFDiffusion3、BindCraft,多個任務中都實現了超越。
團隊將Proteina-Complexa和BoltzGen、RFDiffusion3、BindCraft等多個蛋白質生成模型進行比較,在75個靶點上評估了每個方法的序列重新設計組合的設計命中率及特異性。
結果顯示,Proteina-Complexa在所有靶點的平均命中率為2.45%。
這個數字看起來不高,但要知道,第二名BoltzGen的成功率只有0.76%,相當于Proteina-Complexa的3倍多。
就算是最好的“二次優化型”方法(BoltzGen+ProteinMPNN),成功率也只有1.81%,Proteina-Complexa比它也高出了近1.5倍。
不止如此,Proteina-Complexa還有一個極大的優勢——高特異性。
它設計出的結合劑,91.2%都能精準結合靶點,不會結合其他蛋白質。
這一點在藥物設計中至關重要,要是結合劑與其他受體進行結合,不僅達不到治療效果,還可能對身體造成傷害。
除了大規模靶點篩選外,團隊還在單個靶點上測試了Proteina-Complexa,并對候選分子進行了更為細致的篩選和篩選。
例如,針對 PDGFR(血小板衍生生長因子受體)這樣有挑戰性的受體,命中率高達63.5%,最強的結合劑親和力達到皮摩爾級別。
對小分子靶點和酶設計任務的擴展,再次超越了以往方法,比如Proteina-Complexa針對激酶微蛋白和肽結合劑的命中率為40%-50%。
甚至該方法還首次設計出了能夠結合碳水化合物的分子,填補了該領域的設計空白。
要知道碳水化合物體積小,極性密集,表面富含羥基,沒有疏水性。此前沒有計算方法設計出能結合游離碳水化合物的蛋白質。
然而,團隊針對血型B抗原為設計靶點,這是一種對ABO移植兼容性至關重要的三糖。
團隊生成了24個設計候選,基本都能在大腸桿菌中成功表達,意味著設計具有落地性。
其中,5個能實現B型血紅細胞凝集,凝集信號達到陽性對照的2.6~3.6倍,單次設計就實現了21%的命中率。
其中最優候選NV15經實驗驗證,可直接與碳水化合物發生濃度依賴性的特異性結合,且通過圓二色譜驗證,其熱穩定性超過95℃,具備極強的環境適應性,為后續實際應用奠定了堅實基礎。
綜合所有這些數據來看,團隊表示,Proteina-Complexa已經毫無疑問地成為了目前最先進、最靠譜的開源蛋白質設計模型。
該模型已經吸引了生物醫藥企業的關注。
諾和諾德、維亞生物和Manifold Bio正在用其設計能夠結合靶標蛋白的蛋白質,并對生成的設計進行了實驗測試。
![]()
英偉達GTC,還有哪些進展?
除開Proteina-Complexa外,英偉達在GTC還宣布了很多夯貨。
與羅氏重磅合作
羅氏與英偉達宣布擴大現有合作,將人工智能和加速計算轉變為其制藥和診斷業務的核心運營能力。具體而言,雙方將在美國和歐洲的混合云和本地環境中部署超過3500個英偉達Blackwell GPU,這也是迄今為止制藥公司公布的最大GPU部署規模。
擴展AlphaFold數據庫
英偉達聯合Google DeepMind等機構,為AlphaFold蛋白質結構數據庫新增了約3100萬條蛋白質復合物預測,其中180萬條為高置信度預測,加速新藥靶點發現。
推出面向醫藥的高性能仿真工具nvQSP
這是一款定量系統藥理學仿真引擎。在基準測試中,其速度比傳統CPU快77倍,能讓研究人員在臨床試驗前更高效地模擬不同劑量和患者群體的反應。
發布醫療機器人AI平臺
推出了首個面向醫療機器人的物理AI平臺,包含全球最大的手術視頻數據集Open-H(含776小時視頻)和預訓練模型,旨在推動手術機器人的自主化研究。
包括全球最大的醫療機器人數據集 Open-H、Cosmos-H 開放模型家族、GR00T-H VLA 模型、Rheo 開發藍圖。
簡而言之,英偉達正在圍繞醫療健康構建一個從底層算力、基礎模型到行業應用的完整AI生態。
來源:智藥局
加入讀者交流群:
聯 系 我 們 :wbfsh@staff.weibo.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.