AI將如何重塑生物技術(shù)的未來(lái)?
英偉達(dá)給出了自己的答案。
“AI界春晚”英偉達(dá)GTC大會(huì)開(kāi)幕當(dāng)天,英偉達(dá)發(fā)布了一款蛋白質(zhì)模型Protein-Complexa。
![]()
團(tuán)隊(duì)表示,這是當(dāng)前最先進(jìn)的蛋白質(zhì)開(kāi)源基礎(chǔ)模型,它一步就能生成蛋白質(zhì)的序列和原子級(jí)結(jié)構(gòu),開(kāi)箱即用!
研發(fā)團(tuán)隊(duì)做了史上最大規(guī)模的濕試驗(yàn)驗(yàn)證。
針對(duì)127 靶點(diǎn)中,86個(gè)達(dá)到命中,91.2%為靶點(diǎn)特異性。
單個(gè)蛋白質(zhì)下,命中率高達(dá)63.5%, 且有皮摩爾級(jí)親和力,有望直接成藥!
甚至,Protein-Complexa首次從頭設(shè)計(jì)出能結(jié)合碳水化合物的蛋白質(zhì),傳統(tǒng)方法下這根本做不到!
![]()
圖:碳水化合物的結(jié)合劑設(shè)計(jì)
據(jù)悉,醫(yī)藥巨頭諾和諾德已經(jīng)利用該方法進(jìn)行藥物研發(fā),并進(jìn)行實(shí)驗(yàn)驗(yàn)證。
團(tuán)隊(duì)已經(jīng)將該項(xiàng)目開(kāi)源。
開(kāi)源地址:
https://github.com/NVIDIA-Digital-Bio/Proteina-Complexa
不止如此,對(duì)生命健康抱有極大野心的英偉達(dá),還宣布了一系列合作和產(chǎn)品。
包括英偉達(dá)和羅氏開(kāi)啟了一項(xiàng)重磅合作,發(fā)布面向醫(yī)藥的高性能仿真工具、擴(kuò)充AphaFold數(shù)據(jù)庫(kù)等。
毫無(wú)疑問(wèn),英偉達(dá)的一系列動(dòng)作的終極目的,是用AI改變整個(gè)生命健康的格局。
![]()
一步生成蛋白質(zhì)
當(dāng)前,蛋白質(zhì)從頭設(shè)計(jì)技術(shù)進(jìn)展迅速,主要分為兩大主流技術(shù)路徑。
要么根據(jù)蛋白質(zhì)模板信息,實(shí)際用的時(shí)候直接生成設(shè)計(jì)結(jié)果,不會(huì)再優(yōu)化調(diào)整;
要么就是按照hallucination的方式,模型不依賴提前訓(xùn)練的生成規(guī)則,而是在實(shí)際設(shè)計(jì)時(shí),從零開(kāi)始生成優(yōu)化結(jié)合劑序列/結(jié)構(gòu)。
這兩種方法都有短板,還得搭配額外模型,進(jìn)行序列設(shè)計(jì)與優(yōu)化。
與之相比,Protein-Complexa是首個(gè)在連續(xù)潛在空間中進(jìn)行序列-結(jié)構(gòu)聯(lián)合生成+推理時(shí)搜索的蛋白質(zhì)設(shè)計(jì)方法。
這種方法統(tǒng)一了生成與優(yōu)化,克服了傳統(tǒng)方法(如RFdiffusion、BindCraft)依賴獨(dú)立逆折疊模型的局限性。
這種方法結(jié)合了兩種方法的長(zhǎng)處。
既能同時(shí)設(shè)計(jì)蛋白質(zhì)的序列和結(jié)構(gòu),且無(wú)需逆折疊,在實(shí)際使用模型時(shí)做針對(duì)性優(yōu)化。
因此生成序列是直接使用的,無(wú)需單獨(dú)的重新設(shè)計(jì)步驟。
這種全新方式直接擴(kuò)展蛋白質(zhì)設(shè)計(jì)的能力邊界。
![]()
Protein-Complexa的模型結(jié)構(gòu)
為了解決實(shí)驗(yàn)數(shù)據(jù)稀缺的問(wèn)題,團(tuán)隊(duì)還構(gòu)建了名為Teddymer的 結(jié)合劑—靶點(diǎn)配對(duì)數(shù)據(jù) 數(shù)據(jù)集,比PDB(蛋白質(zhì)數(shù)據(jù)銀行)大一個(gè)數(shù)量級(jí)。
該方法還大大節(jié)省了算力成本。
由于它能端到端同步生成序列和結(jié)構(gòu),省去了傳統(tǒng)方法中先設(shè)計(jì)再用其他模型反向折疊/優(yōu)化的步驟,避免了額外的算力消耗。
在虛擬實(shí)驗(yàn)的基準(zhǔn)測(cè)試中,Proteina-Complexa 生成單個(gè)結(jié)合劑樣本的耗時(shí)遠(yuǎn)低于 RFDiffusion、APM 等主流方法。
如蛋白質(zhì)靶點(diǎn)設(shè)計(jì)中,Proteina-Complexa耗時(shí)15.6秒,遠(yuǎn)低于 RFDiffusion 的 70.8 秒,相同算力下能生成更多候選樣本,進(jìn)一步提升篩選到優(yōu)質(zhì)結(jié)合劑的概率。
![]()
![]()
迄今最大規(guī)模的實(shí)驗(yàn)性頭對(duì)頭比較
為了驗(yàn)證模型效果,英偉達(dá)聯(lián)合多家生物公司、高校做了超大規(guī)模實(shí)驗(yàn),生成了超100萬(wàn)種設(shè)計(jì)的結(jié)合劑。
結(jié)果顯示,Proteina-Complexa是目前從頭設(shè)計(jì)蛋白質(zhì)結(jié)合劑最強(qiáng)的開(kāi)源模型。
首先,模型的廣譜性強(qiáng)。
團(tuán)隊(duì)測(cè)試了127個(gè)不同類型的靶點(diǎn)里,成功設(shè)計(jì)出能和其中86個(gè)靶點(diǎn)結(jié)合的蛋白質(zhì)。這樣的適用廣度,遠(yuǎn)超市面上主流蛋白質(zhì)生成模型。
![]()
圖:Proteina-Complexa結(jié)果涵蓋127個(gè)靶標(biāo)
其次,Proteina-Complexa和市場(chǎng)上領(lǐng)先的模型進(jìn)行比較評(píng)估,BoltzGen、RFDiffusion3、BindCraft,多個(gè)任務(wù)中都實(shí)現(xiàn)了超越。
團(tuán)隊(duì)將Proteina-Complexa和BoltzGen、RFDiffusion3、BindCraft等多個(gè)蛋白質(zhì)生成模型進(jìn)行比較,在75個(gè)靶點(diǎn)上評(píng)估了每個(gè)方法的序列重新設(shè)計(jì)組合的設(shè)計(jì)命中率及特異性。
結(jié)果顯示,Proteina-Complexa在所有靶點(diǎn)的平均命中率為2.45%。
這個(gè)數(shù)字看起來(lái)不高,但要知道,第二名BoltzGen的成功率只有0.76%,相當(dāng)于Proteina-Complexa的3倍多。
就算是最好的“二次優(yōu)化型”方法(BoltzGen+ProteinMPNN),成功率也只有1.81%,Proteina-Complexa比它也高出了近1.5倍。
![]()
不止如此,Proteina-Complexa還有一個(gè)極大的優(yōu)勢(shì)——高特異性。
它設(shè)計(jì)出的結(jié)合劑,91.2%都能精準(zhǔn)結(jié)合靶點(diǎn),不會(huì)結(jié)合其他蛋白質(zhì)。
這一點(diǎn)在藥物設(shè)計(jì)中至關(guān)重要,要是結(jié)合劑與其他受體進(jìn)行結(jié)合,不僅達(dá)不到治療效果,還可能對(duì)身體造成傷害。
除了大規(guī)模靶點(diǎn)篩選外,團(tuán)隊(duì)還在單個(gè)靶點(diǎn)上測(cè)試了Proteina-Complexa,并對(duì)候選分子進(jìn)行了更為細(xì)致的篩選和篩選。
例如,針對(duì) PDGFR(血小板衍生生長(zhǎng)因子受體)這樣有挑戰(zhàn)性的受體,命中率高達(dá)63.5%,最強(qiáng)的結(jié)合劑親和力達(dá)到皮摩爾級(jí)別。
對(duì)小分子靶點(diǎn)和酶設(shè)計(jì)任務(wù)的擴(kuò)展,再次超越了以往方法,比如Proteina-Complexa針對(duì)激酶微蛋白和肽結(jié)合劑的命中率為40%-50%。
甚至該方法還首次設(shè)計(jì)出了能夠結(jié)合碳水化合物的分子,填補(bǔ)了該領(lǐng)域的設(shè)計(jì)空白。
要知道碳水化合物體積小,極性密集,表面富含羥基,沒(méi)有疏水性。此前沒(méi)有計(jì)算方法設(shè)計(jì)出能結(jié)合游離碳水化合物的蛋白質(zhì)。
然而,團(tuán)隊(duì)針對(duì)血型B抗原為設(shè)計(jì)靶點(diǎn),這是一種對(duì)ABO移植兼容性至關(guān)重要的三糖。
團(tuán)隊(duì)生成了24個(gè)設(shè)計(jì)候選,基本都能在大腸桿菌中成功表達(dá),意味著設(shè)計(jì)具有落地性。
其中,5個(gè)能實(shí)現(xiàn)B型血紅細(xì)胞凝集,凝集信號(hào)達(dá)到陽(yáng)性對(duì)照的2.6~3.6倍,單次設(shè)計(jì)就實(shí)現(xiàn)了21%的命中率。
其中最優(yōu)候選NV15經(jīng)實(shí)驗(yàn)驗(yàn)證,可直接與碳水化合物發(fā)生濃度依賴性的特異性結(jié)合,且通過(guò)圓二色譜驗(yàn)證,其熱穩(wěn)定性超過(guò)95℃,具備極強(qiáng)的環(huán)境適應(yīng)性,為后續(xù)實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
![]()
圖:針對(duì)B型血型碳水化合物生成的結(jié)合劑
綜合所有這些數(shù)據(jù)來(lái)看,團(tuán)隊(duì)表示,Proteina-Complexa已經(jīng)毫無(wú)疑問(wèn)地成為了目前最先進(jìn)、最靠譜的開(kāi)源蛋白質(zhì)設(shè)計(jì)模型。
該模型已經(jīng)吸引了生物醫(yī)藥企業(yè)的關(guān)注。
諾和諾德、維亞生物和Manifold Bio正在用其設(shè)計(jì)能夠結(jié)合靶標(biāo)蛋白的蛋白質(zhì),并對(duì)生成的設(shè)計(jì)進(jìn)行了實(shí)驗(yàn)測(cè)試。
![]()
英偉達(dá)GTC,還有哪些進(jìn)展?
除開(kāi)Proteina-Complexa外,英偉達(dá)在GTC還宣布了很多夯貨。
與羅氏重磅合作
羅氏與英偉達(dá)宣布擴(kuò)大現(xiàn)有合作,將人工智能和加速計(jì)算轉(zhuǎn)變?yōu)槠渲扑幒驮\斷業(yè)務(wù)的核心運(yùn)營(yíng)能力。具體而言,雙方將在美國(guó)和歐洲的混合云和本地環(huán)境中部署超過(guò)3500個(gè)英偉達(dá)Blackwell GPU,這也是迄今為止制藥公司公布的最大GPU部署規(guī)模。
擴(kuò)展AlphaFold數(shù)據(jù)庫(kù)
英偉達(dá)聯(lián)合Google DeepMind等機(jī)構(gòu),為AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)新增了約3100萬(wàn)條蛋白質(zhì)復(fù)合物預(yù)測(cè),其中180萬(wàn)條為高置信度預(yù)測(cè),加速新藥靶點(diǎn)發(fā)現(xiàn)。
推出面向醫(yī)藥的高性能仿真工具nvQSP
這是一款定量系統(tǒng)藥理學(xué)仿真引擎。在基準(zhǔn)測(cè)試中,其速度比傳統(tǒng)CPU快77倍,能讓研究人員在臨床試驗(yàn)前更高效地模擬不同劑量和患者群體的反應(yīng)。
發(fā)布醫(yī)療機(jī)器人AI平臺(tái)
推出了首個(gè)面向醫(yī)療機(jī)器人的物理AI平臺(tái),包含全球最大的手術(shù)視頻數(shù)據(jù)集Open-H(含776小時(shí)視頻)和預(yù)訓(xùn)練模型,旨在推動(dòng)手術(shù)機(jī)器人的自主化研究。
包括全球最大的醫(yī)療機(jī)器人數(shù)據(jù)集 Open-H、Cosmos-H 開(kāi)放模型家族、GR00T-H VLA 模型、Rheo 開(kāi)發(fā)藍(lán)圖。
簡(jiǎn)而言之,英偉達(dá)正在圍繞醫(yī)療健康構(gòu)建一個(gè)從底層算力、基礎(chǔ)模型到行業(yè)應(yīng)用的完整AI生態(tài)。
—The End—
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.