最近,MIT 的科學(xué)家開發(fā)了一套叫 DefensePredictor 的 AI 模型,可以從細(xì)菌的基因組里快速找出那些隱藏的防御系統(tǒng)。
研究人員先用約 1.7 萬個(gè)細(xì)菌基因組訓(xùn)練這個(gè)模型。他們給模型看了兩類蛋白質(zhì):一類是約 1.5 萬個(gè)已知能抵抗病毒的防御蛋白,另一類是約 18.6 萬個(gè)負(fù)責(zé)日常家務(wù)的普通蛋白。通過反復(fù)比較這兩類蛋白的特征,比如基因長(zhǎng)度、周圍的鄰居基因、DNA 序列里的特殊模式,AI 學(xué)會(huì)了快速區(qū)分誰是防御戰(zhàn)士,誰是普通居民。日前,相關(guān)論文發(fā)表在《科學(xué)》雜志上。
論文作者只有三位,他們分別是 MIT 博士生 Peter DeWeirdt、前 MIT 高級(jí)研究支持助理&目前在美國(guó)約翰霍普金斯大學(xué)讀博的 Emily Mahoney 以及 MIT 副教授 Michael Laub。其中,Peter DeWeirdt 還曾在輝瑞公司實(shí)習(xí)過。
![]()
(來源:Linkedin)
很多人都知道,細(xì)菌和病毒之間的戰(zhàn)爭(zhēng),已經(jīng)打了數(shù)十億年。病毒是地球上數(shù)量最多的生物,每天能消滅 10% 到 25% 的細(xì)菌。為了活下來,細(xì)菌進(jìn)化出了各種各樣的防御武器。
有些武器已經(jīng)被人類拿來用了,比如大名鼎鼎的 CRISPR 基因編輯工具,它最初就是從細(xì)菌的免疫系統(tǒng)里發(fā)現(xiàn)的。不過細(xì)菌的防御武器庫(kù)還遠(yuǎn)沒有被人類摸清楚。
傳統(tǒng)方法找這些防御系統(tǒng),就像大海撈針,要么盯著已知防御基因附近的區(qū)域猜,要么在實(shí)驗(yàn)室里手動(dòng)測(cè)試成千上萬個(gè) DNA 片段,耗時(shí)又費(fèi)力。
![]()
(來源:Science)
DefensePredictor 的秘密武器是一個(gè)叫 ESM2 的蛋白語言模型。它能把每個(gè)蛋白質(zhì)轉(zhuǎn)換成一組數(shù)字,就像給蛋白質(zhì)拍了張 X 光片,抓住了它的關(guān)鍵特征。模型不僅看目標(biāo)蛋白自己,還看它前后各兩個(gè)鄰居,因?yàn)榉烙蚪?jīng)常喜歡扎堆住在一起。
利用這些信息,模型能在幾分鐘內(nèi)掃描完一個(gè)細(xì)菌的全部基因組,找出最有可能的防御系統(tǒng)候選者。DefensePredictor 正是通過這種觀察蛋白質(zhì)的社交圈,來判斷它是不是防御戰(zhàn)士。而假如換成以前的做法,這可能需要好幾個(gè)月。
為了檢驗(yàn)這套系統(tǒng)到底準(zhǔn)不準(zhǔn),研究團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn)。他們用 DefensePredictor 掃描了 69 株不同的大腸桿菌,找出了 624 個(gè)被預(yù)測(cè)為防御相關(guān)的蛋白簇,其中超過 100 個(gè)跟已知的細(xì)菌免疫系統(tǒng)沒有任何關(guān)系。
![]()
(來源:Science)
研究人員從中挑選了 94 個(gè)進(jìn)行實(shí)驗(yàn)室驗(yàn)證,把它們克隆進(jìn)大腸桿菌細(xì)胞里,然后用 24 種不同的病毒去攻擊。結(jié)果有 42 個(gè)系統(tǒng)成功保護(hù)了細(xì)菌,驗(yàn)證率達(dá)到了 45%。模型給出的預(yù)測(cè)分?jǐn)?shù)跟實(shí)驗(yàn)驗(yàn)證率高度相關(guān),分?jǐn)?shù)越高,越有可能是真的防御系統(tǒng)。這也意味著 AI 的預(yù)測(cè)是可靠的,可以大大縮小科學(xué)家需要手動(dòng)測(cè)試的范圍。
此外,有些系統(tǒng)用的蛋白結(jié)構(gòu),以前從未在防御中被驗(yàn)證過。比如一個(gè)叫 DS-8 的系統(tǒng),它攜帶的金屬磷酸酶結(jié)構(gòu)域跟人類免疫系統(tǒng)中的某個(gè)蛋白長(zhǎng)得很像,人類用那個(gè)蛋白來調(diào)節(jié)自身的抗病毒信號(hào)通路。這說明細(xì)菌和人類的免疫系統(tǒng)在進(jìn)化上可能有著共同的古老根源。
![]()
(來源:Science)
另一個(gè)叫 DS-11 的系統(tǒng),用一種叫 CBS 的結(jié)構(gòu)域來感應(yīng)細(xì)胞內(nèi)的能量分子,然后激活自身的殺傷功能。還有的系統(tǒng)把核酸酶拆成了兩半,這種分體式設(shè)計(jì)有可能被開發(fā)成需要特定信號(hào)才能激活的基因編輯工具,故在生物技術(shù)領(lǐng)域有著巨大的潛力。
這套模型的潛力還遠(yuǎn)遠(yuǎn)沒有挖盡。當(dāng)研究人員把 DefensePredictor 應(yīng)用到 1,000 種不同的微生物上時(shí),它識(shí)別出了近 3,000 個(gè)與任何已知細(xì)菌免疫系統(tǒng)都不相似的蛋白簇。這些發(fā)現(xiàn)意味著大腸桿菌以及其他細(xì)菌所攜帶的抗病毒防御系統(tǒng),比我們之前以為的要豐富得多。
在 3,000 株大腸桿菌和志賀氏菌的基因組分析中,平均每株細(xì)菌能預(yù)測(cè)出 32 個(gè)防御基因,而傳統(tǒng)工具只能找到 6 個(gè)。目前,研究團(tuán)隊(duì)已經(jīng)把 DefensePredictor 作為開源工具提供給全球的科學(xué)界,并且會(huì)隨著新數(shù)據(jù)的到來持續(xù)優(yōu)化它。
![]()
(來源:Science)
一直以來,基因編輯領(lǐng)域一直在尋找比 Cas9 更小巧、更精準(zhǔn)的工具,這些新發(fā)現(xiàn)的防御系統(tǒng)里藏著大量未被開發(fā)的核酸酶和新型工作機(jī)制。Cas9 雖然強(qiáng)大,但它個(gè)頭比較大,進(jìn)入細(xì)胞不太方便。
如果能從這些新系統(tǒng)里找到更迷你的核酸酶,基因治療就會(huì)變得更安全、更高效。研究人類免疫系統(tǒng)的科學(xué)家也可以從中追溯關(guān)鍵免疫元件的進(jìn)化源頭,比如人類體內(nèi)用來感知病毒 DNA 的 cGAS 蛋白,它的祖先可能就藏在某種細(xì)菌的防御系統(tǒng)里。
制藥領(lǐng)域有可能把這些新型系統(tǒng)改造成針對(duì)病原菌的精準(zhǔn)抗菌藥。現(xiàn)在很多細(xì)菌對(duì)抗生素產(chǎn)生了耐藥性,如果能把細(xì)菌自己的防御武器改造成攻擊它們的工具,就有望解決耐藥菌的難題。
而 DefensePredictor 的出現(xiàn),讓原本需要數(shù)月甚至數(shù)年的篩選工作,縮短到了幾分鐘。未來,隨著更多新數(shù)據(jù)的加入,這套模型還會(huì)變得更聰明,幫我們找到更多細(xì)菌的秘密武器。
參考資料:
相關(guān)論文 https://www.science.org/doi/10.1126/science.adv7924
倉(cāng)庫(kù) https://github.com/PeterDeWeirdt/defense_predictor
https://www.linkedin.com/in/peter-deweirdt/
https://www.linkedin.com/in/emimahoney/
https://www.linkedin.com/in/michael-laub-1a7668106/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.