![]()
![]()
“21世紀(jì)是生命科學(xué)的世紀(jì)”,不知道曾經(jīng)是誰(shuí)提出了這個(gè)概念。
從這幾年的勢(shì)頭看起來(lái),21世紀(jì),應(yīng)該也是人工智能(AI)的世紀(jì)。前腳是2016年會(huì)下圍棋的AlphaGO,后腳是2021年震驚結(jié)構(gòu)生物學(xué)的AlphaFold2,再到如今可能影響數(shù)十億人工作和生活的ChatGPT。
AI,已經(jīng)開(kāi)始創(chuàng)造各種新的歷史了。
![]()
這幾年最火的幾個(gè)AI(左圖為AlphaGO紀(jì)錄片海報(bào),右上圖為AlphaFold預(yù)測(cè)完全部序列蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫(kù),右下圖是OpenAI官網(wǎng)對(duì)ChatGPT的介紹)
而這其中,對(duì)生命科學(xué)震撼最大的要屬當(dāng)然是前兩年的AlphaFold2:超高準(zhǔn)確度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)能力,幾乎完全改寫(xiě)了結(jié)構(gòu)生物學(xué)的研究方式,也讓相關(guān)的生物學(xué)研究更加便利。
但是,你要是以為生命科學(xué)里的AI只有AlphaFold,那你就大錯(cuò)特錯(cuò)了。
從預(yù)測(cè)到創(chuàng)造,AI要顛覆蛋白質(zhì)世界!
不過(guò)要展開(kāi)聊生命科學(xué)里的AI,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)還是繞不過(guò)去的話(huà)題。
自從2021年DeepMind公司推出了AlphaFold2,和華盛頓大學(xué)開(kāi)發(fā)出的RoseTTAFold這兩項(xiàng)充滿(mǎn)代表性的蛋白質(zhì)預(yù)測(cè)工具之后,這個(gè)領(lǐng)域就變得一發(fā)不可收拾了。
首先是持續(xù)發(fā)力的AlphaFold2。
正式發(fā)布后只過(guò)了半年多,2022年7月,DeepMind公司的CEO,杰米斯·哈薩比斯 (Demis Hassabis)就在新聞發(fā)布會(huì)宣布:我們已經(jīng)掌握了“整個(gè)蛋白質(zhì)世界”(The entire protein universe)——AlphaFold馬不停蹄地運(yùn)轉(zhuǎn),成功完成了現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫(kù)中全部2.14億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。
![]()
DeepMind公司CEO,杰米斯·哈薩比斯 (Demis Hassabis) | 圖源:Jung Yeon-Je/AFP/Getty
2.14億種蛋白質(zhì)中,有35%被評(píng)估為高度準(zhǔn)確,雖然這個(gè)數(shù)字看起來(lái)不高,但是按照目前實(shí)驗(yàn)檢測(cè)的水平,全部做完也就差不多這個(gè)水平——更何況,截至目前實(shí)驗(yàn)檢測(cè)花了幾十年也只測(cè)出了14萬(wàn)種。
這些蛋白質(zhì)結(jié)構(gòu),也已經(jīng)發(fā)布在AlphaFold和歐洲生物信息學(xué)研究所 (EMBL-EBI)建立的數(shù)據(jù)庫(kù)中,供科研工作者們使用(https://alphafold.ebi.ac.uk/,前文圖)。
但這也只是AI在蛋白質(zhì)領(lǐng)域發(fā)力的開(kāi)始。
我們知道,蛋白質(zhì)是由DNA轉(zhuǎn)錄、翻譯形成的,而DNA測(cè)序也遠(yuǎn)比蛋白質(zhì)測(cè)序更加快速、價(jià)格更低。因此,DNA數(shù)據(jù)庫(kù)的數(shù)據(jù)量遠(yuǎn)比蛋白質(zhì)數(shù)據(jù)庫(kù)多。這多出來(lái)的,很關(guān)鍵的一部分,叫做宏基因組(Metagenome)。
在過(guò)去幾年,科學(xué)家們從野外等特殊環(huán)境,比如土壤、海洋、腸道等等,直接通過(guò)測(cè)序得到了成千上萬(wàn)種未知,且無(wú)法培養(yǎng)的微生物DNA信息,也就是所謂的宏基因組。
![]()
宏基因組產(chǎn)生的過(guò)程 | 圖源:Wooley JC, 2010.
僅在DeepMind公司宣布完成了“整個(gè)蛋白質(zhì)世界”三個(gè)月后,2022年10月,Meta公司(原名Facebook)就拓寬了這個(gè)“蛋白質(zhì)世界”的邊界(‘dark matter’ of the protein universe)——他們利用自己開(kāi)發(fā)的大型語(yǔ)言模型算法ESMFold,預(yù)測(cè)了6.17億種來(lái)自宏基因組信息的微生物蛋白質(zhì)結(jié)構(gòu)。
ESMFold算法的準(zhǔn)確度雖然略遜于AlphaFold,但它的優(yōu)勢(shì)在于能以60倍于AlphaFold的速度去預(yù)測(cè)短序列蛋白質(zhì)的結(jié)構(gòu),這就使得它在預(yù)測(cè)結(jié)構(gòu)相對(duì)簡(jiǎn)單的微生物蛋白質(zhì)上有了很大的優(yōu)勢(shì)。
![]()
6.17億種蛋白質(zhì)結(jié)構(gòu)的全覽
| 圖源:ESM Metagenomic Atlas
這讓人不禁好奇,差不多全預(yù)測(cè)完之后,AI下一步會(huì)在蛋白質(zhì)結(jié)構(gòu)上做些什么?沒(méi)過(guò)幾天,AI又開(kāi)始顛覆生物學(xué)家的認(rèn)知了——創(chuàng)造蛋白質(zhì)。
這其實(shí)是一個(gè)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)剛好相反的問(wèn)題:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是從序列到結(jié)構(gòu),而創(chuàng)造蛋白質(zhì)是要求從我們希望得到的結(jié)構(gòu),反推出合適的蛋白質(zhì)序列。過(guò)去這是個(gè)計(jì)算量巨大的工作,現(xiàn)在AI也能完成了。
![]()
四種目前常用的設(shè)計(jì)蛋白質(zhì)策略 | 圖片翻譯自:Nature
相比于大批量預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),創(chuàng)造蛋白質(zhì)的目的就更加明確——我們希望能創(chuàng)造出自然界不存在,但是對(duì)人類(lèi)非常有用的蛋白質(zhì)。
實(shí)際上,目前大部分嘗試設(shè)計(jì)都很精彩,但是實(shí)驗(yàn)驗(yàn)證階段就不那么順利了——AI設(shè)計(jì)出來(lái)的蛋白質(zhì)結(jié)構(gòu),往往不能像預(yù)期的那樣被正確表達(dá)、合成出來(lái)。
不過(guò)設(shè)計(jì)蛋白質(zhì)的嘗試還在不斷進(jìn)步和迭代,可能在不遠(yuǎn)的將來(lái)就能夠出現(xiàn)在我們的日常生活里。例如最新的研究中,利用ProteinMPNN和RoseTTAFold方法設(shè)計(jì)出來(lái)的蛋白質(zhì),不僅在自然界完全不存在,并且大大提高了這些蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定性,預(yù)計(jì)在未來(lái)會(huì)被用作疾病治療的抗原抗體,或者生物化學(xué)反應(yīng)所需的生物酶。
![]()
蛋白質(zhì)設(shè)計(jì)的過(guò)程,通過(guò)不斷改變序列讓蛋白質(zhì)結(jié)構(gòu)趨于穩(wěn)定(結(jié)構(gòu)的穩(wěn)定基于AlphaFold預(yù)測(cè),越紅代表越不穩(wěn)定,越藍(lán)代表越穩(wěn)定) | 圖源:Nature
AI會(huì)取代我們的大腦嗎?
在生命科學(xué)研究中,還有一個(gè)難以攻克的問(wèn)題:如何解讀意識(shí)?我們的大腦有數(shù)十億個(gè)神經(jīng)元,它們組成的網(wǎng)絡(luò)連接錯(cuò)綜復(fù)雜,現(xiàn)有的神經(jīng)科學(xué)研究雖然成果累累,但是仍然不知道人類(lèi)是怎么思考的。
那,AI可以做到嗎?
也許馬上就可以了。
功能核磁共振技術(shù)(fMRI)可以檢測(cè)到當(dāng)我們?cè)谧瞿臣虑闀r(shí)大腦血流的變化,來(lái)尋找被激活的大腦區(qū)域,在過(guò)去十幾年也被用于研究大腦各個(gè)腦區(qū)的具體功能。
![]()
這是fMRI的圖像,通過(guò)和靜息狀態(tài)的對(duì)比,研究者可以找到被激活的腦區(qū)(紅色標(biāo)記) | 圖源網(wǎng)絡(luò)
隨著AI的發(fā)展,研究者近幾年開(kāi)始了“逆向”推導(dǎo):既然我們可以檢測(cè)到大腦的激活狀態(tài),那么,是不是就可以通過(guò)激活狀態(tài),來(lái)反向推出人在想什么呢?比如,可以復(fù)原出人類(lèi)看到的東西?
于是研究者首先給志愿者看了成千上萬(wàn)張不同的圖片,并測(cè)量、記錄他們腦區(qū)的激活狀態(tài),作為AI的訓(xùn)練集。之后再利用訓(xùn)練出來(lái)的模型,來(lái)檢測(cè)AI推測(cè)人看到的、或者想象的圖片的能力。
![]()
實(shí)驗(yàn)設(shè)計(jì)的流程,上圖為利用大量圖片構(gòu)建訓(xùn)練集,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型;下圖則是基于模型,解析大腦信號(hào)產(chǎn)生的意識(shí)圖像 | 圖源:Koide-Majima N, 2023.
結(jié)果其實(shí)不算特別理想。因?yàn)閒MRI數(shù)據(jù)比較少,無(wú)法構(gòu)建足夠大的訓(xùn)練集,雖然AI能形成一定的輪廓,但是也僅限于給出大概的形狀。
但是,如果給AI一點(diǎn)小小的文字提示輔助,它就能快速形成和真實(shí)圖像高度相似的結(jié)果!
![]()
第一列是志愿者看到的圖片,第二列(z)是單純基于大腦活動(dòng)檢測(cè)AI生成的圖片,第三列(c)是單純基于文字信息AI做的圖片,第四列則是基于二三列的信息共同生成的結(jié)果,已經(jīng)依稀可以分辨出原來(lái)圖片的樣子 | 圖源:Takagi Y, 2023.
![]()
第一行為真實(shí)照片,第二行則為AI基于大腦活動(dòng)和文字提示形成的圖像 | 圖源:Takagi Y, 2023.
當(dāng)然,這些研究的目的不是為了讓AI理解人類(lèi),而是希望通過(guò)AI分析的過(guò)程,更好地理解大腦運(yùn)作的方式——比如研究者們計(jì)劃利用這套模型,在未來(lái)檢測(cè)動(dòng)物的大腦活動(dòng),來(lái)看看動(dòng)物們眼中的世界會(huì)是什么樣子的。
除此以外,研究者還嘗試讓志愿者想象一個(gè)畫(huà)面,再讓AI基于大腦活動(dòng)來(lái)生成圖像。雖然得到的圖像更加抽象了,但是研究者認(rèn)為這對(duì)于未來(lái)的心理學(xué)研究有很重要的意義。
![]()
三組圖像基于想象的腦活動(dòng)預(yù)測(cè)的結(jié)果,第一行為2019年的研究,第二行為2023年的研究,可以看到算法的提升 | 圖源:Koide-Majima N, 2023.
AI早已深入生物醫(yī)學(xué)的方方面面
當(dāng)我們走向更廣闊的生物醫(yī)學(xué)領(lǐng)域,你會(huì)發(fā)現(xiàn),AI早就是個(gè)“老玩家”了。
比如在基因組學(xué)研究中,雖然科學(xué)家已經(jīng)產(chǎn)生了海量的數(shù)據(jù),包括基因組、轉(zhuǎn)錄組、表觀組等等,但這些分子層面的變化如何一步步影響到生物最終的表型?在過(guò)去,這個(gè)問(wèn)題往往需要大量的實(shí)驗(yàn)驗(yàn)證。
而現(xiàn)如今,利用神經(jīng)網(wǎng)絡(luò)的方法,研究者們已經(jīng)開(kāi)始嘗試基于DNA或RNA序列,預(yù)測(cè)其背后可能發(fā)生的各種各樣復(fù)雜的調(diào)控過(guò)程,甚至到表型最終形成的狀態(tài)。
![]()
基因調(diào)控是個(gè)復(fù)雜的問(wèn)題,而研究者正在針對(duì)不同的調(diào)控過(guò)程利用AI進(jìn)行預(yù)測(cè),圖中是轉(zhuǎn)錄因子調(diào)控基因表達(dá)的過(guò)程 | 圖源:Novakovsky G, 2023.
另外,隨著人口的高度聚集,傳染病會(huì)以更高的頻率爆發(fā),就好像最近三年肆虐全球的新冠病毒。
研究者正在考慮將AI引入到傳染病的監(jiān)測(cè)過(guò)程當(dāng)中——基于早期個(gè)別病例的檢測(cè)和發(fā)病情況,就可以快速預(yù)測(cè)、探知傳染病出現(xiàn)的可能性與位置,進(jìn)而“扼殺”這些有害的細(xì)菌、病毒、真菌、寄生蟲(chóng)等傳染病疫情暴發(fā)的苗頭。
![]()
AI在未來(lái)的傳染病檢測(cè)中可能有著核心且重要的地位 | 圖源:Agrebi S, 2020.
再者,近幾十年生物學(xué)研究與數(shù)據(jù)呈現(xiàn)出指數(shù)型增長(zhǎng)的狀態(tài)——越來(lái)越多的生物學(xué)研究與知識(shí)不斷產(chǎn)出,但是很多研究者卻難以及時(shí)消化。而像ChatGPT這樣的語(yǔ)言模型,就能有效地挖掘這些海量生物學(xué)研究結(jié)果,甚至可以基于現(xiàn)有的各種結(jié)果提煉出新的結(jié)論(這其實(shí)是很多薈萃分析正在做的事情)。
事實(shí)上,以上提到的這些只不過(guò)是生物學(xué)研究中AI應(yīng)用的冰山一角。
在《生命3.0》一書(shū)中,物理學(xué)家馬克斯·泰格馬克提出了一個(gè)很有意思的比喻:假設(shè)人類(lèi)的各種能力分布在一副地形圖里,“算術(shù)”,“死記硬背”的能力在洼地里,而“下棋”在山麓上,“科學(xué)”和“藝術(shù)”在山頂,而人工智能就好像不斷漫上來(lái)的水面,會(huì)先把簡(jiǎn)單的能力填充,并一步步努力向上。
那么現(xiàn)在,人工智能的浪潮已經(jīng)漫過(guò)山麓,正在沖擊山頂了。
![]()
人類(lèi)能力景觀圖 | 圖源:《生命3.0》
正如我們文章里展示的各個(gè)例子,站在山頂之一的生命科學(xué),其實(shí)正在不斷被AI“挑戰(zhàn)”著。但目前來(lái)看,AI對(duì)于生命科學(xué)更多的不是取代,而是互相配合。
比如在AI最熱門(mén)的結(jié)構(gòu)生物學(xué)領(lǐng)域,雖然AlphaFold和ESMFold已經(jīng)預(yù)測(cè)完了世界上幾乎全部已知的蛋白質(zhì)結(jié)構(gòu),但是只有大約三分之一是高度準(zhǔn)確的。而那些不準(zhǔn)確的其實(shí)就是結(jié)構(gòu)生物學(xué)家們正在努力攻克的難題。
![]()
利用低溫冷凍電子顯微鏡和AlphaFold相互配合,預(yù)測(cè)出復(fù)雜的核孔蛋白結(jié)構(gòu) | 圖源:Fontana P, 2022.
綜合來(lái)看,至少在未來(lái)10-20年內(nèi),生命科學(xué)與AI更多的不是“挑戰(zhàn)者”與“被挑戰(zhàn)者”的關(guān)系,而是一種互相“合作”的配合關(guān)系——AI會(huì)是一項(xiàng)有效的工具,服務(wù)于科學(xué)研究與疾病治療。
你說(shuō)更遠(yuǎn)的未來(lái)?那可能是誰(shuí)都不知道的世界了。
參考資料
Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein[J]. Nature, 2022, 608(7921): 15-16.
Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model[J]. Science, 2023, 379(6637): 1123-1130.
Callaway E. Scientists are using AI to dream up revolutionary new proteins[J]. Nature, 2022.
Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022.
Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies[J]. Science, 2022, 378(6615): 56-61.
Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning[J]. Science, 2022, 377(6604): 387-394.
Koide-Majima N, Nishimoto S, Majima K. Mental image reconstruction from human brain activity[J]. bioRxiv, 2023: 2023.01. 22.525062.
Takagi Y, Nishimoto S. High-resolution image reconstruction with latent diffusion models from human brain activity[J]. bioRxiv, 2022: 2022.11. 18.517004.
Novakovsky G, Dexter N, Libbrecht M W, et al. Obtaining genetics insights from deep learning via explainable artificial intelligence[J]. Nature Reviews Genetics, 2023, 24(2): 125-137.
Agrebi S, Larbi A. Use of artificial intelligence in infectious diseases[M]//Artificial intelligence in precision health. Academic Press, 2020: 415-438.
Fontana P, Dong Y, Pi X, et al. Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold[J]. Science, 2022, 376(6598): eabm9326.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.