![]()
圖片來自Chan Zuckerberg Initiative
克里斯汀.豪瑟|撰文
潘展| 編譯
生物學家正繞過培養皿,在計算機中借助人工智能驅動的虛擬細胞開展實驗。
得益于虛擬細胞技術,藥物研發正蓬勃發展。這些由人工智能驅動的活細胞模型,業已成為生物醫學研究中不可或缺的工具。它們能幫助科學家在進行實驗室前,先通過計算機模擬測試治療方法,從而節省時間、資金。
01
虛擬細胞發展的歷程
人工智能正迅速成為生物學領域最強大的 “顯微鏡”。頂尖研究中心正借助這項技術開發虛擬細胞——即基于人工智能,對所有生命形式的核心模塊進行模擬。其模型可能對健康領域產生的影響,因此再怎么強調都不為過。
“我們的愿景是洞悉細胞的一切:分子結構及其功能,細胞在生命體中的相互作用與運作方式,以及它們的應激反應機制等。若這一愿景得以實現,將在治療、預防和管理疾病方面為我們提供巨大助力。” 陳?扎克伯格基金會(CZI)一名研究者表示。
為探尋該技術的歷史以及未來發展方向,接下來我們將深入探討虛擬細胞:包括其定義、研發機構,以及它們如何塑造醫學的未來。
![]()
02
虛擬細胞首個里程碑突破
首個虛擬細胞誕生于十多年前。為何如今人們對它的關注度才大幅攀升呢?
答案在于,與斯坦福大學團隊在2012年所構建的模型相比,如今的虛擬細胞模型其運作方式存在根本性差異。
當時,研究者構建的虛擬細胞將生殖支原體(Mgen)的所有分子過程拆解為28個模塊,來實現對該細胞的建模。每個模塊都由專屬的數學方程式和生物學規則調控,舉個簡化的例子:“若基因A被表達,則基因B會被激活”。
為制定這些調控指令,該團隊查閱了900多篇論文、書籍以及各類數據庫,本質上是將科學界關于生殖支原體運作機制的所有已知知識,提煉成了28個算法。模型構建完成后,能夠模擬生殖支原體從誕生到分裂的完整生命周期,整個過程耗時約10小時——與真實生殖支原體細胞的分裂時長大致相當。
能夠觀察這一過程本身就具有重要價值,但虛擬細胞的真正效用在于,研究人員可對其進行實驗操作。他們無需借助CRISPR基因編輯技術,只需敲擊鍵盤就能“敲除”某個基因,隨后通過運行模擬程序,預測該基因缺失會對生殖支原體產生何種影響。在這個過程中,若發現有趣的現象,再投入時間開展實驗。
多數情況下,虛擬細胞的預測結果會與實驗結果相符。當二者出現偏差時,問題通常出在那些科學界尚未充分了解的基因上。這一現象合乎邏輯:模型的性能受限于其編程。若科學家想改進模型,就必須更新相關算法。
在斯坦福大學取得這一突破性進展后的數年里,其他研究團隊也采用相同方法構建了各自的虛擬細胞:即把已知文獻中的知識提煉成基于規則的算法。
03
AI助力虛擬細胞更快發展
如今構建虛擬細胞的人工智能通常采用的是一種名為 “轉換器(Transformer)” 的特定模型。谷歌研究人員于2017年首次提出這種AI架構,如今它已成為眾多頂尖生成式AI的基礎。
基于轉換器的AI通過對海量數據集進行訓練,學會識別“標記(token,即小型數據單元)”之間的關聯。訓練完成后,這類AI能通過預測序列中最可能出現的下一個標記,生成新的內容。
轉換器是AI最顯著的特點之一,能夠生成未包含在其訓練數據中的內容。例如,一款AI圖像生成器即使沒有被明確展示過用意大利面條做成的貓應該是什么樣子,也能生成一張逼真的照片。
如今,研究人員正基于轉換器架構構建虛擬細胞,其成果令人矚目。例如CZI開發的轉錄組轉換器模型(TranscriptFormer),訓練數據集涵蓋了1.12億個細胞的圖像、RNA序列及其他生物數據。這些細胞源自12個不同物種,其進化史跨度長達15億年。研究人員只需向該模型輸入所研究細胞的數據,即便該細胞來自未納入模型訓練數據的物種,AI也能預測出細胞類型、感染狀態等關鍵信息。
“展望未來,虛擬細胞模型的目標是成為實驗系統的數字孿生體或計算替代物,”哈佛大學助理教授馬林卡?日特尼克(Marinka Zitnik)表示,“例如一個經過驗證的虛擬細胞可通過計算機模擬藥物或基因干預的結果,這有望減少對動物實驗的需求,或為實驗室研究設計提供指導。”
生物醫學研究領域的非營利機構Arc研究所也在開展虛擬細胞研發工作。該機構近期開放了其首個模型——STATE的使用權限,其訓練數據包括近1.7億個細胞的觀測數據,以及超過1億個細胞的擾動數據。擾動數據記錄的是細胞在藥物、基因編輯或其他外部刺激干擾正常功能時所產生的反應。
研究人員只需輸入細胞的轉錄組(即在特定時刻所有活躍表達的基因的完整集合)以及所設想的干擾因素,STATE就能預測細胞的基因表達模式可能發生的變化。這為科學家提供了一種無需實際開展實驗,即可測試疾病治療潛在效果的方法。
通過反向運行這一過程,STATE甚至能為研究人員指出此前被忽略的有潛力的干預方向。
“你可以選取一個處于患病狀態的細胞——比如具有阿爾茨海默病轉錄組特征的細胞,再選取一個健康狀態的細胞,然后問模型:‘我需要進行哪些干預,才能讓這個細胞從患病狀態轉變為健康狀態?’”Arc 研究所首席技術官戴維?伯克(David Burke)解釋道。
伯克表示,根據干預類型的不同,STATE預測的準確率在40%至60%之間。他認為,當AI預測結果的準確率達到75%時,生物學家就可以開始據此而無需開展真實實驗了。
數據可以提升虛擬細胞的穩定性,但虛擬細胞的改進空間究竟有多大,目前仍無定論。若能獲取足夠多的高質量數據,是否有可能構建出一個單一模型,精準預測細胞在各種可能的干預條件下發生的所有變化,能否開發出一個揭示細胞間相互作用機制的模型,我們是否有能力構建出完整組織、器官乃至整個生物體的虛擬模型。
這些目標如果能實現,生物學領域將迎來轉折點——從一門“觀察生命”的科學,轉變為一門“可模擬、可預測生命”的科學。這將為醫學、壽命研究以及對健康的認知帶來革命性影響。
https://www.freethink.com/artificial-intelligence/virtual-cells
主題:氧化性左旋核酸與阿爾茲海默病;嘉賓:許代超(中科院上海有機化學研究所生物與化學交叉研究中心?研究員)
:714-6863-0945
![]()
Deep Science預印本
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.