撰文丨王聰
編輯丨王多魚
排版丨水成文
在生命科學領域,同源搜索(Homology Search)是一項基礎且至關重要的任務。簡單來說,它就是通過比較 DNA 或蛋白質的序列,來尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中,快速找到拼寫相似的段落。
無論是鑒定一個新發現的基因功能,追溯病毒的進化路徑,還是在宏基因組數據中挖掘有用的酶,都離不開高效的序列比對工具。幾十年來,BLAST 及其衍生工具一直是該領域的金標準。然而,隨著測序技術的飛速發展,生物數據庫的規模已呈指數級增長,傳統方法在處理海量數據時的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數據庫中,精準找到一個蛋白質的“遠親,傳統方法可能需要數小時甚至數天。
2026 年 4 月 1 日,騰訊生命科學實驗室(AI for Life Sciences Laboratory)姚建華研究員、何冰研究員及浙江大學陳華鈞教授、張強助理教授作為共同通訊作者(姜一諾、何冰為共同第一作者),在Nature Biotechnology期刊發表了題為:Scalable homology detection with ERAST 的研究論文。
該研究開發了融合大語言模型與向量數據庫技術的同源檢測工具——ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構建了目前全球規模最大的生物向量數據庫(涵蓋超 10 億條蛋白質序列與 3000 萬條核酸序列),在十億級數據規模下實現了毫秒級的精準檢索,相比傳統工具 TM-align 計算效率提升約 5 萬倍。此外,ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質的潛在進化聯系,為蛋白質功能注釋提供了全新的技術范式。
![]()
ERAST:當 AI 大模型遇見向量數據庫
該研究開發的高效檢索增強搜索工具——ERAST(efficient retrieval-augmented search tool),是一種旨在處理迄今為止最大的向量數據庫中約 10 億個生物序列的解決方案。ERAST的核心創新在于巧妙地將前沿的大語言模型與高效的向量數據庫相結合,為同源生物序列提供高效且精確的搜索。它通過整合預檢索、檢索和后檢索優化階段來提高搜索質量,并支持核苷酸和蛋白質序列。
1、構建“生命序列的地圖”:ERAST 首先使用經過預訓練的大語言模型(例如蛋白質語言模型 ESM-2,DNA 語言模型 MAMBA),將抽象的生物序列轉化為高維空間中的“向量”坐標。這相當于為每一條序列賦予了獨一無二的“數學指紋”。超過 10 億個這樣的指紋被存入一個特制的向量數據庫中,并建立了高效的索引。
2、三步走,實現精準狙擊:ERAST 的搜索流程被精心設計為三個階段,層層過濾,確保結果又快又準:
預檢索過濾:就像用“篩子”先過濾掉明顯不相關的數據。系統會根據查詢序列的元數據(例如長度、家族標簽)縮小搜索范圍。
向量檢索:將查詢序列也轉化為向量,并在數據庫中快速計算其與候選向量之間的“余弦距離”(一種相似度度量)。借助并行計算技術,這個過程能在毫秒內完成。
后檢索重排序:這是提升精度的關鍵一步。ERAST 自帶一個名為 EHSM 的評分模型,會對初步檢索出的候選序列進行二次打分和排序,尤其擅長識別那些進化關系遙遠、序列相似度低的“遠親”。
![]()
ERAST 概述
性能碾壓:速度更快,準度更高
論文中的 benchmark(性能測試)結果令人印象深刻:
速度:在標準的 SCOPe40 測試集上,ERAST 的搜索速度比目前廣泛使用的、基于結構的快速搜索工具 Foldseek 快約 50 倍,比高精度結構比對工具 TM-align 快約 5 萬倍。對于長達 10 萬堿基對的 DNA 序列,ERAST 比經典工具 BLASTn 快 60 倍。
精度:在識別蛋白質同源關系時,ERAST 的 Top-1 命中精度(P@1)顯著優于包括 TM-Vec、DHR、PLMSearch 在內的所有主流深度學習方法。即使在處理“分布外”的新奇序列時,其穩健性也遠超傳統方法。
這種性能使得 ERAST 能夠在幾毫秒內從包括數十億個生物序列的數據庫中進行準確搜索,精準定位目標同源序列。
不止于搜索:照亮“功能未知”的蛋白質暗物質
除了快速搜索,ERAST 還能做一件更有意義的事:大規模全局聚類分析。
在現有的蛋白質數據庫中,有大量被標記為“功能未知”、“假設蛋白”的序列,它們被稱為“蛋白質暗物質”。ERAST 能夠基于全局序列相似性,將整個 UniRef90 數據庫中的蛋白質進行聚類,構建出一個超大規模的功能聚類網絡。
研究發現,94% 的功能未知蛋白質簇,都能通過這個網絡與功能已知的蛋白質簇連接起來。這為科學家們推斷這些“暗物質”蛋白的可能功能、揭示其進化關系,提供了前所未有的強大線索和全局視角。
工具開源,推動生命科學探索
ERAST 不僅是一項學術成果,更是一個即將惠及全球科研人員的實用工具。該系統支持對蛋白質和核苷酸序列的雙重搜索,其集成向量數據庫的網站已公開可用。
這項研究標志著AI for Science(科學智能)在生物信息學核心領域的一次重要突破。它將使研究人員從耗時的計算等待中解放出來,更專注于科學發現本身,有望加速新藥靶點發現、病原體追蹤、酶工程設計等眾多領域的研究進程。
數據庫與在線工具訪問入口:https://ai4s.tencent.com/erast
ERAST 源代碼倉庫:https://github.com/TencentAILabHealthcare/ERAST
論文鏈接:
https://www.nature.com/articles/s41587-026-03051-1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.