網易首頁 > 網易號 > 正文申請入駐

斯坦福大學重磅發布2026年AI指數報告：AI仍在狂奔；中美差距消失；虛擬細胞成新前沿

2026-04-14 12:21:37　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

人工智能（AI）對人類社會的影響從未如此顯著。

日前，斯坦福大學以人為本人工智能研究院（HAI）發布了《2026 年人工智能指數報告》（The 2026 AI Index Report），這也是該機構連續第九年發布年度人工智能指數報告，該系列報告提供了當前所能獲得的關于人工智能發展軌跡最全面、獨立來源的圖景，該系列報告也被譽為 AI 領域的“年度體檢”，揭示了 AI 技術狂奔背后的真實圖景——AI 能力正在全面爆發——AI 相關的科學論文自 2010 年以來激增了近 30 倍，同時，科學基礎模型開始大量出現，許多研究人員開始依賴 AI 智能體來自主執行科學研究工作。然而，該報告也指出，我們的社會、治理和倫理框架還遠遠跟不上 AI 技術發展的腳步。

這份報告長達423 頁，本文將總結概括其中的核心要點。

一、AI 能力加速：不再是“未來”，而是“現在”

報告顯示，AI 的發展沒有放緩，反而在加速普及。2025 年，超過 90% 的前沿 AI 模型來自企業，而非學術界。這些模型在博士級科學問題、多模態推理和數學競賽中已達到或超越人類水平。在編程基準測試 SWE-bench 上，AI 性能在一年內從 60% 躍升至接近 100% 的人類基準。

更驚人的是普及速度：生成式人工智能（generative AI）在三年內達到 53% 的使用率，比個人電腦和互聯網的普及速度更快。全球 88% 的組織已采用 AI，五分之四的大學生使用生成式 AI 工具。

二、中美 AI 競賽：差距已基本消失

中國和美國在 AI 模型性能上的差距已基本消失。自 2025 年初以來，中美兩國的 AI 模型多次交替領先。截至 2026 年 3 月，美國頂級 AI 模型僅領先 2.7%。不同之處在于，美國在頂級 AI 模型的數量和高質量專利上仍占優勢，而中國在 AI 相關論文數量、引用量、專利總量和工業機器人安裝量上領先。

三、AI 的“鋸齒狀前沿”：能拿奧數金牌，卻看不懂鐘表

AI 能力存在明顯的“鋸齒狀前沿”——在某些復雜任務上表現出色，卻在簡單任務上失敗。例如，谷歌的 Gemini Deep Think 模型能在國際數學奧林匹克競賽中獲得金牌，但頂級模型讀取模擬時鐘的正確率僅為 50.1%。AI 智能體（AI Agent）在真實計算機任務上的成功率從 12% 躍升至 66%，但在結構化基準測試中仍有約三分之一會失敗。

四、機器人：實驗室里的高手，家庭中的“菜鳥”

AI 機器人在受控實驗室環境中表現出色，軟件模擬的機械操作成功率已達89.4%。但在真實家庭環境中，AI 機器人僅能完成12%的任務，凸顯了 AI 在物理世界中的巨大挑戰。

五、負責任 AI 嚴重滯后：安全事故激增

隨著 AI 能力提升，安全問題日益突出。幾乎所有前沿 AI 開發商都會報告性能基準，但負責任 AI 的評估報告卻零零散散。AI 安全事故從 2024 年的 233 起激增至 2025 年的 362 起。更棘手的是，研究發現，提升 AI 的安全性可能會降低其準確性，形成“此消彼長”的困境。

六、經濟影響：生產力提升與就業沖擊并存

AI 在客服和軟件開發等領域帶來了 14%-26% 的生產力提升，但在需要更多判斷力的任務中效果較弱甚至為負。與此同時，AI 開始沖擊就業市場：在軟件開發領域，美國 22-25 歲年輕開發者的就業人數在 2024 年下降了近 20%，而年長開發者數量仍在增長。

七、環境代價：不容忽視的碳足跡和水資源消耗

AI 的環境影響隨著能力提升而擴大。Grok 4 模型的訓練排放估計達到 72816 噸二氧化碳當量。AI 數據中心的總功率容量已達 29.6 吉瓦，相當于紐約州的峰值用電需求。僅 GPT-4o 推理的年耗水量就可能超過 1200 萬人的飲用水需求。

八、醫療與科學：希望與局限并存

AI 相關的研究論文逐年遞增。2025 年，自然科學領域的 AI 相關論文多達 80150 篇，較 2024 年增長 26%。如今，AI 在科研成果中的占比因學科不同而有所差異，在 5.8% 至 8.8% 之間，而 2010 年這一比例還不到 1%。

前沿 AI 模型在平均表現上已超越人類化學家，但無法重現已發表的研究成果。在 ChemBench 上，表現最佳的 AI 模型在 2700 多個化學問題上的平均得分高于人類專家，但在基礎任務上卻表現不佳。在 ReplicationBench 上，前沿 AI 模型在天體物理學的論文級復制任務上的得分低于 20%。在 UnivEarth 上，AI 智能體回答地球觀測問題的準確率為 33%，其代碼失敗率為 58%...2025 年，AI 系統首次實現了端到端的完整天氣預報流；首篇完全由 AI 生成的論文在機器學習頂級會議的研討會通過同行評審被接受，但經實驗驗證的 AI 發現仍寥寥無幾。

2025 年，虛擬細胞模型成為了一個新的前沿領域，主要發布的模型包括來自 ARC 研究所的 Evo2、STATE 以及 DeepMind 的 AlphaGenome。這些模型旨在預測細胞對藥物和基因擾動的反應，而無需進行濕實驗室實驗，不過目前的系統仍需要實驗驗證。

自動生成病歷的 AI 工具在 2025 年得到廣泛應用，這讓醫生報告書寫時間減少高達 83%，職業倦怠顯著降低。

2025 年，美國食品藥品監督管理局（FDA）批準了 258 種人工智能醫療設備，其中大多數是通過無需開展新臨床試驗的途徑獲批的。絕大多數設備是通過設備改良途徑進入市場的，這些途徑依賴于現有的安全性和有效性證據，而非新的隨機試驗，僅有 2.4% 的設備的臨床研究得到了隨機試驗數據的支持。

然而，嚴格的臨床證據仍然有限——超過 500 項臨床 AI 研究中，近一半依賴考試式問題而非真實患者數據，僅 5% 使用了真實臨床數據。

九、教育滯后：學生在用，政策缺失

超過 80% 的美國高中生和大學生使用 AI 完成學業，但只有一半的初高中制定了 AI 政策，僅 6% 的教師認為這些政策清晰明確。學生們最常使用生成式 AI 進行研究、論文編輯和頭腦風暴。在課堂之外，阿聯酋、智利和南非的 AI 工程技能增長最快。

十、AI 主權：各國爭奪技術主導權

AI 主權成為各國政策的核心主題，發展中國家首次大量出臺國家 AI 戰略。然而，模型生產仍集中在美國和中國。開源開發正在重新分配參與度，GitHub 上來自世界其他地區的貢獻已超過歐洲，接近美國，推動了更多語言多樣化的模型和基準測試。

十一、信任危機：專家與公眾的巨大鴻溝

AI 專家與公眾對技術未來的看法存在巨大分歧：73% 的專家預計 AI 對工作方式有積極影響，而公眾只有 23% 持相同看法。在經濟和醫療影響上也存在類似差距。全球對 AI 監管機構的信任度參差不齊：在接受調查的國家中，美國公眾對本國政府監管 AI 的信任度最低，僅為 31%。全球范圍內，歐盟在有效監管 AI 方面獲得的信任度高于美國或中國。

總結：狂奔的 AI，跛腳的治理

這一報告描繪了一幅復雜圖景：AI 技術正以前所未有的速度發展和普及，但我們的評估體系、安全框架、教育政策和環境管理都嚴重滯后。這種“能力與治理”的差距是當前 AI 時代最核心的挑戰。

技術不會停下腳步，但人類的選擇將決定 AI 最終走向何方——是讓技術失控狂奔，還是建立與之匹配的智慧框架？這份報告提醒我們：在追逐 AI 能力的同時，必須同等重視其社會影響和倫理邊界。

https://hai.stanford.edu/ai-index/2026-ai-index-report

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.