網易首頁 > 網易號 > 正文申請入駐

數據瓶頸：AI下一站的關鍵

2026-04-20 16:06:07　來源: 經濟觀察報

北京舉報

分享至

劉勁、段磊、吳汶軒/文

現代主流AI基本都基于機器學習和深度學習模型，其機制是從數據中“學習”模式和規律。沒有數據，模型無法訓練，這些AI的智能也就無從談起，因此數據常被比喻為AI的燃料或血液。

進入大模型時代，基于自監督學習的預訓練范式顯著降低了數據利用中的人工標注依賴，使模型能夠以低成本、高效率學習大規模數據，這促進了數據、模型參數與算力三者之間的協同快速發展。

人們據此總結出著名的規模定律（ScalingLaw）：大語言模型的性能與模型參數量、訓練數據量、計算量之間存在平滑的冪律關系，通俗地說，就是模型越大、數據越多、算力越強，模型的性能越好。

但下一步AI發展面臨巨大的數據挑戰，被討論最多的是“數據枯竭”。

原因不難理解：某種程度上，AI訓練利用的是人類積累的“庫存”數據。預訓練數據中占重要比例的互聯網數據，是過去數十年人類在網上生產、數字化并沉淀的信息。例如維基百科，雖然數據量占比不大，但在大模型訓練中提供高質量數據，它是數千人20多年辛苦維護的信息成果；訓練語料中的一些圖書和經典文獻則代表了人類幾千年的積累。

雖然人類社會每年也會新增大量數據——新聞、新書、新論文等，但相對線性增長的高質量數據很難匹配如今AI的超線性發展預期。根據獨立研究機構EpochAI的最新測算，語言模型的訓練將在2026年到2032年間耗盡人類公開的文本數據。

AI的發展面臨兩個維度的數據挑戰：一個維度是是否有足夠多的數據，即數據的數量與覆蓋度；另一個維度是數據的質量問題，包括真實性、標注水平、結構化程度等。

AI開發與應用的各個環節、場景都面臨這兩個維度的數據挑戰：預訓練階段面臨前面談到的數據枯竭和互聯網數據質量問題；后訓練和對齊階段面臨高質量標注數據的短缺；基座模型的行業微調和應用面臨專業數據極端稀缺、噪聲大的問題；多模態模型訓練面臨高質量配對（如圖文對）數據不足；具身模型則是面臨真實數據成本極高的發展制約。

如何應對AI發展中的這些數據挑戰？大體有三個方向：對人類社會積累的數據和人腦中的知識進行更深層的挖掘和治理；依托機器智能挖掘和生成數據；在算法與模型范式上進行創新以減少對數據的依賴。這里我們主要討論前兩個方向。

數據擴增方法一：收集和整理散落數據

對于人類社會積累的數據，所謂“數據枯竭”更多反映的是低垂的果實快被摘完了：公開的、未被產權保護的文本化數據確實在被大模型快速消耗，但人類社會和人腦中仍有大量尚未開發的數據與知識空間。

首先，各行各業有海量不公開的數據。很多高價值數據掌握在平臺、企業、專業機構、設備端和工作流系統中，例如電商平臺的交易、評價、用戶畫像等；醫療領域的病歷、影像、診斷記錄等；制造業的工藝參數、質檢標準、故障記錄等；科研領域的實驗數據、過程數據、未發表的負面實驗結果等。

這些數據往往涉及隱私、產權、商業機密或監管合規，以私有、分散的“數據孤島”形式存在。它們在具體應用中可以通過RAG（檢索增強生成）等方式發揮局部價值，但很難匯聚成可持續提升通用智能的大規模訓練語料。

以上大部分場景相對容易理解，這里補充一個容易被忽略的例子：科學界長期存在“發表偏差”——成功的實驗才會發表，失敗的實驗被丟棄。但對AI而言，失敗案例和成功案例都具有學習價值，大量未被共享的失敗實驗構成了一座尚未開采的知識礦山。

AI專家已經在探索一些技術手段來釋放這些數據在訓練上的潛力。典型做法包括：通過聯邦學習在不移動原始數據的前提下進行聯合訓練；以及利用差分隱私等技術，在數學上保證個體信息不可被還原，為跨機構數據協作提供安全邊界。這類手段解決的是“在不泄露隱私的前提下，如何讓數據參與訓練”的問題。

但要讓這些數據在AI發展中發揮最大價值，技術之外還需要制度與機制的設計。

有兩條路徑可以探索：一是自下而上的、市場化與利益激勵導向的路徑，例如數據交易市場、數據信托、數據要素入表等，讓數據擁有者在合規前提下有動力開放數據，分享增值收益；一是自上而下的路徑，由政府或行業監管者在涉及國計民生、公共安全、基礎科研等領域做統一安排，通過統一標準、基礎平臺和公共數據集建設，加快數據從“碎片資源”變成“公共基礎設施”的進程。技術手段提供安全閥，機制設計提供流動性和可持續激勵，兩者缺一不可。

其次，人類大腦中還有不少尚未數據化的認知資產，其中有兩類對AI的能力上限影響尤為關鍵：復雜決策背后的思維軌跡，以及專家的隱性知識。這些認知如果不被數據化，AI就難以學習和復制，未來有很大的挖掘空間。

從思維軌跡看，很多高價值任務，如企業家的重大決策、醫生對疑難雜癥的診斷、工程師處理罕見故障等，人類通常會記錄“做了什么”和“結果如何”，但缺乏“這么做背后的思考、還考慮過哪些備選方案”這種詳細的思維軌跡數據。這就像只存下數學題的題目和答案，卻沒有列出中間的解題步驟。

對于AI來說，缺乏這些“思維鏈條”數據，就很難真正學到可遷移的推理能力，只能在大量輸入輸出對上做模式擬合。這也是為什么過去一年多加入“思維鏈”能力的模型往往性能躍升，但目前可用的高質量思維軌跡數據依然非常有限。

從隱性知識看，人類認知中有大量難以清晰描述的部分，例如資深專家的直覺、情境化的感知、具身的“肌肉記憶”、團隊協作中的默契規則等。隱性知識放到AI語境下，就是難以完整標注、難以形成訓練樣本的信息，AI也就難以利用。

思維軌跡和隱性知識的系統性數據化雖然成本高、難度大，但從信息密度和獨特性來看，是一座挖掘難度大但價值極高的金礦，很可能成為未來AI能力持續提升的關鍵來源之一。

第三，對人類已經積累的知識進行治理、提高質量同樣至關重要。AI訓練領域常說“垃圾進，垃圾出”，意思是數據質量在很大程度上決定了模型能力，因為模型本身缺乏自動鑒別真偽和重要性的能力，很容易從低質量數據中學到錯誤模式。

互聯網上的信息質量良莠不齊，充滿錯誤、虛假、過時、片面和重復內容，直接用于訓練就會在輸出中放大幻覺與偏見。而在AI時代，圍繞“被模型引用和采樣權”展開的過度甚至惡意GEO（生成式引擎優化），又給知識污染增加了新的入口。

因此，圍繞提升數據和知識質量本身，可以展開一整套工作：底層是常規的數據清洗、去重、糾錯和噪聲過濾；再往上一層，是為重要知識建立溯源和版本控制機制，明確來源、更新時間和責任主體，并通過知識圖譜等方式統一概念、結構化關系；在高價值專業領域，則需要通過精細標注工程和領域專家參與，構建“少而精”的高置信度數據集，作為模型校準與評估的基準。

只有在人類知識本身經歷了這樣一輪“面向AI的治理和提純”之后，后續的模型訓練與推理才能真正站在更堅實、更干凈的知識地基上，而不是踩在混雜的信息泥沙里。

數據擴增方法二：利用機器智能

在盡最大努力挖掘人類社會積累的數據和人腦中的認知之外，另一個思路是利用AI自身體系來挖掘和生成數據。

首先是合成數據。合成數據有多種生成方式，可以基于規則/模板、統計分布、機器學習模型和仿真環境等生成，我們重點討論在當前AI訓練中扮演更重要角色的后兩種。

從大模型生成的數據為什么可以訓練新的大模型？比較好理解的是用教師模型的高質量輸出訓練學生模型，這就是所謂的“知識蒸餾”；即便對于前沿大模型的訓練，基于上一代模型的合成數據在一些情況下依然可以發揮重要作用。

比如同一道數學題，讓模型回答100次，只取回答正確的20次作為數據來訓練新的模型，本質上就是在用模型自身的“高質量子集”來放大有效樣本。一方面，通過自動化生成和篩選，我們可以從原本稀缺的高質量人類解題記錄，擴展出數量更多、風格多樣但邏輯正確的解題軌跡；另一方面，合成數據還可以刻意在難度更高、分布更稀疏的題型上“過采樣”，補齊真實數據里的薄弱環節。

另一個例子是智能駕駛訓練借助合成數據來生成極其罕見的事故場景。從現實路測中收集長尾事故的效率很低，但基于現實數據，我們可以提取駕駛中的要素：場景類型（十字路口、高速、城市街道、停車場）、天氣（晴、雨、霧、雪、冰）、道路條件（干爽、濕滑、結冰、碎石）、時間（白天、夜晚、黃昏）等，用這些要素構成極端組合，在仿真環境中進行訓練。

但從這兩個例子也能看出，在這類合成數據中，AI并不能憑空創造出全新的知識。

第一個例子依賴外部驗證器（標準答案）從模型能力的上限而非均值中提取訓練樣本，優化的是數據分布。第二個例子是對已知元素的重組與放大。嚴格來說，在這里AI沒有真正拓展數據邊界，而是把人類社會貢獻的原始數據當作礦石，進行提純、配比和加工，做成更適合訓練的“數據合金”，在既有知識的邊界之內榨出更多價值。

其次是讓AI通過強化學習去拓展數據（也可以看作廣義的合成數據）。與基于人類樣本的合成不同，這里真正超越了既有的人類社會數據，讓模型在與環境的連續交互中主動產出新的軌跡數據，探索尚未有人涉足的策略空間。強化學習的核心在于：通過“狀態—動作—反饋”的循環，讓智能體在試錯中逐步學到高回報的行為策略，而每一條行為序列本身就是在產生數據。

最經典的例子是AlphaZero。在圍棋、國際象棋等確定性棋類上，它幾乎不需要人類棋譜，只依賴規則、隨機起步和自對弈，通過數以億計的自博弈局面和勝負反饋，不斷更新策略網絡和價值網絡，超越了所有人類棋手和傳統棋力引擎。這說明，在規則明確、反饋清晰的封閉環境中，AI完全可以“從零開始”通過自生成的數據逼近甚至突破人類經驗上限。

在開放任務上，一個重要進展是以DeepSeek-R1為代表的“思維鏈強化學習”推理模型。其思路是：先讓模型在數學、編程等可自動驗證正確性的任務上自由生成思維鏈，然后根據最終答案是否正確、思維鏈是否合理給予獎勵或懲罰，驅動模型不斷調整自己的推理策略。

與傳統依賴人工標注的鏈式監督不同，這種做法不預先準備龐大的人類思維鏈數據集，而是讓模型在訓練過程中持續自生成、自篩選推理軌跡，相當于搭建了一個“自動產出高質量思維軌跡”的新數據工廠。

更具想象空間的是具身智能領域。自動駕駛和機器人訓練中已經廣泛使用仿真環境，通過大規模仿真駕駛、仿真抓取與裝配等方式，用強化學習或相關方法生成遠超真實道路和工廠場景數量的交互數據，覆蓋各類長尾風險場景和罕見工況。在真實世界中，機器人通過長期具身訓練，同樣會不斷產生傳感器讀數、動作序列和任務反饋，這些都是未來可用的高價值新生數據。

第三，還有一個探索方向是發展AI的主動學習。與被動等待人類喂數據不同，主動學習的核心思想是“模型自己決定學什么、向誰問什么”。

在數據標注昂貴的場景下，模型可以根據當前的不確定度或潛在信息增益，挑選最有價值的樣本向人類請求標注，或者在仿真環境中重點探索那些最能減少不確定性的狀態和任務。這樣一來，在同樣的標注預算下，模型獲得的是信息密度最高的一小撮樣本，而不是平均分布在所有樣本上的“薄薄一層監督”。

從更長遠的視角看，主動學習、強化學習和具身智能結合，有望讓AI從“被動消費現成數據”的角色，轉變為“主動規劃學習路徑、主動創造關鍵數據”的學習者（這其實也是挖掘人腦認知的做法）。

AI時代，數據領域有巨大機會

AI下一階段的發展，很大程度上取決于誰能在數據上做好文章。這里至少有兩個原因。第一，如前所述，無論規模還是質量，數據都已經遇到新的天花板。能緩解這些瓶頸、提升數據有效供給的方案，都直接對應著巨大的經濟價值。特別是在前沿模型能力趨同的背景下，AI競爭的焦點很可能轉向“誰掌握了更干凈、更稀缺、更難復制的數據”。

第二，在AI的三要素中，算力和基礎模型的產業門檻都極高：提到算力我們會想到英偉達、AMD、寒武紀等芯片廠商，提到模型會想到 OpenAI、DeepSeek等頭部實驗室和平臺。相比之下，數據更像一個能容納眾多參與者的生態：它高度分散在各個垂直行業和場景中。

這意味著深耕不同行業的龍頭企業、手握獨特數據切口的中小公司甚至初創團隊，都有機會通過建設高質量數據資產、數據產品和數據服務，在AI時代形成自己的護城河，而不必正面卷算力和通用大模型。

除了企業可以在數據上發掘機會，政府也需要扮演關鍵角色。前文已經區分了自上而下和自下而上的兩種數據治理思路：在適合自上而下的領域，政府應盡快搭建共享平臺和制度框架，讓這些數據更好地用于AI訓練和公共服務；在適合市場機制的領域，則應盡量給創新留出空間，避免過度集中或一刀切管制。

從粗略邏輯看，涉及國家安全、公共利益和基礎服務的數據，更適合由政府主導來保障秩序和可用性，例如氣象數據、地理信息數據（如測繪成果）、人口基礎信息、宏觀經濟統計、社會保障等基礎公共數據。醫療健康、交通等“民生數據”，由于外部性強、單個主體難以內部化全部風險，同樣需要較強的自上而下機制——包括統一標準、公共數據基礎設施、跨部門數據共享規則以及嚴格的隱私和安全邊界。

相比之下，那些更加偏向商業競爭的領域，如電商行為數據、消費金融數據、企業內部運營數據等，則更應以市場化方式去發現數據價值、優化配置，政府只需做好監管，而不是直接替代市場。

就中國而言，大語言模型訓練對互聯網數據高度依賴，但受限于互聯網發展起步較晚等因素，中文互聯網數據的規模和質量整體上遠遜于英文互聯網世界（好在互聯網數據大部分是公開數據，英文的我們也可以用）。

不過，中國在其他類型數據上具有潛在結構性優勢：龐大的人口與市場帶來豐富的消費與場景數據，完整的工業體系和制造鏈條沉淀了大量工業與物聯網數據，較為先進的智慧城市和政務數字化基礎設施又形成了豐富的城市運行與政務數據。

如果能通過完善數據法規、明晰產權和收益分配、建設高質量公共數據平臺，同時鼓勵行業主體圍繞具體場景打造高質量數據產品，數據完全有可能成為推動本土AI發展和取得競爭優勢的重要支點。

（劉勁系大灣區人工智能應用研究院理事、特聘專家，長江商學院會計與金融學教授、投資研究中心主任，段磊系大灣區人工智能應用研究院研究總監，吳汶軒系大灣區人工智能應用研究院助理研究員）

免責聲明：本文觀點僅代表作者本人，供參考、交流，不構成任何建議。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.