網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

數(shù)據(jù)瓶頸：AI下一站的關(guān)鍵

2026-04-20 16:06:07　來源: 經(jīng)濟(jì)觀察報(bào)

北京舉報(bào)

分享至

劉勁、段磊、吳汶軒/文

現(xiàn)代主流AI基本都基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型，其機(jī)制是從數(shù)據(jù)中“學(xué)習(xí)”模式和規(guī)律。沒有數(shù)據(jù)，模型無法訓(xùn)練，這些AI的智能也就無從談起，因此數(shù)據(jù)常被比喻為AI的燃料或血液。

進(jìn)入大模型時(shí)代，基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練范式顯著降低了數(shù)據(jù)利用中的人工標(biāo)注依賴，使模型能夠以低成本、高效率學(xué)習(xí)大規(guī)模數(shù)據(jù)，這促進(jìn)了數(shù)據(jù)、模型參數(shù)與算力三者之間的協(xié)同快速發(fā)展。

人們據(jù)此總結(jié)出著名的規(guī)模定律（ScalingLaw）：大語言模型的性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量、計(jì)算量之間存在平滑的冪律關(guān)系，通俗地說，就是模型越大、數(shù)據(jù)越多、算力越強(qiáng)，模型的性能越好。

但下一步AI發(fā)展面臨巨大的數(shù)據(jù)挑戰(zhàn)，被討論最多的是“數(shù)據(jù)枯竭”。

原因不難理解：某種程度上，AI訓(xùn)練利用的是人類積累的“庫存”數(shù)據(jù)。預(yù)訓(xùn)練數(shù)據(jù)中占重要比例的互聯(lián)網(wǎng)數(shù)據(jù)，是過去數(shù)十年人類在網(wǎng)上生產(chǎn)、數(shù)字化并沉淀的信息。例如維基百科，雖然數(shù)據(jù)量占比不大，但在大模型訓(xùn)練中提供高質(zhì)量數(shù)據(jù)，它是數(shù)千人20多年辛苦維護(hù)的信息成果；訓(xùn)練語料中的一些圖書和經(jīng)典文獻(xiàn)則代表了人類幾千年的積累。

雖然人類社會(huì)每年也會(huì)新增大量數(shù)據(jù)——新聞、新書、新論文等，但相對(duì)線性增長的高質(zhì)量數(shù)據(jù)很難匹配如今AI的超線性發(fā)展預(yù)期。根據(jù)獨(dú)立研究機(jī)構(gòu)EpochAI的最新測(cè)算，語言模型的訓(xùn)練將在2026年到2032年間耗盡人類公開的文本數(shù)據(jù)。

AI的發(fā)展面臨兩個(gè)維度的數(shù)據(jù)挑戰(zhàn)：一個(gè)維度是是否有足夠多的數(shù)據(jù)，即數(shù)據(jù)的數(shù)量與覆蓋度；另一個(gè)維度是數(shù)據(jù)的質(zhì)量問題，包括真實(shí)性、標(biāo)注水平、結(jié)構(gòu)化程度等。

AI開發(fā)與應(yīng)用的各個(gè)環(huán)節(jié)、場景都面臨這兩個(gè)維度的數(shù)據(jù)挑戰(zhàn)：預(yù)訓(xùn)練階段面臨前面談到的數(shù)據(jù)枯竭和互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量問題；后訓(xùn)練和對(duì)齊階段面臨高質(zhì)量標(biāo)注數(shù)據(jù)的短缺；基座模型的行業(yè)微調(diào)和應(yīng)用面臨專業(yè)數(shù)據(jù)極端稀缺、噪聲大的問題；多模態(tài)模型訓(xùn)練面臨高質(zhì)量配對(duì)（如圖文對(duì)）數(shù)據(jù)不足；具身模型則是面臨真實(shí)數(shù)據(jù)成本極高的發(fā)展制約。

如何應(yīng)對(duì)AI發(fā)展中的這些數(shù)據(jù)挑戰(zhàn)？大體有三個(gè)方向：對(duì)人類社會(huì)積累的數(shù)據(jù)和人腦中的知識(shí)進(jìn)行更深層的挖掘和治理；依托機(jī)器智能挖掘和生成數(shù)據(jù)；在算法與模型范式上進(jìn)行創(chuàng)新以減少對(duì)數(shù)據(jù)的依賴。這里我們主要討論前兩個(gè)方向。

數(shù)據(jù)擴(kuò)增方法一：收集和整理散落數(shù)據(jù)

對(duì)于人類社會(huì)積累的數(shù)據(jù)，所謂“數(shù)據(jù)枯竭”更多反映的是低垂的果實(shí)快被摘完了：公開的、未被產(chǎn)權(quán)保護(hù)的文本化數(shù)據(jù)確實(shí)在被大模型快速消耗，但人類社會(huì)和人腦中仍有大量尚未開發(fā)的數(shù)據(jù)與知識(shí)空間。

首先，各行各業(yè)有海量不公開的數(shù)據(jù)。很多高價(jià)值數(shù)據(jù)掌握在平臺(tái)、企業(yè)、專業(yè)機(jī)構(gòu)、設(shè)備端和工作流系統(tǒng)中，例如電商平臺(tái)的交易、評(píng)價(jià)、用戶畫像等；醫(yī)療領(lǐng)域的病歷、影像、診斷記錄等；制造業(yè)的工藝參數(shù)、質(zhì)檢標(biāo)準(zhǔn)、故障記錄等；科研領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)、過程數(shù)據(jù)、未發(fā)表的負(fù)面實(shí)驗(yàn)結(jié)果等。

這些數(shù)據(jù)往往涉及隱私、產(chǎn)權(quán)、商業(yè)機(jī)密或監(jiān)管合規(guī)，以私有、分散的“數(shù)據(jù)孤島”形式存在。它們?cè)诰唧w應(yīng)用中可以通過RAG（檢索增強(qiáng)生成）等方式發(fā)揮局部價(jià)值，但很難匯聚成可持續(xù)提升通用智能的大規(guī)模訓(xùn)練語料。

以上大部分場景相對(duì)容易理解，這里補(bǔ)充一個(gè)容易被忽略的例子：科學(xué)界長期存在“發(fā)表偏差”——成功的實(shí)驗(yàn)才會(huì)發(fā)表，失敗的實(shí)驗(yàn)被丟棄。但對(duì)AI而言，失敗案例和成功案例都具有學(xué)習(xí)價(jià)值，大量未被共享的失敗實(shí)驗(yàn)構(gòu)成了一座尚未開采的知識(shí)礦山。

AI專家已經(jīng)在探索一些技術(shù)手段來釋放這些數(shù)據(jù)在訓(xùn)練上的潛力。典型做法包括：通過聯(lián)邦學(xué)習(xí)在不移動(dòng)原始數(shù)據(jù)的前提下進(jìn)行聯(lián)合訓(xùn)練；以及利用差分隱私等技術(shù)，在數(shù)學(xué)上保證個(gè)體信息不可被還原，為跨機(jī)構(gòu)數(shù)據(jù)協(xié)作提供安全邊界。這類手段解決的是“在不泄露隱私的前提下，如何讓數(shù)據(jù)參與訓(xùn)練”的問題。

但要讓這些數(shù)據(jù)在AI發(fā)展中發(fā)揮最大價(jià)值，技術(shù)之外還需要制度與機(jī)制的設(shè)計(jì)。

有兩條路徑可以探索：一是自下而上的、市場化與利益激勵(lì)導(dǎo)向的路徑，例如數(shù)據(jù)交易市場、數(shù)據(jù)信托、數(shù)據(jù)要素入表等，讓數(shù)據(jù)擁有者在合規(guī)前提下有動(dòng)力開放數(shù)據(jù)，分享增值收益；一是自上而下的路徑，由政府或行業(yè)監(jiān)管者在涉及國計(jì)民生、公共安全、基礎(chǔ)科研等領(lǐng)域做統(tǒng)一安排，通過統(tǒng)一標(biāo)準(zhǔn)、基礎(chǔ)平臺(tái)和公共數(shù)據(jù)集建設(shè)，加快數(shù)據(jù)從“碎片資源”變成“公共基礎(chǔ)設(shè)施”的進(jìn)程。技術(shù)手段提供安全閥，機(jī)制設(shè)計(jì)提供流動(dòng)性和可持續(xù)激勵(lì)，兩者缺一不可。

其次，人類大腦中還有不少尚未數(shù)據(jù)化的認(rèn)知資產(chǎn)，其中有兩類對(duì)AI的能力上限影響尤為關(guān)鍵：復(fù)雜決策背后的思維軌跡，以及專家的隱性知識(shí)。這些認(rèn)知如果不被數(shù)據(jù)化，AI就難以學(xué)習(xí)和復(fù)制，未來有很大的挖掘空間。

從思維軌跡看，很多高價(jià)值任務(wù)，如企業(yè)家的重大決策、醫(yī)生對(duì)疑難雜癥的診斷、工程師處理罕見故障等，人類通常會(huì)記錄“做了什么”和“結(jié)果如何”，但缺乏“這么做背后的思考、還考慮過哪些備選方案”這種詳細(xì)的思維軌跡數(shù)據(jù)。這就像只存下數(shù)學(xué)題的題目和答案，卻沒有列出中間的解題步驟。

對(duì)于AI來說，缺乏這些“思維鏈條”數(shù)據(jù)，就很難真正學(xué)到可遷移的推理能力，只能在大量輸入輸出對(duì)上做模式擬合。這也是為什么過去一年多加入“思維鏈”能力的模型往往性能躍升，但目前可用的高質(zhì)量思維軌跡數(shù)據(jù)依然非常有限。

從隱性知識(shí)看，人類認(rèn)知中有大量難以清晰描述的部分，例如資深專家的直覺、情境化的感知、具身的“肌肉記憶”、團(tuán)隊(duì)協(xié)作中的默契規(guī)則等。隱性知識(shí)放到AI語境下，就是難以完整標(biāo)注、難以形成訓(xùn)練樣本的信息，AI也就難以利用。

思維軌跡和隱性知識(shí)的系統(tǒng)性數(shù)據(jù)化雖然成本高、難度大，但從信息密度和獨(dú)特性來看，是一座挖掘難度大但價(jià)值極高的金礦，很可能成為未來AI能力持續(xù)提升的關(guān)鍵來源之一。

第三，對(duì)人類已經(jīng)積累的知識(shí)進(jìn)行治理、提高質(zhì)量同樣至關(guān)重要。AI訓(xùn)練領(lǐng)域常說“垃圾進(jìn)，垃圾出”，意思是數(shù)據(jù)質(zhì)量在很大程度上決定了模型能力，因?yàn)槟Ｐ捅旧砣狈ψ詣?dòng)鑒別真?zhèn)魏椭匾缘哪芰Γ苋菀讖牡唾|(zhì)量數(shù)據(jù)中學(xué)到錯(cuò)誤模式。

互聯(lián)網(wǎng)上的信息質(zhì)量良莠不齊，充滿錯(cuò)誤、虛假、過時(shí)、片面和重復(fù)內(nèi)容，直接用于訓(xùn)練就會(huì)在輸出中放大幻覺與偏見。而在AI時(shí)代，圍繞“被模型引用和采樣權(quán)”展開的過度甚至惡意GEO（生成式引擎優(yōu)化），又給知識(shí)污染增加了新的入口。

因此，圍繞提升數(shù)據(jù)和知識(shí)質(zhì)量本身，可以展開一整套工作：底層是常規(guī)的數(shù)據(jù)清洗、去重、糾錯(cuò)和噪聲過濾；再往上一層，是為重要知識(shí)建立溯源和版本控制機(jī)制，明確來源、更新時(shí)間和責(zé)任主體，并通過知識(shí)圖譜等方式統(tǒng)一概念、結(jié)構(gòu)化關(guān)系；在高價(jià)值專業(yè)領(lǐng)域，則需要通過精細(xì)標(biāo)注工程和領(lǐng)域?qū)＜覅⑴c，構(gòu)建“少而精”的高置信度數(shù)據(jù)集，作為模型校準(zhǔn)與評(píng)估的基準(zhǔn)。

只有在人類知識(shí)本身經(jīng)歷了這樣一輪“面向AI的治理和提純”之后，后續(xù)的模型訓(xùn)練與推理才能真正站在更堅(jiān)實(shí)、更干凈的知識(shí)地基上，而不是踩在混雜的信息泥沙里。

數(shù)據(jù)擴(kuò)增方法二：利用機(jī)器智能

在盡最大努力挖掘人類社會(huì)積累的數(shù)據(jù)和人腦中的認(rèn)知之外，另一個(gè)思路是利用AI自身體系來挖掘和生成數(shù)據(jù)。

首先是合成數(shù)據(jù)。合成數(shù)據(jù)有多種生成方式，可以基于規(guī)則/模板、統(tǒng)計(jì)分布、機(jī)器學(xué)習(xí)模型和仿真環(huán)境等生成，我們重點(diǎn)討論在當(dāng)前AI訓(xùn)練中扮演更重要角色的后兩種。

從大模型生成的數(shù)據(jù)為什么可以訓(xùn)練新的大模型？比較好理解的是用教師模型的高質(zhì)量輸出訓(xùn)練學(xué)生模型，這就是所謂的“知識(shí)蒸餾”；即便對(duì)于前沿大模型的訓(xùn)練，基于上一代模型的合成數(shù)據(jù)在一些情況下依然可以發(fā)揮重要作用。

比如同一道數(shù)學(xué)題，讓模型回答100次，只取回答正確的20次作為數(shù)據(jù)來訓(xùn)練新的模型，本質(zhì)上就是在用模型自身的“高質(zhì)量子集”來放大有效樣本。一方面，通過自動(dòng)化生成和篩選，我們可以從原本稀缺的高質(zhì)量人類解題記錄，擴(kuò)展出數(shù)量更多、風(fēng)格多樣但邏輯正確的解題軌跡；另一方面，合成數(shù)據(jù)還可以刻意在難度更高、分布更稀疏的題型上“過采樣”，補(bǔ)齊真實(shí)數(shù)據(jù)里的薄弱環(huán)節(jié)。

另一個(gè)例子是智能駕駛訓(xùn)練借助合成數(shù)據(jù)來生成極其罕見的事故場景。從現(xiàn)實(shí)路測(cè)中收集長尾事故的效率很低，但基于現(xiàn)實(shí)數(shù)據(jù)，我們可以提取駕駛中的要素：場景類型（十字路口、高速、城市街道、停車場）、天氣（晴、雨、霧、雪、冰）、道路條件（干爽、濕滑、結(jié)冰、碎石）、時(shí)間（白天、夜晚、黃昏）等，用這些要素構(gòu)成極端組合，在仿真環(huán)境中進(jìn)行訓(xùn)練。

但從這兩個(gè)例子也能看出，在這類合成數(shù)據(jù)中，AI并不能憑空創(chuàng)造出全新的知識(shí)。

第一個(gè)例子依賴外部驗(yàn)證器（標(biāo)準(zhǔn)答案）從模型能力的上限而非均值中提取訓(xùn)練樣本，優(yōu)化的是數(shù)據(jù)分布。第二個(gè)例子是對(duì)已知元素的重組與放大。嚴(yán)格來說，在這里AI沒有真正拓展數(shù)據(jù)邊界，而是把人類社會(huì)貢獻(xiàn)的原始數(shù)據(jù)當(dāng)作礦石，進(jìn)行提純、配比和加工，做成更適合訓(xùn)練的“數(shù)據(jù)合金”，在既有知識(shí)的邊界之內(nèi)榨出更多價(jià)值。

其次是讓AI通過強(qiáng)化學(xué)習(xí)去拓展數(shù)據(jù)（也可以看作廣義的合成數(shù)據(jù)）。與基于人類樣本的合成不同，這里真正超越了既有的人類社會(huì)數(shù)據(jù)，讓模型在與環(huán)境的連續(xù)交互中主動(dòng)產(chǎn)出新的軌跡數(shù)據(jù)，探索尚未有人涉足的策略空間。強(qiáng)化學(xué)習(xí)的核心在于：通過“狀態(tài)—?jiǎng)幼鳌答仭钡难h(huán)，讓智能體在試錯(cuò)中逐步學(xué)到高回報(bào)的行為策略，而每一條行為序列本身就是在產(chǎn)生數(shù)據(jù)。

最經(jīng)典的例子是AlphaZero。在圍棋、國際象棋等確定性棋類上，它幾乎不需要人類棋譜，只依賴規(guī)則、隨機(jī)起步和自對(duì)弈，通過數(shù)以億計(jì)的自博弈局面和勝負(fù)反饋，不斷更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)，超越了所有人類棋手和傳統(tǒng)棋力引擎。這說明，在規(guī)則明確、反饋清晰的封閉環(huán)境中，AI完全可以“從零開始”通過自生成的數(shù)據(jù)逼近甚至突破人類經(jīng)驗(yàn)上限。

在開放任務(wù)上，一個(gè)重要進(jìn)展是以DeepSeek-R1為代表的“思維鏈強(qiáng)化學(xué)習(xí)”推理模型。其思路是：先讓模型在數(shù)學(xué)、編程等可自動(dòng)驗(yàn)證正確性的任務(wù)上自由生成思維鏈，然后根據(jù)最終答案是否正確、思維鏈?zhǔn)欠窈侠斫o予獎(jiǎng)勵(lì)或懲罰，驅(qū)動(dòng)模型不斷調(diào)整自己的推理策略。

與傳統(tǒng)依賴人工標(biāo)注的鏈?zhǔn)奖O(jiān)督不同，這種做法不預(yù)先準(zhǔn)備龐大的人類思維鏈數(shù)據(jù)集，而是讓模型在訓(xùn)練過程中持續(xù)自生成、自篩選推理軌跡，相當(dāng)于搭建了一個(gè)“自動(dòng)產(chǎn)出高質(zhì)量思維軌跡”的新數(shù)據(jù)工廠。

更具想象空間的是具身智能領(lǐng)域。自動(dòng)駕駛和機(jī)器人訓(xùn)練中已經(jīng)廣泛使用仿真環(huán)境，通過大規(guī)模仿真駕駛、仿真抓取與裝配等方式，用強(qiáng)化學(xué)習(xí)或相關(guān)方法生成遠(yuǎn)超真實(shí)道路和工廠場景數(shù)量的交互數(shù)據(jù)，覆蓋各類長尾風(fēng)險(xiǎn)場景和罕見工況。在真實(shí)世界中，機(jī)器人通過長期具身訓(xùn)練，同樣會(huì)不斷產(chǎn)生傳感器讀數(shù)、動(dòng)作序列和任務(wù)反饋，這些都是未來可用的高價(jià)值新生數(shù)據(jù)。

第三，還有一個(gè)探索方向是發(fā)展AI的主動(dòng)學(xué)習(xí)。與被動(dòng)等待人類喂數(shù)據(jù)不同，主動(dòng)學(xué)習(xí)的核心思想是“模型自己決定學(xué)什么、向誰問什么”。

在數(shù)據(jù)標(biāo)注昂貴的場景下，模型可以根據(jù)當(dāng)前的不確定度或潛在信息增益，挑選最有價(jià)值的樣本向人類請(qǐng)求標(biāo)注，或者在仿真環(huán)境中重點(diǎn)探索那些最能減少不確定性的狀態(tài)和任務(wù)。這樣一來，在同樣的標(biāo)注預(yù)算下，模型獲得的是信息密度最高的一小撮樣本，而不是平均分布在所有樣本上的“薄薄一層監(jiān)督”。

從更長遠(yuǎn)的視角看，主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和具身智能結(jié)合，有望讓AI從“被動(dòng)消費(fèi)現(xiàn)成數(shù)據(jù)”的角色，轉(zhuǎn)變?yōu)椤爸鲃?dòng)規(guī)劃學(xué)習(xí)路徑、主動(dòng)創(chuàng)造關(guān)鍵數(shù)據(jù)”的學(xué)習(xí)者（這其實(shí)也是挖掘人腦認(rèn)知的做法）。

AI時(shí)代，數(shù)據(jù)領(lǐng)域有巨大機(jī)會(huì)

AI下一階段的發(fā)展，很大程度上取決于誰能在數(shù)據(jù)上做好文章。這里至少有兩個(gè)原因。第一，如前所述，無論規(guī)模還是質(zhì)量，數(shù)據(jù)都已經(jīng)遇到新的天花板。能緩解這些瓶頸、提升數(shù)據(jù)有效供給的方案，都直接對(duì)應(yīng)著巨大的經(jīng)濟(jì)價(jià)值。特別是在前沿模型能力趨同的背景下，AI競爭的焦點(diǎn)很可能轉(zhuǎn)向“誰掌握了更干凈、更稀缺、更難復(fù)制的數(shù)據(jù)”。

第二，在AI的三要素中，算力和基礎(chǔ)模型的產(chǎn)業(yè)門檻都極高：提到算力我們會(huì)想到英偉達(dá)、AMD、寒武紀(jì)等芯片廠商，提到模型會(huì)想到 OpenAI、DeepSeek等頭部實(shí)驗(yàn)室和平臺(tái)。相比之下，數(shù)據(jù)更像一個(gè)能容納眾多參與者的生態(tài)：它高度分散在各個(gè)垂直行業(yè)和場景中。

這意味著深耕不同行業(yè)的龍頭企業(yè)、手握獨(dú)特?cái)?shù)據(jù)切口的中小公司甚至初創(chuàng)團(tuán)隊(duì)，都有機(jī)會(huì)通過建設(shè)高質(zhì)量數(shù)據(jù)資產(chǎn)、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)，在AI時(shí)代形成自己的護(hù)城河，而不必正面卷算力和通用大模型。

除了企業(yè)可以在數(shù)據(jù)上發(fā)掘機(jī)會(huì)，政府也需要扮演關(guān)鍵角色。前文已經(jīng)區(qū)分了自上而下和自下而上的兩種數(shù)據(jù)治理思路：在適合自上而下的領(lǐng)域，政府應(yīng)盡快搭建共享平臺(tái)和制度框架，讓這些數(shù)據(jù)更好地用于AI訓(xùn)練和公共服務(wù)；在適合市場機(jī)制的領(lǐng)域，則應(yīng)盡量給創(chuàng)新留出空間，避免過度集中或一刀切管制。

從粗略邏輯看，涉及國家安全、公共利益和基礎(chǔ)服務(wù)的數(shù)據(jù)，更適合由政府主導(dǎo)來保障秩序和可用性，例如氣象數(shù)據(jù)、地理信息數(shù)據(jù)（如測(cè)繪成果）、人口基礎(chǔ)信息、宏觀經(jīng)濟(jì)統(tǒng)計(jì)、社會(huì)保障等基礎(chǔ)公共數(shù)據(jù)。醫(yī)療健康、交通等“民生數(shù)據(jù)”，由于外部性強(qiáng)、單個(gè)主體難以內(nèi)部化全部風(fēng)險(xiǎn)，同樣需要較強(qiáng)的自上而下機(jī)制——包括統(tǒng)一標(biāo)準(zhǔn)、公共數(shù)據(jù)基礎(chǔ)設(shè)施、跨部門數(shù)據(jù)共享規(guī)則以及嚴(yán)格的隱私和安全邊界。

相比之下，那些更加偏向商業(yè)競爭的領(lǐng)域，如電商行為數(shù)據(jù)、消費(fèi)金融數(shù)據(jù)、企業(yè)內(nèi)部運(yùn)營數(shù)據(jù)等，則更應(yīng)以市場化方式去發(fā)現(xiàn)數(shù)據(jù)價(jià)值、優(yōu)化配置，政府只需做好監(jiān)管，而不是直接替代市場。

就中國而言，大語言模型訓(xùn)練對(duì)互聯(lián)網(wǎng)數(shù)據(jù)高度依賴，但受限于互聯(lián)網(wǎng)發(fā)展起步較晚等因素，中文互聯(lián)網(wǎng)數(shù)據(jù)的規(guī)模和質(zhì)量整體上遠(yuǎn)遜于英文互聯(lián)網(wǎng)世界（好在互聯(lián)網(wǎng)數(shù)據(jù)大部分是公開數(shù)據(jù)，英文的我們也可以用）。

不過，中國在其他類型數(shù)據(jù)上具有潛在結(jié)構(gòu)性優(yōu)勢(shì)：龐大的人口與市場帶來豐富的消費(fèi)與場景數(shù)據(jù)，完整的工業(yè)體系和制造鏈條沉淀了大量工業(yè)與物聯(lián)網(wǎng)數(shù)據(jù)，較為先進(jìn)的智慧城市和政務(wù)數(shù)字化基礎(chǔ)設(shè)施又形成了豐富的城市運(yùn)行與政務(wù)數(shù)據(jù)。

如果能通過完善數(shù)據(jù)法規(guī)、明晰產(chǎn)權(quán)和收益分配、建設(shè)高質(zhì)量公共數(shù)據(jù)平臺(tái)，同時(shí)鼓勵(lì)行業(yè)主體圍繞具體場景打造高質(zhì)量數(shù)據(jù)產(chǎn)品，數(shù)據(jù)完全有可能成為推動(dòng)本土AI發(fā)展和取得競爭優(yōu)勢(shì)的重要支點(diǎn)。

（劉勁系大灣區(qū)人工智能應(yīng)用研究院理事、特聘專家，長江商學(xué)院會(huì)計(jì)與金融學(xué)教授、投資研究中心主任，段磊系大灣區(qū)人工智能應(yīng)用研究院研究總監(jiān)，吳汶軒系大灣區(qū)人工智能應(yīng)用研究院助理研究員）

免責(zé)聲明：本文觀點(diǎn)僅代表作者本人，供參考、交流，不構(gòu)成任何建議。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.