![]()
劉勁、段磊、吳汶軒/文
現(xiàn)代主流AI基本都基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,其機(jī)制是從數(shù)據(jù)中“學(xué)習(xí)”模式和規(guī)律。沒有數(shù)據(jù),模型無法訓(xùn)練,這些AI的智能也就無從談起,因此數(shù)據(jù)常被比喻為AI的燃料或血液。
進(jìn)入大模型時(shí)代,基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練范式顯著降低了數(shù)據(jù)利用中的人工標(biāo)注依賴,使模型能夠以低成本、高效率學(xué)習(xí)大規(guī)模數(shù)據(jù),這促進(jìn)了數(shù)據(jù)、模型參數(shù)與算力三者之間的協(xié)同快速發(fā)展。
人們據(jù)此總結(jié)出著名的規(guī)模定律(ScalingLaw):大語言模型的性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量、計(jì)算量之間存在平滑的冪律關(guān)系,通俗地說,就是模型越大、數(shù)據(jù)越多、算力越強(qiáng),模型的性能越好。
但下一步AI發(fā)展面臨巨大的數(shù)據(jù)挑戰(zhàn),被討論最多的是“數(shù)據(jù)枯竭”。
原因不難理解:某種程度上,AI訓(xùn)練利用的是人類積累的“庫存”數(shù)據(jù)。預(yù)訓(xùn)練數(shù)據(jù)中占重要比例的互聯(lián)網(wǎng)數(shù)據(jù),是過去數(shù)十年人類在網(wǎng)上生產(chǎn)、數(shù)字化并沉淀的信息。例如維基百科,雖然數(shù)據(jù)量占比不大,但在大模型訓(xùn)練中提供高質(zhì)量數(shù)據(jù),它是數(shù)千人20多年辛苦維護(hù)的信息成果;訓(xùn)練語料中的一些圖書和經(jīng)典文獻(xiàn)則代表了人類幾千年的積累。
雖然人類社會(huì)每年也會(huì)新增大量數(shù)據(jù)——新聞、新書、新論文等,但相對(duì)線性增長的高質(zhì)量數(shù)據(jù)很難匹配如今AI的超線性發(fā)展預(yù)期。根據(jù)獨(dú)立研究機(jī)構(gòu)EpochAI的最新測(cè)算,語言模型的訓(xùn)練將在2026年到2032年間耗盡人類公開的文本數(shù)據(jù)。
AI的發(fā)展面臨兩個(gè)維度的數(shù)據(jù)挑戰(zhàn):一個(gè)維度是是否有足夠多的數(shù)據(jù),即數(shù)據(jù)的數(shù)量與覆蓋度;另一個(gè)維度是數(shù)據(jù)的質(zhì)量問題,包括真實(shí)性、標(biāo)注水平、結(jié)構(gòu)化程度等。
AI開發(fā)與應(yīng)用的各個(gè)環(huán)節(jié)、場景都面臨這兩個(gè)維度的數(shù)據(jù)挑戰(zhàn):預(yù)訓(xùn)練階段面臨前面談到的數(shù)據(jù)枯竭和互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量問題;后訓(xùn)練和對(duì)齊階段面臨高質(zhì)量標(biāo)注數(shù)據(jù)的短缺;基座模型的行業(yè)微調(diào)和應(yīng)用面臨專業(yè)數(shù)據(jù)極端稀缺、噪聲大的問題;多模態(tài)模型訓(xùn)練面臨高質(zhì)量配對(duì)(如圖文對(duì))數(shù)據(jù)不足;具身模型則是面臨真實(shí)數(shù)據(jù)成本極高的發(fā)展制約。
如何應(yīng)對(duì)AI發(fā)展中的這些數(shù)據(jù)挑戰(zhàn)?大體有三個(gè)方向:對(duì)人類社會(huì)積累的數(shù)據(jù)和人腦中的知識(shí)進(jìn)行更深層的挖掘和治理;依托機(jī)器智能挖掘和生成數(shù)據(jù);在算法與模型范式上進(jìn)行創(chuàng)新以減少對(duì)數(shù)據(jù)的依賴。這里我們主要討論前兩個(gè)方向。
數(shù)據(jù)擴(kuò)增方法一:收集和整理散落數(shù)據(jù)
對(duì)于人類社會(huì)積累的數(shù)據(jù),所謂“數(shù)據(jù)枯竭”更多反映的是低垂的果實(shí)快被摘完了:公開的、未被產(chǎn)權(quán)保護(hù)的文本化數(shù)據(jù)確實(shí)在被大模型快速消耗,但人類社會(huì)和人腦中仍有大量尚未開發(fā)的數(shù)據(jù)與知識(shí)空間。
首先,各行各業(yè)有海量不公開的數(shù)據(jù)。很多高價(jià)值數(shù)據(jù)掌握在平臺(tái)、企業(yè)、專業(yè)機(jī)構(gòu)、設(shè)備端和工作流系統(tǒng)中,例如電商平臺(tái)的交易、評(píng)價(jià)、用戶畫像等;醫(yī)療領(lǐng)域的病歷、影像、診斷記錄等;制造業(yè)的工藝參數(shù)、質(zhì)檢標(biāo)準(zhǔn)、故障記錄等;科研領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)、過程數(shù)據(jù)、未發(fā)表的負(fù)面實(shí)驗(yàn)結(jié)果等。
這些數(shù)據(jù)往往涉及隱私、產(chǎn)權(quán)、商業(yè)機(jī)密或監(jiān)管合規(guī),以私有、分散的“數(shù)據(jù)孤島”形式存在。它們?cè)诰唧w應(yīng)用中可以通過RAG(檢索增強(qiáng)生成)等方式發(fā)揮局部價(jià)值,但很難匯聚成可持續(xù)提升通用智能的大規(guī)模訓(xùn)練語料。
以上大部分場景相對(duì)容易理解,這里補(bǔ)充一個(gè)容易被忽略的例子:科學(xué)界長期存在“發(fā)表偏差”——成功的實(shí)驗(yàn)才會(huì)發(fā)表,失敗的實(shí)驗(yàn)被丟棄。但對(duì)AI而言,失敗案例和成功案例都具有學(xué)習(xí)價(jià)值,大量未被共享的失敗實(shí)驗(yàn)構(gòu)成了一座尚未開采的知識(shí)礦山。
AI專家已經(jīng)在探索一些技術(shù)手段來釋放這些數(shù)據(jù)在訓(xùn)練上的潛力。典型做法包括:通過聯(lián)邦學(xué)習(xí)在不移動(dòng)原始數(shù)據(jù)的前提下進(jìn)行聯(lián)合訓(xùn)練;以及利用差分隱私等技術(shù),在數(shù)學(xué)上保證個(gè)體信息不可被還原,為跨機(jī)構(gòu)數(shù)據(jù)協(xié)作提供安全邊界。這類手段解決的是“在不泄露隱私的前提下,如何讓數(shù)據(jù)參與訓(xùn)練”的問題。
但要讓這些數(shù)據(jù)在AI發(fā)展中發(fā)揮最大價(jià)值,技術(shù)之外還需要制度與機(jī)制的設(shè)計(jì)。
有兩條路徑可以探索:一是自下而上的、市場化與利益激勵(lì)導(dǎo)向的路徑,例如數(shù)據(jù)交易市場、數(shù)據(jù)信托、數(shù)據(jù)要素入表等,讓數(shù)據(jù)擁有者在合規(guī)前提下有動(dòng)力開放數(shù)據(jù),分享增值收益;一是自上而下的路徑,由政府或行業(yè)監(jiān)管者在涉及國計(jì)民生、公共安全、基礎(chǔ)科研等領(lǐng)域做統(tǒng)一安排,通過統(tǒng)一標(biāo)準(zhǔn)、基礎(chǔ)平臺(tái)和公共數(shù)據(jù)集建設(shè),加快數(shù)據(jù)從“碎片資源”變成“公共基礎(chǔ)設(shè)施”的進(jìn)程。技術(shù)手段提供安全閥,機(jī)制設(shè)計(jì)提供流動(dòng)性和可持續(xù)激勵(lì),兩者缺一不可。
其次,人類大腦中還有不少尚未數(shù)據(jù)化的認(rèn)知資產(chǎn),其中有兩類對(duì)AI的能力上限影響尤為關(guān)鍵:復(fù)雜決策背后的思維軌跡,以及專家的隱性知識(shí)。這些認(rèn)知如果不被數(shù)據(jù)化,AI就難以學(xué)習(xí)和復(fù)制,未來有很大的挖掘空間。
從思維軌跡看,很多高價(jià)值任務(wù),如企業(yè)家的重大決策、醫(yī)生對(duì)疑難雜癥的診斷、工程師處理罕見故障等,人類通常會(huì)記錄“做了什么”和“結(jié)果如何”,但缺乏“這么做背后的思考、還考慮過哪些備選方案”這種詳細(xì)的思維軌跡數(shù)據(jù)。這就像只存下數(shù)學(xué)題的題目和答案,卻沒有列出中間的解題步驟。
對(duì)于AI來說,缺乏這些“思維鏈條”數(shù)據(jù),就很難真正學(xué)到可遷移的推理能力,只能在大量輸入輸出對(duì)上做模式擬合。這也是為什么過去一年多加入“思維鏈”能力的模型往往性能躍升,但目前可用的高質(zhì)量思維軌跡數(shù)據(jù)依然非常有限。
從隱性知識(shí)看,人類認(rèn)知中有大量難以清晰描述的部分,例如資深專家的直覺、情境化的感知、具身的“肌肉記憶”、團(tuán)隊(duì)協(xié)作中的默契規(guī)則等。隱性知識(shí)放到AI語境下,就是難以完整標(biāo)注、難以形成訓(xùn)練樣本的信息,AI也就難以利用。
思維軌跡和隱性知識(shí)的系統(tǒng)性數(shù)據(jù)化雖然成本高、難度大,但從信息密度和獨(dú)特性來看,是一座挖掘難度大但價(jià)值極高的金礦,很可能成為未來AI能力持續(xù)提升的關(guān)鍵來源之一。
第三,對(duì)人類已經(jīng)積累的知識(shí)進(jìn)行治理、提高質(zhì)量同樣至關(guān)重要。AI訓(xùn)練領(lǐng)域常說“垃圾進(jìn),垃圾出”,意思是數(shù)據(jù)質(zhì)量在很大程度上決定了模型能力,因?yàn)槟P捅旧砣狈ψ詣?dòng)鑒別真?zhèn)魏椭匾缘哪芰Γ苋菀讖牡唾|(zhì)量數(shù)據(jù)中學(xué)到錯(cuò)誤模式。
互聯(lián)網(wǎng)上的信息質(zhì)量良莠不齊,充滿錯(cuò)誤、虛假、過時(shí)、片面和重復(fù)內(nèi)容,直接用于訓(xùn)練就會(huì)在輸出中放大幻覺與偏見。而在AI時(shí)代,圍繞“被模型引用和采樣權(quán)”展開的過度甚至惡意GEO(生成式引擎優(yōu)化),又給知識(shí)污染增加了新的入口。
因此,圍繞提升數(shù)據(jù)和知識(shí)質(zhì)量本身,可以展開一整套工作:底層是常規(guī)的數(shù)據(jù)清洗、去重、糾錯(cuò)和噪聲過濾;再往上一層,是為重要知識(shí)建立溯源和版本控制機(jī)制,明確來源、更新時(shí)間和責(zé)任主體,并通過知識(shí)圖譜等方式統(tǒng)一概念、結(jié)構(gòu)化關(guān)系;在高價(jià)值專業(yè)領(lǐng)域,則需要通過精細(xì)標(biāo)注工程和領(lǐng)域?qū)<覅⑴c,構(gòu)建“少而精”的高置信度數(shù)據(jù)集,作為模型校準(zhǔn)與評(píng)估的基準(zhǔn)。
只有在人類知識(shí)本身經(jīng)歷了這樣一輪“面向AI的治理和提純”之后,后續(xù)的模型訓(xùn)練與推理才能真正站在更堅(jiān)實(shí)、更干凈的知識(shí)地基上,而不是踩在混雜的信息泥沙里。
數(shù)據(jù)擴(kuò)增方法二:利用機(jī)器智能
在盡最大努力挖掘人類社會(huì)積累的數(shù)據(jù)和人腦中的認(rèn)知之外,另一個(gè)思路是利用AI自身體系來挖掘和生成數(shù)據(jù)。
首先是合成數(shù)據(jù)。合成數(shù)據(jù)有多種生成方式,可以基于規(guī)則/模板、統(tǒng)計(jì)分布、機(jī)器學(xué)習(xí)模型和仿真環(huán)境等生成,我們重點(diǎn)討論在當(dāng)前AI訓(xùn)練中扮演更重要角色的后兩種。
從大模型生成的數(shù)據(jù)為什么可以訓(xùn)練新的大模型?比較好理解的是用教師模型的高質(zhì)量輸出訓(xùn)練學(xué)生模型,這就是所謂的“知識(shí)蒸餾”;即便對(duì)于前沿大模型的訓(xùn)練,基于上一代模型的合成數(shù)據(jù)在一些情況下依然可以發(fā)揮重要作用。
比如同一道數(shù)學(xué)題,讓模型回答100次,只取回答正確的20次作為數(shù)據(jù)來訓(xùn)練新的模型,本質(zhì)上就是在用模型自身的“高質(zhì)量子集”來放大有效樣本。一方面,通過自動(dòng)化生成和篩選,我們可以從原本稀缺的高質(zhì)量人類解題記錄,擴(kuò)展出數(shù)量更多、風(fēng)格多樣但邏輯正確的解題軌跡;另一方面,合成數(shù)據(jù)還可以刻意在難度更高、分布更稀疏的題型上“過采樣”,補(bǔ)齊真實(shí)數(shù)據(jù)里的薄弱環(huán)節(jié)。
另一個(gè)例子是智能駕駛訓(xùn)練借助合成數(shù)據(jù)來生成極其罕見的事故場景。從現(xiàn)實(shí)路測(cè)中收集長尾事故的效率很低,但基于現(xiàn)實(shí)數(shù)據(jù),我們可以提取駕駛中的要素:場景類型(十字路口、高速、城市街道、停車場)、天氣(晴、雨、霧、雪、冰)、道路條件(干爽、濕滑、結(jié)冰、碎石)、時(shí)間(白天、夜晚、黃昏)等,用這些要素構(gòu)成極端組合,在仿真環(huán)境中進(jìn)行訓(xùn)練。
但從這兩個(gè)例子也能看出,在這類合成數(shù)據(jù)中,AI并不能憑空創(chuàng)造出全新的知識(shí)。
第一個(gè)例子依賴外部驗(yàn)證器(標(biāo)準(zhǔn)答案)從模型能力的上限而非均值中提取訓(xùn)練樣本,優(yōu)化的是數(shù)據(jù)分布。第二個(gè)例子是對(duì)已知元素的重組與放大。嚴(yán)格來說,在這里AI沒有真正拓展數(shù)據(jù)邊界,而是把人類社會(huì)貢獻(xiàn)的原始數(shù)據(jù)當(dāng)作礦石,進(jìn)行提純、配比和加工,做成更適合訓(xùn)練的“數(shù)據(jù)合金”,在既有知識(shí)的邊界之內(nèi)榨出更多價(jià)值。
其次是讓AI通過強(qiáng)化學(xué)習(xí)去拓展數(shù)據(jù)(也可以看作廣義的合成數(shù)據(jù))。與基于人類樣本的合成不同,這里真正超越了既有的人類社會(huì)數(shù)據(jù),讓模型在與環(huán)境的連續(xù)交互中主動(dòng)產(chǎn)出新的軌跡數(shù)據(jù),探索尚未有人涉足的策略空間。強(qiáng)化學(xué)習(xí)的核心在于:通過“狀態(tài)—?jiǎng)幼鳌答仭钡难h(huán),讓智能體在試錯(cuò)中逐步學(xué)到高回報(bào)的行為策略,而每一條行為序列本身就是在產(chǎn)生數(shù)據(jù)。
最經(jīng)典的例子是AlphaZero。在圍棋、國際象棋等確定性棋類上,它幾乎不需要人類棋譜,只依賴規(guī)則、隨機(jī)起步和自對(duì)弈,通過數(shù)以億計(jì)的自博弈局面和勝負(fù)反饋,不斷更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),超越了所有人類棋手和傳統(tǒng)棋力引擎。這說明,在規(guī)則明確、反饋清晰的封閉環(huán)境中,AI完全可以“從零開始”通過自生成的數(shù)據(jù)逼近甚至突破人類經(jīng)驗(yàn)上限。
在開放任務(wù)上,一個(gè)重要進(jìn)展是以DeepSeek-R1為代表的“思維鏈強(qiáng)化學(xué)習(xí)”推理模型。其思路是:先讓模型在數(shù)學(xué)、編程等可自動(dòng)驗(yàn)證正確性的任務(wù)上自由生成思維鏈,然后根據(jù)最終答案是否正確、思維鏈?zhǔn)欠窈侠斫o予獎(jiǎng)勵(lì)或懲罰,驅(qū)動(dòng)模型不斷調(diào)整自己的推理策略。
與傳統(tǒng)依賴人工標(biāo)注的鏈?zhǔn)奖O(jiān)督不同,這種做法不預(yù)先準(zhǔn)備龐大的人類思維鏈數(shù)據(jù)集,而是讓模型在訓(xùn)練過程中持續(xù)自生成、自篩選推理軌跡,相當(dāng)于搭建了一個(gè)“自動(dòng)產(chǎn)出高質(zhì)量思維軌跡”的新數(shù)據(jù)工廠。
更具想象空間的是具身智能領(lǐng)域。自動(dòng)駕駛和機(jī)器人訓(xùn)練中已經(jīng)廣泛使用仿真環(huán)境,通過大規(guī)模仿真駕駛、仿真抓取與裝配等方式,用強(qiáng)化學(xué)習(xí)或相關(guān)方法生成遠(yuǎn)超真實(shí)道路和工廠場景數(shù)量的交互數(shù)據(jù),覆蓋各類長尾風(fēng)險(xiǎn)場景和罕見工況。在真實(shí)世界中,機(jī)器人通過長期具身訓(xùn)練,同樣會(huì)不斷產(chǎn)生傳感器讀數(shù)、動(dòng)作序列和任務(wù)反饋,這些都是未來可用的高價(jià)值新生數(shù)據(jù)。
第三,還有一個(gè)探索方向是發(fā)展AI的主動(dòng)學(xué)習(xí)。與被動(dòng)等待人類喂數(shù)據(jù)不同,主動(dòng)學(xué)習(xí)的核心思想是“模型自己決定學(xué)什么、向誰問什么”。
在數(shù)據(jù)標(biāo)注昂貴的場景下,模型可以根據(jù)當(dāng)前的不確定度或潛在信息增益,挑選最有價(jià)值的樣本向人類請(qǐng)求標(biāo)注,或者在仿真環(huán)境中重點(diǎn)探索那些最能減少不確定性的狀態(tài)和任務(wù)。這樣一來,在同樣的標(biāo)注預(yù)算下,模型獲得的是信息密度最高的一小撮樣本,而不是平均分布在所有樣本上的“薄薄一層監(jiān)督”。
從更長遠(yuǎn)的視角看,主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和具身智能結(jié)合,有望讓AI從“被動(dòng)消費(fèi)現(xiàn)成數(shù)據(jù)”的角色,轉(zhuǎn)變?yōu)椤爸鲃?dòng)規(guī)劃學(xué)習(xí)路徑、主動(dòng)創(chuàng)造關(guān)鍵數(shù)據(jù)”的學(xué)習(xí)者(這其實(shí)也是挖掘人腦認(rèn)知的做法)。
AI時(shí)代,數(shù)據(jù)領(lǐng)域有巨大機(jī)會(huì)
AI下一階段的發(fā)展,很大程度上取決于誰能在數(shù)據(jù)上做好文章。這里至少有兩個(gè)原因。第一,如前所述,無論規(guī)模還是質(zhì)量,數(shù)據(jù)都已經(jīng)遇到新的天花板。能緩解這些瓶頸、提升數(shù)據(jù)有效供給的方案,都直接對(duì)應(yīng)著巨大的經(jīng)濟(jì)價(jià)值。特別是在前沿模型能力趨同的背景下,AI競爭的焦點(diǎn)很可能轉(zhuǎn)向“誰掌握了更干凈、更稀缺、更難復(fù)制的數(shù)據(jù)”。
第二,在AI的三要素中,算力和基礎(chǔ)模型的產(chǎn)業(yè)門檻都極高:提到算力我們會(huì)想到英偉達(dá)、AMD、寒武紀(jì)等芯片廠商,提到模型會(huì)想到 OpenAI、DeepSeek等頭部實(shí)驗(yàn)室和平臺(tái)。相比之下,數(shù)據(jù)更像一個(gè)能容納眾多參與者的生態(tài):它高度分散在各個(gè)垂直行業(yè)和場景中。
這意味著深耕不同行業(yè)的龍頭企業(yè)、手握獨(dú)特?cái)?shù)據(jù)切口的中小公司甚至初創(chuàng)團(tuán)隊(duì),都有機(jī)會(huì)通過建設(shè)高質(zhì)量數(shù)據(jù)資產(chǎn)、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù),在AI時(shí)代形成自己的護(hù)城河,而不必正面卷算力和通用大模型。
除了企業(yè)可以在數(shù)據(jù)上發(fā)掘機(jī)會(huì),政府也需要扮演關(guān)鍵角色。前文已經(jīng)區(qū)分了自上而下和自下而上的兩種數(shù)據(jù)治理思路:在適合自上而下的領(lǐng)域,政府應(yīng)盡快搭建共享平臺(tái)和制度框架,讓這些數(shù)據(jù)更好地用于AI訓(xùn)練和公共服務(wù);在適合市場機(jī)制的領(lǐng)域,則應(yīng)盡量給創(chuàng)新留出空間,避免過度集中或一刀切管制。
從粗略邏輯看,涉及國家安全、公共利益和基礎(chǔ)服務(wù)的數(shù)據(jù),更適合由政府主導(dǎo)來保障秩序和可用性,例如氣象數(shù)據(jù)、地理信息數(shù)據(jù)(如測(cè)繪成果)、人口基礎(chǔ)信息、宏觀經(jīng)濟(jì)統(tǒng)計(jì)、社會(huì)保障等基礎(chǔ)公共數(shù)據(jù)。醫(yī)療健康、交通等“民生數(shù)據(jù)”,由于外部性強(qiáng)、單個(gè)主體難以內(nèi)部化全部風(fēng)險(xiǎn),同樣需要較強(qiáng)的自上而下機(jī)制——包括統(tǒng)一標(biāo)準(zhǔn)、公共數(shù)據(jù)基礎(chǔ)設(shè)施、跨部門數(shù)據(jù)共享規(guī)則以及嚴(yán)格的隱私和安全邊界。
相比之下,那些更加偏向商業(yè)競爭的領(lǐng)域,如電商行為數(shù)據(jù)、消費(fèi)金融數(shù)據(jù)、企業(yè)內(nèi)部運(yùn)營數(shù)據(jù)等,則更應(yīng)以市場化方式去發(fā)現(xiàn)數(shù)據(jù)價(jià)值、優(yōu)化配置,政府只需做好監(jiān)管,而不是直接替代市場。
就中國而言,大語言模型訓(xùn)練對(duì)互聯(lián)網(wǎng)數(shù)據(jù)高度依賴,但受限于互聯(lián)網(wǎng)發(fā)展起步較晚等因素,中文互聯(lián)網(wǎng)數(shù)據(jù)的規(guī)模和質(zhì)量整體上遠(yuǎn)遜于英文互聯(lián)網(wǎng)世界(好在互聯(lián)網(wǎng)數(shù)據(jù)大部分是公開數(shù)據(jù),英文的我們也可以用)。
不過,中國在其他類型數(shù)據(jù)上具有潛在結(jié)構(gòu)性優(yōu)勢(shì):龐大的人口與市場帶來豐富的消費(fèi)與場景數(shù)據(jù),完整的工業(yè)體系和制造鏈條沉淀了大量工業(yè)與物聯(lián)網(wǎng)數(shù)據(jù),較為先進(jìn)的智慧城市和政務(wù)數(shù)字化基礎(chǔ)設(shè)施又形成了豐富的城市運(yùn)行與政務(wù)數(shù)據(jù)。
如果能通過完善數(shù)據(jù)法規(guī)、明晰產(chǎn)權(quán)和收益分配、建設(shè)高質(zhì)量公共數(shù)據(jù)平臺(tái),同時(shí)鼓勵(lì)行業(yè)主體圍繞具體場景打造高質(zhì)量數(shù)據(jù)產(chǎn)品,數(shù)據(jù)完全有可能成為推動(dòng)本土AI發(fā)展和取得競爭優(yōu)勢(shì)的重要支點(diǎn)。
(劉勁系大灣區(qū)人工智能應(yīng)用研究院理事、特聘專家,長江商學(xué)院會(huì)計(jì)與金融學(xué)教授、投資研究中心主任,段磊系大灣區(qū)人工智能應(yīng)用研究院研究總監(jiān),吳汶軒系大灣區(qū)人工智能應(yīng)用研究院助理研究員)
免責(zé)聲明:本文觀點(diǎn)僅代表作者本人,供參考、交流,不構(gòu)成任何建議。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.