圓桌論壇：AI大模型+Agent，正推動數(shù)據(jù)基礎(chǔ)設(shè)施變革？

2026-01-22 19:48:48　來源: 數(shù)據(jù)猿DataYuan

內(nèi)蒙古舉報

分享至

“邁向未來智能，我們需要怎樣的數(shù)智底座？

大模型與智能體的興起，對數(shù)據(jù)提出了根本性的新要求，也推動數(shù)據(jù)基礎(chǔ)設(shè)施向更高層次演進。

在此背景下，“第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢論壇”于1月14日在上海成功舉辦。與會政、產(chǎn)、學(xué)、研、用各方代表一致認(rèn)為，隨著大模型與智能體的發(fā)展，產(chǎn)業(yè)對數(shù)據(jù)的需求正發(fā)生質(zhì)的變化，各行業(yè)對高質(zhì)量數(shù)據(jù)集的渴求從未如此迫切，這也促使我們重新思考大數(shù)據(jù)未來的發(fā)展圖景。

傳統(tǒng)大數(shù)據(jù)已難以滿足現(xiàn)狀

數(shù)據(jù)需求的變革，始終在供需雙向奔赴中展開。以一家新能源車內(nèi)飾件供應(yīng)商為例，其原材料采購模式已徹底顛覆傳統(tǒng)燃油車時代——定制化、具象化、精準(zhǔn)化需求成為主流。在AI場景應(yīng)用下，約三分之一的采購崗位可能被替代。如果仍依循舊有經(jīng)驗篩選供應(yīng)商，效率將十分低下。

大模型訓(xùn)練所需的數(shù)據(jù)規(guī)模、復(fù)雜性和處理方式與傳統(tǒng)的數(shù)據(jù)處理方法有根本不同。從傳統(tǒng)數(shù)據(jù)到大模型基座，當(dāng)前數(shù)據(jù)基礎(chǔ)設(shè)施正面臨體系性變革。

“人工智能的應(yīng)用，約90%投入在后續(xù)軟件工程上。現(xiàn)有基礎(chǔ)架構(gòu)在算力、存儲及數(shù)據(jù)治理等方面已難以適應(yīng)需求，亟待大規(guī)模改造。尤其是隨著大模型的快速迭代，AI應(yīng)用不再僅是提升效率的工具，而是深度嵌入業(yè)務(wù)流程的關(guān)鍵組件。”上海市數(shù)商協(xié)會秘書長盧勇指出。他進一步表示，大模型在數(shù)據(jù)驅(qū)動下，能快速精準(zhǔn)定位新合作伙伴，這對產(chǎn)業(yè)基礎(chǔ)設(shè)施提出了新的挑戰(zhàn)與要求。

上海數(shù)商協(xié)會秘書長盧勇

“近年來，公積金行業(yè)數(shù)據(jù)呈幾何級增長，對存儲傳輸、管理使用提出新要求。”鹽城市住房公積金管理中心技術(shù)信息處副處長葉光輝強調(diào)，數(shù)據(jù)質(zhì)量面臨更高標(biāo)準(zhǔn)要求。過去僅需保證元數(shù)據(jù)的真實性、完整性、一致性等即可，如今還需關(guān)注其價值密度。“當(dāng)前基礎(chǔ)設(shè)施下，單條數(shù)據(jù)可能本身無誤，但因多樣性不足等原因，無法直接應(yīng)用于智能場景。同時，隨著個人信息保護法等法律法規(guī)實施，數(shù)據(jù)安全與隱私保護要求日益嚴(yán)格，如何在數(shù)據(jù)效用與隱私保護間取得平衡，也成為關(guān)鍵考量。”

鹽城市住房公積金管理中心技術(shù)信息處副處長葉光輝

此外，數(shù)據(jù)跨行業(yè)、跨領(lǐng)域、跨部門的流動性不斷增強，建立協(xié)同治理的新機制，也是數(shù)據(jù)發(fā)展提出的新課題。

而在中國數(shù)聯(lián)科技創(chuàng)新部總經(jīng)理沈旸看來，企業(yè)下一代AI的核心在于私有數(shù)據(jù)。過去互聯(lián)網(wǎng)公司訓(xùn)練大模型多使用公開數(shù)據(jù)，但其價值有限。“例如年終總結(jié)或年報，最終成果可能僅萬字，但其背后的參與人員、部門博弈、內(nèi)容排序等過程數(shù)據(jù)并未公開。私有數(shù)據(jù)則能沉淀企業(yè)內(nèi)部管理過程，而以往這些數(shù)據(jù)大多未數(shù)字化。例如會議紀(jì)要的自動生成——過去這些過程數(shù)據(jù)未被記錄。企業(yè)99.9%的數(shù)據(jù)在過程管理層面尚未真正數(shù)字化。隨著私有數(shù)據(jù)逐漸形成，企業(yè)運營才能有效指導(dǎo)AI，而非僅依賴公開知識。”

中國數(shù)聯(lián)科技創(chuàng)新部總經(jīng)理沈旸

“企業(yè)需先完成歷史數(shù)據(jù)的數(shù)字化沉淀，再逐步讓AI嘗試替代部分工作，評估其成效，最終實現(xiàn)AI原生的運營模式。”他說道。

高質(zhì)量數(shù)據(jù)的戰(zhàn)略價值

日益凸顯

目前，業(yè)內(nèi)眾多專家已經(jīng)形成共識，認(rèn)為2026年將會是人工智能從“生成內(nèi)容（Generative）”向“解決復(fù)雜問題與執(zhí)行任務(wù)（Agentic & Action）”全面跨越的一年。當(dāng)大模型越來越深入產(chǎn)業(yè)，數(shù)據(jù)的價值尤其是高質(zhì)量數(shù)據(jù)的價值越發(fā)凸顯。高質(zhì)量數(shù)據(jù)的“高”究竟體現(xiàn)在哪？應(yīng)該建立怎樣的評估標(biāo)準(zhǔn)和建設(shè)標(biāo)準(zhǔn)來保障高質(zhì)量數(shù)據(jù)的供給？

對此，盧勇表示，所謂高質(zhì)量數(shù)據(jù)集，就是人工智能模型能夠理解的數(shù)據(jù)。高質(zhì)量數(shù)據(jù)集主要服務(wù)于人工智能模型的訓(xùn)練與推理。原始數(shù)據(jù)匯集后需經(jīng)治理才能轉(zhuǎn)化為AI可理解的高質(zhì)量數(shù)據(jù)。

“如果還按照過去的模式把數(shù)據(jù)堆到一起、集中到一起，可能并不能直接使用，還需要有一個治理的過程。而這個過程中就會產(chǎn)生一些高質(zhì)量數(shù)據(jù)。”盧勇說道。

現(xiàn)實中，越來越多的場景正在呈現(xiàn)：金融行業(yè)從信用評估到動態(tài)風(fēng)控與智能交互；醫(yī)療行業(yè)從院內(nèi)數(shù)據(jù)到跨域融合的輔助診療；零售行業(yè)從用戶畫像到個性化實時體驗……上述場景應(yīng)用的實現(xiàn)，都需要借助數(shù)據(jù)的實時性、一致性、可解釋性。以金融行業(yè)為例，要求風(fēng)險數(shù)據(jù)在毫秒級內(nèi)完成采集、清洗、特征計算，并確保在流處理和批量處理中結(jié)果完全一致，且每個風(fēng)險標(biāo)簽都能追溯至原始數(shù)據(jù)。某頭部商業(yè)銀行的實時反欺詐決策引擎，整合了用戶的實時交易、設(shè)備、位置、行為序列等上百個數(shù)據(jù)源。通過流計算平臺，能在50毫秒內(nèi)完成數(shù)據(jù)清洗、特征提取和模型推理，對可疑交易實時攔截。其成功關(guān)鍵在于，建立了貫穿數(shù)據(jù)接入、處理、服務(wù)全鏈路的數(shù)據(jù)溯源與質(zhì)量監(jiān)控，確保每個攔截決策都有“數(shù)據(jù)依據(jù)”，符合監(jiān)管審查要求。

華院計算高級技術(shù)專家趙康寧指出，大模型時代對數(shù)據(jù)質(zhì)量的評估與傳統(tǒng)方式迥異。傳統(tǒng)維度側(cè)重完整度、整齊度等指標(biāo)；而大模型乃至智能體時代，要求更高維度的評估：數(shù)據(jù)是否契合模型及系統(tǒng)演進方向（尤其在多模態(tài)、具身智能背景下）；數(shù)據(jù)的安全性、可靠性、可溯源性如何；以及是否需引入動態(tài)評估機制，考量數(shù)據(jù)對模型訓(xùn)練、評估乃至人類反饋的影響。

華院計算高級技術(shù)專家趙康寧

“在大數(shù)據(jù)時代，對于高質(zhì)量數(shù)據(jù)要求的維度也會越來越多。”他強調(diào)。

打通“用戶反饋-場景數(shù)據(jù)-模型迭代”閉環(huán)

當(dāng)前產(chǎn)業(yè)關(guān)注正從模型參數(shù)轉(zhuǎn)向?qū)嶋H生產(chǎn)力，關(guān)注的重點已不僅是AI的參數(shù)規(guī)模或算力強弱，而更聚焦于AI實際能承擔(dān)的工作量與效能。在推動AI落地業(yè)務(wù)時，應(yīng)積極構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施，打通“用戶反饋-場景數(shù)據(jù)-模型迭代”閉環(huán)，真正讓數(shù)據(jù)流動起來、讓模型持續(xù)進化，最終驅(qū)動業(yè)務(wù)實現(xiàn)可衡量的增長。

盧勇認(rèn)為，未來AI時代應(yīng)用變革的根本在于以模型替代人力。人力在處理數(shù)據(jù)量、響應(yīng)時間及維度上遠遜于模型。若要在業(yè)務(wù)全閉環(huán)中應(yīng)用模型，數(shù)據(jù)、治理方式及基礎(chǔ)設(shè)施均需相應(yīng)調(diào)整，因其服務(wù)對象已從傳統(tǒng)信息系統(tǒng)轉(zhuǎn)向機器與模型。這是必然的發(fā)展趨勢。

現(xiàn)場觀眾針對AI在實際產(chǎn)業(yè)應(yīng)用進行了提問，盧勇以今年上海在“數(shù)據(jù)要素×”大賽中的獲獎案例為例進行了解答。他表示，在制造業(yè)中，利用工業(yè)互聯(lián)網(wǎng)平臺可借助數(shù)據(jù)賦能，更好對接前端需求與后端供給，促進產(chǎn)業(yè)高效發(fā)展。此外，在陶瓷行業(yè)，原本分散的小作坊難以獲取市場需求，通過工業(yè)互聯(lián)網(wǎng)平臺的數(shù)據(jù)智能匹配，能實現(xiàn)供需精準(zhǔn)對接，讓經(jīng)濟效益最大化。

葉光輝指出，應(yīng)遵循“小步快跑”原則，在投入與訓(xùn)練成本間取得平衡。具體可分三步：首先基于真實業(yè)務(wù)場景，讓基座模型識別目標(biāo)，據(jù)此梳理整合數(shù)據(jù)；其次建立專用模型，利用高質(zhì)量業(yè)務(wù)場景切片進行訓(xùn)練；最后通過人工反饋數(shù)據(jù)回流，實現(xiàn)模型快速迭代與數(shù)據(jù)標(biāo)簽重定義，形成數(shù)據(jù)、場景與反饋的閉環(huán)。

“我們大家都經(jīng)歷過或正在經(jīng)歷學(xué)車。試想一下，如果在大馬路上就你一個人，估計怎么訓(xùn)練效果提升都有限。但如果你到上海的高架橋上去開幾天，質(zhì)量就會更高。所以要多給大模型一些高密度的高質(zhì)量數(shù)據(jù)。”上海紐約大學(xué)信息技術(shù)部高級主任常潘建議，需從三方面改進：一是優(yōu)化模型自身，通過知識注入與微調(diào)實現(xiàn)實時反饋與行為調(diào)整；二是利用合成數(shù)據(jù)提供高密度訓(xùn)練素材，助力AI能力提升；三是實現(xiàn)模型增量學(xué)習(xí)與決策可追溯，確保AI能從新事件中持續(xù)學(xué)習(xí)，且其決策依據(jù)可查。

上海紐約大學(xué)信息技術(shù)部高級主任常潘

支撐未來智能

數(shù)據(jù)基礎(chǔ)設(shè)施還需要哪些突破？

在邁向未來智能時代的進程中，面對可能出現(xiàn)的自主感知、認(rèn)知與決策需求，當(dāng)前的數(shù)據(jù)基礎(chǔ)設(shè)施在架構(gòu)設(shè)計、組織模式、數(shù)據(jù)流轉(zhuǎn)與應(yīng)用范式等方面還存在根本性局限，應(yīng)該推動關(guān)鍵突破以支撐下一代智能形態(tài)的演進。

“未來有非常多的機會需要我們?nèi)プ龈嗟膭?chuàng)新，包括從現(xiàn)有的真實世界的數(shù)據(jù)到深層次數(shù)據(jù)。在這當(dāng)中有非常多的挑戰(zhàn)，所以未來可以做的事情非常多。”盧勇表示，人工智能正從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。數(shù)據(jù)領(lǐng)域未來充滿機遇與創(chuàng)新挑戰(zhàn)，包括從現(xiàn)實數(shù)據(jù)到深層數(shù)據(jù)的轉(zhuǎn)化等。

葉光輝強調(diào)，過去是管理數(shù)據(jù)，如今需運營數(shù)據(jù)；過去數(shù)據(jù)如檔案鎖入柜中，如今數(shù)據(jù)是資產(chǎn)，需流動起來，通過持續(xù)治理提升價值密度，滿足真實性、一致性等基本要求外，更需契合大數(shù)據(jù)與AI時代對高價值密度的需求。

“數(shù)據(jù)要和智能進行結(jié)合，數(shù)據(jù)并不僅僅是越多越好，而是質(zhì)量越高越好，我們要提供高質(zhì)量的數(shù)據(jù)給它，讓AI變得越來越聰明。”常潘指出，面對海量數(shù)據(jù)，治理方式須變革：數(shù)據(jù)清洗后需轉(zhuǎn)化為AI可理解的格式，或以模型上下文模式重構(gòu)；數(shù)據(jù)權(quán)限應(yīng)從以人為中心轉(zhuǎn)向以機器為中心；存儲與計算速度需匹配AI處理需求；同時，AI應(yīng)具備主動感知與學(xué)習(xí)能力，通過反饋機制持續(xù)優(yōu)化，實現(xiàn)數(shù)據(jù)與智能的深度融合。

沈旸分析，大語言模型本質(zhì)是概率模型，難以直接處理海量結(jié)構(gòu)化數(shù)據(jù)（如數(shù)據(jù)庫表單），其更擅長處理非結(jié)構(gòu)化數(shù)據(jù)。“AI大模型，尤其是語言大模型，非常不適合處理數(shù)據(jù)，因為根本處理不了。語言模型是個概率模型，處理比如超過1000行數(shù)據(jù)一定會出錯”。他認(rèn)為，未來數(shù)據(jù)底座可能發(fā)生根本變化：在端到端的AI演進中，傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)或許只是過渡形態(tài)，最終還需要讓它實現(xiàn)端對端。此外，AI決策需閉環(huán)驗證，而當(dāng)前缺乏數(shù)字孿生等環(huán)境校驗其正確性，這是未來產(chǎn)業(yè)必須解決的關(guān)鍵問題，否則AI仍限于對話層面，難以工程化落地。“這是未來產(chǎn)業(yè)要做的一件非常重要的事情，否則AI還是跟大家對話，那么它是一個玩具，而不是一個工程。從工程的角度看，我們一定要保證它做的每一件事情都有人能確認(rèn)。”他強調(diào)道。

從大模型、智能體到現(xiàn)在，自身智能時代越來越近。當(dāng)機器實現(xiàn)通用智能后，數(shù)據(jù)變成了影響世界的中心，數(shù)據(jù)本身也加入整個機器的思考中去。對此，趙康寧展望，隨著向通用人工智能邁進，數(shù)據(jù)將不僅是應(yīng)用對象，更成為影響機器思考與決策的核心。機器可能自主決定數(shù)據(jù)的使用、創(chuàng)造與評估，數(shù)據(jù)架構(gòu)將發(fā)生重大變革，與實體、模型、智能體間的連接維度大幅拓展，需要全新架構(gòu)推動數(shù)據(jù)治理進入新階段。

毋庸置疑，我們已步入一個大模型與智能體引領(lǐng)的新時代。數(shù)據(jù)不再僅僅是靜態(tài)資產(chǎn)，其價值正動態(tài)地融入業(yè)務(wù)流程，成為驅(qū)動智能決策的核心動力。與此同時，數(shù)據(jù)需求正經(jīng)歷深刻變革：從基礎(chǔ)的數(shù)據(jù)治理，邁向智能化、實時化、場景化的深度應(yīng)用。

這場對話，指向了一個由數(shù)據(jù)與智能共同定義的未來。這些突破將不僅是技術(shù)革新，更是理念的重構(gòu)。當(dāng)數(shù)據(jù)真正成為智能體的“感官”與“經(jīng)驗”，我們便踏入了AI與世界深度互認(rèn)知的新階段。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.