![]()
“邁向未來智能,我們需要怎樣的數(shù)智底座?
大模型與智能體的興起,對數(shù)據(jù)提出了根本性的新要求,也推動數(shù)據(jù)基礎(chǔ)設(shè)施向更高層次演進。
在此背景下,“第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢論壇”于1月14日在上海成功舉辦。與會政、產(chǎn)、學(xué)、研、用各方代表一致認(rèn)為,隨著大模型與智能體的發(fā)展,產(chǎn)業(yè)對數(shù)據(jù)的需求正發(fā)生質(zhì)的變化,各行業(yè)對高質(zhì)量數(shù)據(jù)集的渴求從未如此迫切,這也促使我們重新思考大數(shù)據(jù)未來的發(fā)展圖景。
傳統(tǒng)大數(shù)據(jù)已難以滿足現(xiàn)狀
數(shù)據(jù)需求的變革,始終在供需雙向奔赴中展開。以一家新能源車內(nèi)飾件供應(yīng)商為例,其原材料采購模式已徹底顛覆傳統(tǒng)燃油車時代——定制化、具象化、精準(zhǔn)化需求成為主流。在AI場景應(yīng)用下,約三分之一的采購崗位可能被替代。如果仍依循舊有經(jīng)驗篩選供應(yīng)商,效率將十分低下。
大模型訓(xùn)練所需的數(shù)據(jù)規(guī)模、復(fù)雜性和處理方式與傳統(tǒng)的數(shù)據(jù)處理方法有根本不同。從傳統(tǒng)數(shù)據(jù)到大模型基座,當(dāng)前數(shù)據(jù)基礎(chǔ)設(shè)施正面臨體系性變革。
“人工智能的應(yīng)用,約90%投入在后續(xù)軟件工程上。現(xiàn)有基礎(chǔ)架構(gòu)在算力、存儲及數(shù)據(jù)治理等方面已難以適應(yīng)需求,亟待大規(guī)模改造。尤其是隨著大模型的快速迭代,AI應(yīng)用不再僅是提升效率的工具,而是深度嵌入業(yè)務(wù)流程的關(guān)鍵組件。”上海市數(shù)商協(xié)會秘書長盧勇指出。他進一步表示,大模型在數(shù)據(jù)驅(qū)動下,能快速精準(zhǔn)定位新合作伙伴,這對產(chǎn)業(yè)基礎(chǔ)設(shè)施提出了新的挑戰(zhàn)與要求。
![]()
上海數(shù)商協(xié)會秘書長 盧勇
“近年來,公積金行業(yè)數(shù)據(jù)呈幾何級增長,對存儲傳輸、管理使用提出新要求。”鹽城市住房公積金管理中心技術(shù)信息處副處長葉光輝強調(diào),數(shù)據(jù)質(zhì)量面臨更高標(biāo)準(zhǔn)要求。過去僅需保證元數(shù)據(jù)的真實性、完整性、一致性等即可,如今還需關(guān)注其價值密度。“當(dāng)前基礎(chǔ)設(shè)施下,單條數(shù)據(jù)可能本身無誤,但因多樣性不足等原因,無法直接應(yīng)用于智能場景。同時,隨著個人信息保護法等法律法規(guī)實施,數(shù)據(jù)安全與隱私保護要求日益嚴(yán)格,如何在數(shù)據(jù)效用與隱私保護間取得平衡,也成為關(guān)鍵考量。”
![]()
鹽城市住房公積金管理中心技術(shù)信息處副處長 葉光輝
此外,數(shù)據(jù)跨行業(yè)、跨領(lǐng)域、跨部門的流動性不斷增強,建立協(xié)同治理的新機制,也是數(shù)據(jù)發(fā)展提出的新課題。
而在中國數(shù)聯(lián)科技創(chuàng)新部總經(jīng)理沈旸看來,企業(yè)下一代AI的核心在于私有數(shù)據(jù)。過去互聯(lián)網(wǎng)公司訓(xùn)練大模型多使用公開數(shù)據(jù),但其價值有限。“例如年終總結(jié)或年報,最終成果可能僅萬字,但其背后的參與人員、部門博弈、內(nèi)容排序等過程數(shù)據(jù)并未公開。私有數(shù)據(jù)則能沉淀企業(yè)內(nèi)部管理過程,而以往這些數(shù)據(jù)大多未數(shù)字化。例如會議紀(jì)要的自動生成——過去這些過程數(shù)據(jù)未被記錄。企業(yè)99.9%的數(shù)據(jù)在過程管理層面尚未真正數(shù)字化。隨著私有數(shù)據(jù)逐漸形成,企業(yè)運營才能有效指導(dǎo)AI,而非僅依賴公開知識。”
![]()
中國數(shù)聯(lián)科技創(chuàng)新部總經(jīng)理 沈旸
“企業(yè)需先完成歷史數(shù)據(jù)的數(shù)字化沉淀,再逐步讓AI嘗試替代部分工作,評估其成效,最終實現(xiàn)AI原生的運營模式。”他說道。
高質(zhì)量數(shù)據(jù)的戰(zhàn)略價值
日益凸顯
目前,業(yè)內(nèi)眾多專家已經(jīng)形成共識,認(rèn)為2026年將會是人工智能從“生成內(nèi)容(Generative)”向“解決復(fù)雜問題與執(zhí)行任務(wù)(Agentic & Action)”全面跨越的一年。當(dāng)大模型越來越深入產(chǎn)業(yè),數(shù)據(jù)的價值尤其是高質(zhì)量數(shù)據(jù)的價值越發(fā)凸顯。高質(zhì)量數(shù)據(jù)的“高”究竟體現(xiàn)在哪?應(yīng)該建立怎樣的評估標(biāo)準(zhǔn)和建設(shè)標(biāo)準(zhǔn)來保障高質(zhì)量數(shù)據(jù)的供給?
對此,盧勇表示,所謂高質(zhì)量數(shù)據(jù)集,就是人工智能模型能夠理解的數(shù)據(jù)。高質(zhì)量數(shù)據(jù)集主要服務(wù)于人工智能模型的訓(xùn)練與推理。原始數(shù)據(jù)匯集后需經(jīng)治理才能轉(zhuǎn)化為AI可理解的高質(zhì)量數(shù)據(jù)。
“如果還按照過去的模式把數(shù)據(jù)堆到一起、集中到一起,可能并不能直接使用,還需要有一個治理的過程。而這個過程中就會產(chǎn)生一些高質(zhì)量數(shù)據(jù)。”盧勇說道。
現(xiàn)實中,越來越多的場景正在呈現(xiàn):金融行業(yè)從信用評估到動態(tài)風(fēng)控與智能交互;醫(yī)療行業(yè)從院內(nèi)數(shù)據(jù)到跨域融合的輔助診療;零售行業(yè)從用戶畫像到個性化實時體驗……上述場景應(yīng)用的實現(xiàn),都需要借助數(shù)據(jù)的實時性、一致性、可解釋性。以金融行業(yè)為例,要求風(fēng)險數(shù)據(jù)在毫秒級內(nèi)完成采集、清洗、特征計算,并確保在流處理和批量處理中結(jié)果完全一致,且每個風(fēng)險標(biāo)簽都能追溯至原始數(shù)據(jù)。某頭部商業(yè)銀行的實時反欺詐決策引擎,整合了用戶的實時交易、設(shè)備、位置、行為序列等上百個數(shù)據(jù)源。通過流計算平臺,能在50毫秒內(nèi)完成數(shù)據(jù)清洗、特征提取和模型推理,對可疑交易實時攔截。其成功關(guān)鍵在于,建立了貫穿數(shù)據(jù)接入、處理、服務(wù)全鏈路的數(shù)據(jù)溯源與質(zhì)量監(jiān)控,確保每個攔截決策都有“數(shù)據(jù)依據(jù)”,符合監(jiān)管審查要求。
華院計算高級技術(shù)專家趙康寧指出,大模型時代對數(shù)據(jù)質(zhì)量的評估與傳統(tǒng)方式迥異。傳統(tǒng)維度側(cè)重完整度、整齊度等指標(biāo);而大模型乃至智能體時代,要求更高維度的評估:數(shù)據(jù)是否契合模型及系統(tǒng)演進方向(尤其在多模態(tài)、具身智能背景下);數(shù)據(jù)的安全性、可靠性、可溯源性如何;以及是否需引入動態(tài)評估機制,考量數(shù)據(jù)對模型訓(xùn)練、評估乃至人類反饋的影響。
![]()
華院計算高級技術(shù)專家 趙康寧
“在大數(shù)據(jù)時代,對于高質(zhì)量數(shù)據(jù)要求的維度也會越來越多。”他強調(diào)。
打通“用戶反饋-場景數(shù)據(jù)-模型迭代”閉環(huán)
當(dāng)前產(chǎn)業(yè)關(guān)注正從模型參數(shù)轉(zhuǎn)向?qū)嶋H生產(chǎn)力,關(guān)注的重點已不僅是AI的參數(shù)規(guī)模或算力強弱,而更聚焦于AI實際能承擔(dān)的工作量與效能。在推動AI落地業(yè)務(wù)時,應(yīng)積極構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施,打通“用戶反饋-場景數(shù)據(jù)-模型迭代”閉環(huán),真正讓數(shù)據(jù)流動起來、讓模型持續(xù)進化,最終驅(qū)動業(yè)務(wù)實現(xiàn)可衡量的增長。
盧勇認(rèn)為,未來AI時代應(yīng)用變革的根本在于以模型替代人力。人力在處理數(shù)據(jù)量、響應(yīng)時間及維度上遠遜于模型。若要在業(yè)務(wù)全閉環(huán)中應(yīng)用模型,數(shù)據(jù)、治理方式及基礎(chǔ)設(shè)施均需相應(yīng)調(diào)整,因其服務(wù)對象已從傳統(tǒng)信息系統(tǒng)轉(zhuǎn)向機器與模型。這是必然的發(fā)展趨勢。
現(xiàn)場觀眾針對AI在實際產(chǎn)業(yè)應(yīng)用進行了提問,盧勇以今年上海在“數(shù)據(jù)要素×”大賽中的獲獎案例為例進行了解答。他表示,在制造業(yè)中,利用工業(yè)互聯(lián)網(wǎng)平臺可借助數(shù)據(jù)賦能,更好對接前端需求與后端供給,促進產(chǎn)業(yè)高效發(fā)展。此外,在陶瓷行業(yè),原本分散的小作坊難以獲取市場需求,通過工業(yè)互聯(lián)網(wǎng)平臺的數(shù)據(jù)智能匹配,能實現(xiàn)供需精準(zhǔn)對接,讓經(jīng)濟效益最大化。
葉光輝指出,應(yīng)遵循“小步快跑”原則,在投入與訓(xùn)練成本間取得平衡。具體可分三步:首先基于真實業(yè)務(wù)場景,讓基座模型識別目標(biāo),據(jù)此梳理整合數(shù)據(jù);其次建立專用模型,利用高質(zhì)量業(yè)務(wù)場景切片進行訓(xùn)練;最后通過人工反饋數(shù)據(jù)回流,實現(xiàn)模型快速迭代與數(shù)據(jù)標(biāo)簽重定義,形成數(shù)據(jù)、場景與反饋的閉環(huán)。
“我們大家都經(jīng)歷過或正在經(jīng)歷學(xué)車。試想一下,如果在大馬路上就你一個人,估計怎么訓(xùn)練效果提升都有限。但如果你到上海的高架橋上去開幾天,質(zhì)量就會更高。所以要多給大模型一些高密度的高質(zhì)量數(shù)據(jù)。”上海紐約大學(xué)信息技術(shù)部高級主任常潘建議,需從三方面改進:一是優(yōu)化模型自身,通過知識注入與微調(diào)實現(xiàn)實時反饋與行為調(diào)整;二是利用合成數(shù)據(jù)提供高密度訓(xùn)練素材,助力AI能力提升;三是實現(xiàn)模型增量學(xué)習(xí)與決策可追溯,確保AI能從新事件中持續(xù)學(xué)習(xí),且其決策依據(jù)可查。
![]()
上海紐約大學(xué)信息技術(shù)部高級主任 常潘
支撐未來智能
數(shù)據(jù)基礎(chǔ)設(shè)施還需要哪些突破?
在邁向未來智能時代的進程中,面對可能出現(xiàn)的自主感知、認(rèn)知與決策需求,當(dāng)前的數(shù)據(jù)基礎(chǔ)設(shè)施在架構(gòu)設(shè)計、組織模式、數(shù)據(jù)流轉(zhuǎn)與應(yīng)用范式等方面還存在根本性局限,應(yīng)該推動關(guān)鍵突破以支撐下一代智能形態(tài)的演進。
“未來有非常多的機會需要我們?nèi)プ龈嗟膭?chuàng)新,包括從現(xiàn)有的真實世界的數(shù)據(jù)到深層次數(shù)據(jù)。在這當(dāng)中有非常多的挑戰(zhàn),所以未來可以做的事情非常多。”盧勇表示,人工智能正從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。數(shù)據(jù)領(lǐng)域未來充滿機遇與創(chuàng)新挑戰(zhàn),包括從現(xiàn)實數(shù)據(jù)到深層數(shù)據(jù)的轉(zhuǎn)化等。
葉光輝強調(diào),過去是管理數(shù)據(jù),如今需運營數(shù)據(jù);過去數(shù)據(jù)如檔案鎖入柜中,如今數(shù)據(jù)是資產(chǎn),需流動起來,通過持續(xù)治理提升價值密度,滿足真實性、一致性等基本要求外,更需契合大數(shù)據(jù)與AI時代對高價值密度的需求。
“數(shù)據(jù)要和智能進行結(jié)合,數(shù)據(jù)并不僅僅是越多越好,而是質(zhì)量越高越好,我們要提供高質(zhì)量的數(shù)據(jù)給它,讓AI變得越來越聰明。”常潘指出,面對海量數(shù)據(jù),治理方式須變革:數(shù)據(jù)清洗后需轉(zhuǎn)化為AI可理解的格式,或以模型上下文模式重構(gòu);數(shù)據(jù)權(quán)限應(yīng)從以人為中心轉(zhuǎn)向以機器為中心;存儲與計算速度需匹配AI處理需求;同時,AI應(yīng)具備主動感知與學(xué)習(xí)能力,通過反饋機制持續(xù)優(yōu)化,實現(xiàn)數(shù)據(jù)與智能的深度融合。
沈旸分析,大語言模型本質(zhì)是概率模型,難以直接處理海量結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫表單),其更擅長處理非結(jié)構(gòu)化數(shù)據(jù)。“AI大模型,尤其是語言大模型,非常不適合處理數(shù)據(jù),因為根本處理不了。語言模型是個概率模型,處理比如超過1000行數(shù)據(jù)一定會出錯”。他認(rèn)為,未來數(shù)據(jù)底座可能發(fā)生根本變化:在端到端的AI演進中,傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)或許只是過渡形態(tài),最終還需要讓它實現(xiàn)端對端。此外,AI決策需閉環(huán)驗證,而當(dāng)前缺乏數(shù)字孿生等環(huán)境校驗其正確性,這是未來產(chǎn)業(yè)必須解決的關(guān)鍵問題,否則AI仍限于對話層面,難以工程化落地。“這是未來產(chǎn)業(yè)要做的一件非常重要的事情,否則AI還是跟大家對話,那么它是一個玩具,而不是一個工程。從工程的角度看,我們一定要保證它做的每一件事情都有人能確認(rèn)。”他強調(diào)道。
從大模型、智能體到現(xiàn)在,自身智能時代越來越近。當(dāng)機器實現(xiàn)通用智能后,數(shù)據(jù)變成了影響世界的中心,數(shù)據(jù)本身也加入整個機器的思考中去。對此,趙康寧展望,隨著向通用人工智能邁進,數(shù)據(jù)將不僅是應(yīng)用對象,更成為影響機器思考與決策的核心。機器可能自主決定數(shù)據(jù)的使用、創(chuàng)造與評估,數(shù)據(jù)架構(gòu)將發(fā)生重大變革,與實體、模型、智能體間的連接維度大幅拓展,需要全新架構(gòu)推動數(shù)據(jù)治理進入新階段。
毋庸置疑,我們已步入一個大模型與智能體引領(lǐng)的新時代。數(shù)據(jù)不再僅僅是靜態(tài)資產(chǎn),其價值正動態(tài)地融入業(yè)務(wù)流程,成為驅(qū)動智能決策的核心動力。與此同時,數(shù)據(jù)需求正經(jīng)歷深刻變革:從基礎(chǔ)的數(shù)據(jù)治理,邁向智能化、實時化、場景化的深度應(yīng)用。
這場對話,指向了一個由數(shù)據(jù)與智能共同定義的未來。這些突破將不僅是技術(shù)革新,更是理念的重構(gòu)。當(dāng)數(shù)據(jù)真正成為智能體的“感官”與“經(jīng)驗”,我們便踏入了AI與世界深度互認(rèn)知的新階段。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.