337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

合成數(shù)據(jù)≠生成模型:一文讀懂合成數(shù)據(jù)的全新范式

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】最新研究提出合成數(shù)據(jù)的全新分類框架,突破「生成模型=合成數(shù)據(jù)」的傳統(tǒng)認(rèn)知,涵蓋反演、仿真與數(shù)據(jù)增強(qiáng)等方法,并按應(yīng)用層次劃分為數(shù)據(jù)中心AI、模型中心AI、可信AI和具身AI。

隨著基礎(chǔ)模型規(guī)模不斷擴(kuò)大,真實(shí)數(shù)據(jù)在成本、隱私、質(zhì)量和可控性上的限制,正逐漸成為 AI 繼續(xù)發(fā)展的關(guān)鍵瓶頸。

尤其是在醫(yī)療等高價(jià)值場(chǎng)景中,真實(shí)數(shù)據(jù)本身難以獲取,「依賴數(shù)據(jù)自然產(chǎn)生」的范式正在失效。

在這樣的背景下,合成數(shù)據(jù)正在從「真實(shí)數(shù)據(jù)的補(bǔ)充」,轉(zhuǎn)變?yōu)椤爸鲃?dòng)構(gòu)造高質(zhì)量訓(xùn)練與評(píng)估數(shù)據(jù)的核心機(jī)制”。

基于對(duì)300+篇代表性文獻(xiàn)的系統(tǒng)梳理,南洋理工大學(xué)、清華大學(xué)、四川大學(xué)、中山大學(xué)的研究人員提出了一個(gè)統(tǒng)一的How / Why / Where框架,重新定義了合成數(shù)據(jù)的方法邊界,并從應(yīng)用層面給出了更完整的發(fā)展路徑。


論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

論文資源庫(kù):https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先,合成數(shù)據(jù)方法該如何分類?

很多工作默認(rèn)認(rèn)為「合成數(shù)據(jù) = 生成模型」,該綜述重新定義了「數(shù)據(jù)合成」的方法邊界,跳出「合成數(shù)據(jù) = 生成模型」的單一視角。也就是說,合成數(shù)據(jù)并不等同于“用生成模型造數(shù)據(jù)”,反演、仿真、增強(qiáng)等方式也都應(yīng)被納入合成數(shù)據(jù)的范疇。

下表給出了整體分類框架:


第二,成數(shù)據(jù)應(yīng)用在哪些核心場(chǎng)景?

不同于以往按具體任務(wù)或領(lǐng)域劃分的方式,本文從更高層次出發(fā),將合成數(shù)據(jù)的應(yīng)用組織為一條逐步演進(jìn)的能力路徑。

在這一框架下,最基礎(chǔ)的是數(shù)據(jù)中心人工智能(Data-centric AI),其核心目標(biāo)是解決真實(shí)數(shù)據(jù)稀缺、獲取成本高以及隱私受限等問題,通過合成數(shù)據(jù)擴(kuò)展訓(xùn)練集并提升數(shù)據(jù)質(zhì)量,為模型訓(xùn)練提供穩(wěn)定的數(shù)據(jù)基礎(chǔ)。

在此之上,隨著數(shù)據(jù)可獲得性的提升,研究重點(diǎn)逐漸轉(zhuǎn)向模型中心人工智能(Model-centric AI),此時(shí)合成數(shù)據(jù)不僅用于補(bǔ)充數(shù)據(jù),還被用于能力注入,例如提升模型的推理、編碼與對(duì)齊能力,并構(gòu)建可控的評(píng)測(cè)基準(zhǔn)。

進(jìn)一步地,隨著模型能力的增強(qiáng),對(duì)系統(tǒng)可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數(shù)據(jù)被廣泛用于隱私保護(hù)、安全防護(hù)、公平性提升以及模型可解釋性分析。

最后,合成數(shù)據(jù)的應(yīng)用從數(shù)字空間走向現(xiàn)實(shí)世界,對(duì)應(yīng)的是具身智能(Embodied AI),其目標(biāo)是支持感知、交互與泛化能力,使智能體能夠在復(fù)雜物理環(huán)境中進(jìn)行決策與行動(dòng)。下表給出了整體結(jié)構(gòu)(具體細(xì)節(jié)可參考原論文):


進(jìn)一步地,文章將上述四類應(yīng)用場(chǎng)景細(xì)化到了 30+ 個(gè)具體機(jī)器學(xué)習(xí)任務(wù)層級(jí),從而構(gòu)建起從宏觀分類到具體問題的系統(tǒng)化映射。

如下圖所示,每一類場(chǎng)景都被進(jìn)一步拆解為多個(gè)典型問題:例如,在數(shù)據(jù)中心人工智能中,涵蓋了零/少樣本學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、無(wú)數(shù)據(jù)學(xué)習(xí)、數(shù)據(jù)蒸餾等任務(wù);在模型中心人工智能中,則進(jìn)一步細(xì)化為模型通用能力提升,以及推理、編碼、指令對(duì)齊等特定能力的增強(qiáng),同時(shí)也包括基于合成數(shù)據(jù)的模型評(píng)測(cè)任務(wù);

在可信人工智能中,主要聚焦于隱私保護(hù)、模型攻擊、安全防護(hù)、長(zhǎng)尾學(xué)習(xí)與可解釋性等任務(wù);而在具身智能中,則進(jìn)一步延伸到感知、交互以及跨場(chǎng)景泛化等面向真實(shí)環(huán)境的任務(wù)。


最后,合成數(shù)據(jù)面臨哪些挑戰(zhàn)與機(jī)遇?

盡管在方法體系與應(yīng)用落地方面已經(jīng)取得了顯著進(jìn)展,但合成數(shù)據(jù)仍處于快速發(fā)展階段,仍然存在一系列關(guān)鍵挑戰(zhàn)有待解決。

  • 隨著模型越來越多地依賴自生成數(shù)據(jù)進(jìn)行訓(xùn)練,一個(gè)核心風(fēng)險(xiǎn)逐漸顯現(xiàn):模型坍塌(model collapse)。當(dāng)模型反復(fù)在自身生成的數(shù)據(jù)上迭代訓(xùn)練時(shí),可能導(dǎo)致分布逐漸收縮,數(shù)據(jù)多樣性下降,從而影響模型性能與泛化能力。

  • 在實(shí)際應(yīng)用中,如何在數(shù)據(jù)效用與隱私保護(hù)之間取得平衡,仍然是一個(gè)長(zhǎng)期存在的問題,即所謂的數(shù)據(jù)效用與隱私保護(hù)的權(quán)衡(utility–privacy tradeoff)。過強(qiáng)的隱私約束可能降低數(shù)據(jù)可用性,而過高的數(shù)據(jù)保真度又可能帶來潛在的隱私泄露風(fēng)險(xiǎn)。

  • 當(dāng)合成數(shù)據(jù)被用于模型評(píng)測(cè)時(shí),還可能引入新的偏差來源。例如,生成-評(píng)測(cè)偏差(generation–evaluation bias)指的是模型在由相似生成機(jī)制產(chǎn)生的測(cè)試數(shù)據(jù)上表現(xiàn)更優(yōu),從而導(dǎo)致評(píng)估結(jié)果失真,影響對(duì)模型真實(shí)能力的判斷。

  • 在方法層面,多個(gè)前沿方向也仍有待探索。例如,主動(dòng)式數(shù)據(jù)合成(active data synthesis)強(qiáng)調(diào)根據(jù)模型需求動(dòng)態(tài)生成最有價(jià)值的數(shù)據(jù),以提升數(shù)據(jù)利用效率;而多模態(tài)數(shù)據(jù)合成(multi-modal data synthesis)則關(guān)注如何生成語(yǔ)義一致、跨模態(tài)對(duì)齊的高質(zhì)量數(shù)據(jù),這對(duì)于多模態(tài)模型的發(fā)展尤為關(guān)鍵。

  • 最后,一個(gè)基礎(chǔ)但尚未完全解決的問題是:如何系統(tǒng)性評(píng)估合成數(shù)據(jù)的質(zhì)量。這不僅包括數(shù)據(jù)的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個(gè)維度,目前仍缺乏統(tǒng)一且標(biāo)準(zhǔn)化的評(píng)測(cè)體系。

下圖給出了該綜述的總體整理框架,具體細(xì)節(jié)可參考原文。


這篇綜述最值得關(guān)注的地方,不只是整理了現(xiàn)有方法,更重要的是它改變了我們理解合成數(shù)據(jù)的方式: 合成數(shù)據(jù)不再只是生成模型的一個(gè)應(yīng)用方向,而正在成為連接數(shù)據(jù)、模型、評(píng)測(cè)與真實(shí)世界交互的新型基礎(chǔ)設(shè)施。

如果說過去AI的競(jìng)爭(zhēng)核心是「誰(shuí)擁有更多真實(shí)數(shù)據(jù)」,那么未來很可能會(huì)變成「誰(shuí)能更高效、更安全、更可控地生成高價(jià)值數(shù)據(jù)」。

參考資料:

https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世錦賽解簽:趙心童形勢(shì)明朗丁俊暉碰上克星,小特威爾遜都遇麻煩

世錦賽解簽:趙心童形勢(shì)明朗丁俊暉碰上克星,小特威爾遜都遇麻煩

楊華評(píng)論
2026-04-16 17:17:56
算力狂飆逼瘋風(fēng)冷!液冷服務(wù)器:滲透率破37%,玩家搶灘千億賽道

算力狂飆逼瘋風(fēng)冷!液冷服務(wù)器:滲透率破37%,玩家搶灘千億賽道

藍(lán)鯨新聞
2026-04-15 15:14:25
快船正式出局后!泰倫盧撒氣甩鍋,哈登躲過一劫,保羅傷口撒鹽

快船正式出局后!泰倫盧撒氣甩鍋,哈登躲過一劫,保羅傷口撒鹽

舟望停云
2026-04-16 14:09:06
馬筱梅野心藏不住!明知張?zhí)m大別墅沒她房間,還要帶親媽保姆入住

馬筱梅野心藏不?。∶髦獜?zhí)m大別墅沒她房間,還要帶親媽保姆入住

科學(xué)發(fā)掘
2026-04-16 16:53:37
越鬧越大!趙子琪火力全開,連發(fā)6文炮轟芒果,她為啥這么狂?

越鬧越大!趙子琪火力全開,連發(fā)6文炮轟芒果,她為啥這么狂?

小俎娛樂
2026-04-16 09:58:29
售21.98萬(wàn)元起!零跑D19擊穿旗艦SUV價(jià)格體系

售21.98萬(wàn)元起!零跑D19擊穿旗艦SUV價(jià)格體系

EV世紀(jì)
2026-04-16 22:24:57
他發(fā)明一道菜在美國(guó)一年賣52163噸,年入203億,卻稱絕不進(jìn)入中國(guó)

他發(fā)明一道菜在美國(guó)一年賣52163噸,年入203億,卻稱絕不進(jìn)入中國(guó)

杰絲聊古今
2026-04-09 23:44:51
外灘、武康大樓攬拍大軍退潮!上海野生攝影師轉(zhuǎn)戰(zhàn)新晉地標(biāo),價(jià)格已經(jīng)低到五元一張

外灘、武康大樓攬拍大軍退潮!上海野生攝影師轉(zhuǎn)戰(zhàn)新晉地標(biāo),價(jià)格已經(jīng)低到五元一張

新聞晨報(bào)隨申Hi
2026-04-15 17:08:11
美國(guó)空軍公布B-21隱身轟炸機(jī)首次空中加油測(cè)試,拓展全球打擊范圍

美國(guó)空軍公布B-21隱身轟炸機(jī)首次空中加油測(cè)試,拓展全球打擊范圍

零度Military
2026-04-15 18:02:32
中超五輪下來!三支不敗球隊(duì) 銅梁龍要感謝申花送隊(duì)長(zhǎng)

中超五輪下來!三支不敗球隊(duì) 銅梁龍要感謝申花送隊(duì)長(zhǎng)

80后體育大蜀黍
2026-04-16 18:48:18
美西方徹底坐不住了!央視透露重大消息,福建艦現(xiàn)在隨時(shí)可戰(zhàn)?

美西方徹底坐不住了!央視透露重大消息,福建艦現(xiàn)在隨時(shí)可戰(zhàn)?

愛吃醋的貓咪
2026-04-16 20:47:53
“張雪機(jī)車給你打雞血了?”交警勸阻想違規(guī)上高速的摩友被網(wǎng)暴,視頻系片段截取,此前進(jìn)行了長(zhǎng)時(shí)間勸解

“張雪機(jī)車給你打雞血了?”交警勸阻想違規(guī)上高速的摩友被網(wǎng)暴,視頻系片段截取,此前進(jìn)行了長(zhǎng)時(shí)間勸解

極目新聞
2026-04-15 21:17:08
最高32℃!重慶的夏天要提前來了?

最高32℃!重慶的夏天要提前來了?

萬(wàn)州生活
2026-04-16 22:00:17
上海公務(wù)員錄了1630人,67%是研究生,本科生快來看看你還有沒有機(jī)會(huì)

上海公務(wù)員錄了1630人,67%是研究生,本科生快來看看你還有沒有機(jī)會(huì)

老滿說高考
2026-04-16 20:05:05
安心!海港外援加布里埃爾手術(shù)成功,妻子社媒發(fā)文報(bào)平安

安心!海港外援加布里埃爾手術(shù)成功,妻子社媒發(fā)文報(bào)平安

懂球帝
2026-04-16 19:39:06
成都7-8級(jí)陣風(fēng)來襲!即將“吹”來30℃的初夏

成都7-8級(jí)陣風(fēng)來襲!即將“吹”來30℃的初夏

封面新聞
2026-04-16 21:12:25
研究表明:我國(guó)男性的早泄率只有2.3%,勃起功能障礙卻高達(dá)35%!

研究表明:我國(guó)男性的早泄率只有2.3%,勃起功能障礙卻高達(dá)35%!

黯泉
2026-04-14 18:19:30
2026年Q1全球手機(jī)市場(chǎng):蘋果21% 三星20% 小米13% OPPO11% vivo8%

2026年Q1全球手機(jī)市場(chǎng):蘋果21% 三星20% 小米13% OPPO11% vivo8%

黃海峰
2026-04-15 13:53:56
直接起飛,廣東隊(duì)簽約超級(jí)大外援,頂級(jí)鋒線也要回歸,冠軍要穩(wěn)了

直接起飛,廣東隊(duì)簽約超級(jí)大外援,頂級(jí)鋒線也要回歸,冠軍要穩(wěn)了

宗介說體育
2026-04-16 09:50:45
鞠婧祎方回應(yīng)王子杰去世:不與爭(zhēng)論,生命為大!王子杰曾為其創(chuàng)造“四千年美女”標(biāo)簽

鞠婧祎方回應(yīng)王子杰去世:不與爭(zhēng)論,生命為大!王子杰曾為其創(chuàng)造“四千年美女”標(biāo)簽

極目新聞
2026-04-16 13:48:39
2026-04-17 00:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14987文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

健康
藝術(shù)
數(shù)碼
本地
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

張大千『 花菓薈萃冊(cè)』

數(shù)碼要聞

大眼橙推出R3 Ultra投影儀,2299元起

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版