伊利諾伊大學(xué)首次讓AI學(xué)會把3D物體像積木一樣拆分重組

2026-03-30 17:31:02　來源: 科技行者

天津舉報

分享至

這項由伊利諾伊大學(xué)厄巴納-香檳分校領(lǐng)導(dǎo)的突破性研究發(fā)表于2026年，研究團隊開發(fā)了一種名為DreamPartGen的全新AI系統(tǒng)，能夠像經(jīng)驗豐富的工匠一樣，理解文字描述并創(chuàng)造出由多個獨立部件組成的3D物體。有興趣深入了解的讀者可以通過論文編號arXiv:2603.19216v1查詢完整論文。

當(dāng)你說"給我一架有著流線型白色機身、空氣動力學(xué)外形輪廓和每個機翼下掛載多枚導(dǎo)彈的時尚戰(zhàn)斗機"時，普通的AI可能會給你一個整塊的3D模型，就像用一整塊石頭雕刻出的雕像。但DreamPartGen的神奇之處在于，它會像一位精明的機械師一樣思考：機身是一個部件，機翼是另外的部件，導(dǎo)彈又是獨立的部件，而且它還知道這些部件之間應(yīng)該如何連接——機翼應(yīng)該對稱地附著在機身兩側(cè)，導(dǎo)彈應(yīng)該懸掛在機翼下方。

這種能力聽起來可能很平常，但實際上這代表了AI技術(shù)的一個重大飛躍。就像教會一個從未見過鐘表的人不僅要畫出鐘表的樣子，還要理解齒輪、指針、表盤這些部件各自的作用以及它們之間的關(guān)系一樣困難。以往的AI系統(tǒng)就像只會臨摹整幅畫的藝術(shù)學(xué)徒，而DreamPartGen更像是理解了每個畫面元素作用的大師級畫家。

研究團隊面臨的核心挑戰(zhàn)在于，如何讓AI同時掌握三個看似矛盾的能力：精確地生成每個獨立部件的幾何形狀和外觀，理解部件之間復(fù)雜的空間和功能關(guān)系，以及將這些理解轉(zhuǎn)化為自然語言能夠描述的概念。這就像要求一個人同時成為精密的雕刻師、空間關(guān)系專家和語言學(xué)家。

為了解決這個挑戰(zhàn)，研究團隊創(chuàng)造了一種被稱為"協(xié)同潛在去噪"的全新方法。用烹飪來比喻的話，傳統(tǒng)的AI方法就像只會做一鍋燉菜——所有食材混在一起，雖然能填飽肚子但分不清哪是蘿卜哪是土豆。而DreamPartGen更像是會做精致分餐的大廚，每道菜都獨立準(zhǔn)備，但整桌菜的搭配卻渾然一體，既保持了每道菜的獨特風(fēng)味，又確保了整桌菜的和諧統(tǒng)一。

一、雙重潛在編碼：讓AI擁有"拆解"和"組裝"的雙重視角

DreamPartGen的核心創(chuàng)新在于一個被稱為"雙重部件潛在編碼"（DPLs）的巧妙設(shè)計。可以把這想象成給AI裝上了一副特殊的眼鏡，這副眼鏡有兩個鏡片：一個鏡片專門看3D形狀和結(jié)構(gòu)，另一個鏡片專門看顏色、紋理和外觀。

當(dāng)AI看到一架飛機時，3D鏡片會告訴它："這里有一個流線型的機身，長度大約是這樣，表面有這樣的曲率變化。"而2D鏡片則會補充說："這個機身是白色的，有金屬光澤，表面還有一些細微的鉚釘紋理。"更重要的是，系統(tǒng)還為每個部件分配了一個獨特的"身份標(biāo)識"，就像給每個部件貼上了永不會丟失的標(biāo)簽，確保在整個生成過程中，機翼始終是機翼，永遠不會被誤認為是機身或者導(dǎo)彈。

這種雙重視角的設(shè)計解決了一個長期困擾AI研究者的難題：如何在保持整體協(xié)調(diào)的同時確保部件的獨立性。就像樂隊指揮需要既聽到每個樂器的獨奏，又要確保整個樂隊演奏出和諧的樂曲一樣。傳統(tǒng)的方法往往會在這兩個目標(biāo)之間顧此失彼，要么部件模糊不清，要么整體不協(xié)調(diào)。

雙重編碼的另一個巧妙之處在于它的"排列無關(guān)性"。這意味著無論你如何排列輸入的部件描述，AI都能正確理解它們的關(guān)系。就像一位經(jīng)驗豐富的拼圖高手，不管你如何打亂拼圖塊的順序遞給他，他都能準(zhǔn)確地找到每塊拼圖的正確位置。這種能力讓系統(tǒng)在處理復(fù)雜物體時表現(xiàn)得異常穩(wěn)定和可靠。

二、關(guān)系語義潛在編碼：教會AI理解"連接"的藝術(shù)

如果說雙重部件編碼讓AI學(xué)會了"看"，那么關(guān)系語義潛在編碼（RSLs）就是教會了AI"思考"。這個系統(tǒng)包含兩個層次的理解能力，就像一個既能看到森林又能看清每棵樹的智慧觀察者。

在全局層面，AI學(xué)會了理解部件之間的根本關(guān)系。當(dāng)你說"導(dǎo)彈掛載在機翼下方"時，系統(tǒng)會自動提取出一個關(guān)系三元組：導(dǎo)彈-機翼-懸掛關(guān)系。這不僅僅是簡單的位置描述，而是包含了功能性理解——導(dǎo)彈需要能夠從機翼上發(fā)射，機翼需要能夠承受導(dǎo)彈的重量，它們之間的連接必須既牢固又可分離。

研究團隊建立了一個包含300萬個這樣關(guān)系三元組的龐大數(shù)據(jù)庫，涵蓋了175個不同類別的物體。這個數(shù)據(jù)庫就像一本詳盡的"物體關(guān)系百科全書"，記錄了現(xiàn)實世界中各種物體部件之間可能存在的所有合理關(guān)系。系統(tǒng)通過學(xué)習(xí)這些關(guān)系模式，能夠在生成新物體時自動應(yīng)用正確的連接規(guī)則。

在局部層面，AI還掌握了精細的屬性控制能力。當(dāng)你描述"金屬光澤的葉片"或"木質(zhì)紋理的手柄"時，系統(tǒng)會生成相應(yīng)的局部語義標(biāo)記，這些標(biāo)記在整個生成過程中持續(xù)發(fā)揮作用，確保最終的部件具有期望的材質(zhì)和外觀特征。這種持續(xù)性指導(dǎo)就像有一位經(jīng)驗豐富的工藝師在旁邊不斷提醒："記住，這里應(yīng)該是金屬質(zhì)感，那里應(yīng)該是木頭紋理。"

更令人印象深刻的是，這些關(guān)系理解不是靜態(tài)的，而是在生成過程中動態(tài)演化的。系統(tǒng)會根據(jù)已經(jīng)生成的部件幾何形狀，反過來調(diào)整和優(yōu)化關(guān)系理解，形成一個"自我修正"的閉環(huán)。這就像一位經(jīng)驗豐富的建筑師，會根據(jù)實際施工情況不斷調(diào)整設(shè)計圖紙，確保最終建筑既符合原始設(shè)想又在結(jié)構(gòu)上完全合理。

三、協(xié)同去噪生成：三個層次的精密協(xié)調(diào)

DreamPartGen的生成過程可以比作一場精心編排的交響樂演出，包含三個相互協(xié)調(diào)的層次：部件內(nèi)部協(xié)調(diào)、部件間協(xié)調(diào)和全局關(guān)系協(xié)調(diào)。

在部件內(nèi)部協(xié)調(diào)層面，系統(tǒng)確保每個部件的3D幾何形狀與2D外觀完美匹配。就像制作一個逼真的道具，不僅外形要對，顏色、紋理、光影效果也必須完全一致。系統(tǒng)通過"注意力機制"讓3D形狀信息和2D外觀信息相互參考，確保生成的機翼不僅有正確的空氣動力學(xué)外形，還有期望的白色涂裝和金屬質(zhì)感。

部件間協(xié)調(diào)則處理不同部件之間的相互影響。當(dāng)系統(tǒng)生成機翼時，它會考慮已經(jīng)生成的機身尺寸和形狀，確保機翼的大小比例、連接角度都與機身完美匹配。這個過程就像一群經(jīng)驗豐富的工匠在協(xié)作制作一件復(fù)雜工藝品，每個人都知道其他人在做什么，并相應(yīng)調(diào)整自己的工作。

最高層次的全局關(guān)系協(xié)調(diào)則像一位總指揮，確保整個生成過程始終遵循語言描述中的關(guān)系要求。當(dāng)系統(tǒng)生成導(dǎo)彈時，全局協(xié)調(diào)機制會確保導(dǎo)彈不僅出現(xiàn)在機翼下方，而且數(shù)量、大小、排列方式都符合"每個機翼下掛載多枚導(dǎo)彈"這一描述。

整個協(xié)調(diào)過程采用了一種"漸進式優(yōu)化"策略，從粗糙的草圖逐步精細到最終的高質(zhì)量模型。這就像藝術(shù)家作畫的過程：先畫出大致輪廓，然后逐步添加細節(jié)，最后進行精細的修飾。每一個優(yōu)化步驟都會同時考慮幾何形狀、外觀特征和關(guān)系約束，確保三者的完美平衡。

四、PartRel3D數(shù)據(jù)集：構(gòu)建AI的"物體關(guān)系百科全書"

為了訓(xùn)練DreamPartGen，研究團隊構(gòu)建了一個前所未有的大規(guī)模數(shù)據(jù)集PartRel3D，這個數(shù)據(jù)集就像一本詳盡的"物體關(guān)系百科全書"，記錄了現(xiàn)實世界中各種物體部件之間的復(fù)雜關(guān)系。

數(shù)據(jù)集包含了11,000個經(jīng)過精細標(biāo)注的3D物體，覆蓋175個不同類別，從日常用品如椅子、桌子，到復(fù)雜機械如飛機、汽車，再到人體模型和各種工具。每個物體都被細致地分解為獨立的部件，平均每個物體包含8.2個部件和27個部件間關(guān)系。

更重要的是，數(shù)據(jù)集記錄了300萬個關(guān)系三元組，其中120萬個描述功能關(guān)系（如支撐、連接、鉸接），180萬個描述空間關(guān)系（如上方、下方、接觸、對稱）。研究團隊開發(fā)了一套精密的"關(guān)系標(biāo)準(zhǔn)化"流程，將自然語言中的各種表達方式統(tǒng)一為標(biāo)準(zhǔn)化的關(guān)系謂詞。

例如，當(dāng)人們描述椅子時可能會說"座位在腿的上面"、"座位由腿支撐"、"座位架在四條腿上"等各種表達方式。系統(tǒng)會將這些不同的描述自動識別并轉(zhuǎn)換為標(biāo)準(zhǔn)的關(guān)系三元組：（座位，腿，支撐關(guān)系）和（座位，腿，上方關(guān)系）。這種標(biāo)準(zhǔn)化確保了AI能夠從各種不同的語言表達中學(xué)習(xí)到一致的關(guān)系模式。

數(shù)據(jù)集的構(gòu)建過程結(jié)合了自動化工具和人工驗證。研究團隊使用先進的視覺語言模型來生成初始的關(guān)系描述，然后通過幾何驗證和人工審核來確保準(zhǔn)確性。在20輪抽樣驗證中，空間關(guān)系的準(zhǔn)確率達到92%，功能關(guān)系的準(zhǔn)確率達到88%，這為AI學(xué)習(xí)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)。

五、實驗驗證：全方位的性能突破

研究團隊進行了全面的實驗驗證，結(jié)果顯示DreamPartGen在多個關(guān)鍵指標(biāo)上都取得了顯著突破。在幾何保真度方面，系統(tǒng)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上的表現(xiàn)都大幅超越了現(xiàn)有方法，其中倒角距離（CD）平均減少了53%，地球移動距離（EMD）減少了33%。用通俗的話說，就是生成的3D模型在形狀精確度上比以往的方法提高了一半以上。

在文本-形狀對齊方面，DreamPartGen的表現(xiàn)更加出色。系統(tǒng)在CLIP和ULIP等標(biāo)準(zhǔn)評估指標(biāo)上的得分比最佳競爭對手高出20%以上。這意味著AI生成的3D模型與文字描述的匹配程度有了質(zhì)的提升。當(dāng)你要求一個"有著圓形靠背和四條直腿的簡約椅子"時，系統(tǒng)生成的椅子確實會具備這些精確的特征。

特別值得注意的是，在部件級別的評估中，DreamPartGen表現(xiàn)出了卓越的"部件獨立性"。系統(tǒng)能夠生成清晰分離、互不干擾的部件，同時保持它們之間的正確連接關(guān)系。這種能力的量化指標(biāo)——交并比（IoU）比競爭對手平均低27.2%，這個數(shù)字看似反向，但實際上表示部件之間的重疊更少，分離更清晰。

研究團隊還測試了系統(tǒng)在處理罕見部件和未見關(guān)系時的泛化能力。當(dāng)遇到訓(xùn)練期間很少見到的部件類型或關(guān)系模式時，DreamPartGen的性能下降幅度明顯小于其他方法。例如，在處理包含罕見部件的物體時，渲染質(zhì)量（r-FID）僅下降了0.629個單位，而競爭對手的下降幅度在1.072到1.759之間。

六、豐富的應(yīng)用前景：從編輯到場景構(gòu)建

DreamPartGen的突破性能力為多個應(yīng)用領(lǐng)域打開了新的可能性。在3D編輯方面，系統(tǒng)支持精確的部件級修改，就像使用高級的數(shù)字化工具箱一樣。你可以指定要修改某個特定部件，比如"將這個人物的帽子換成紅色棒球帽"，系統(tǒng)會精確地定位到頭部的帽子部件，進行局部重新生成，同時保持身體其他部分不變。

在場景生成方面，DreamPartGen能夠創(chuàng)建包含多個物體的完整3D場景。當(dāng)你描述"一個餐廳場景，兩把椅子面對面放置在桌子兩側(cè)，桌上有兩個盤子和四個瓶子"時，系統(tǒng)會理解每個物體的空間關(guān)系，生成一個布局合理、比例協(xié)調(diào)的完整場景。這種能力對于虛擬現(xiàn)實、游戲開發(fā)和建筑可視化等領(lǐng)域具有重要價值。

鉸接式物體生成是另一個引人注目的應(yīng)用。系統(tǒng)能夠生成可以活動的3D模型，比如可以開合的筆記本電腦、可以轉(zhuǎn)動關(guān)節(jié)的人形模型、可以折疊的桌椅等。通過理解部件之間的功能關(guān)系，AI能夠自動推斷出哪些連接點應(yīng)該設(shè)計為可活動的鉸接點，哪些應(yīng)該是固定連接。

在推理時間方面，DreamPartGen展現(xiàn)出了良好的效率平衡。單個物體的生成時間約為45秒，部件級生成約需109秒，而完整場景生成約需52秒。雖然比簡單的整體生成方法稍慢，但考慮到其提供的精細控制能力和高質(zhì)量輸出，這種時間成本是合理的。

七、技術(shù)優(yōu)勢和局限性分析

DreamPartGen的最大優(yōu)勢在于其"語義感知"的生成能力。與傳統(tǒng)的基于幾何分割的方法不同，這個系統(tǒng)真正理解了物體的功能結(jié)構(gòu)和語言含義。這就像傳統(tǒng)方法只會機械地切割物體，而DreamPartGen則像一位經(jīng)驗豐富的工程師，知道每個部件的作用和重要性。

系統(tǒng)的另一個重要優(yōu)勢是其模塊化設(shè)計。由于每個部件都有獨立的表示和身份標(biāo)識，系統(tǒng)支持跨物體的部件復(fù)用和遷移。例如，從椅子學(xué)習(xí)到的"腿"的概念可以應(yīng)用到桌子的生成中，從汽車學(xué)習(xí)到的"輪子"概念可以用于生成自行車。這種遷移學(xué)習(xí)能力大大提高了系統(tǒng)的效率和一致性。

在關(guān)系理解方面，DreamPartGen展現(xiàn)出了超越簡單空間關(guān)系的深度理解能力。系統(tǒng)不僅知道"A在B的上方"這樣的位置關(guān)系，還理解"A支撐B"、"A連接到B"這樣的功能關(guān)系，甚至能夠處理"A與B對稱"這樣的抽象幾何關(guān)系。

然而，系統(tǒng)也有一些局限性。首先，對于非常規(guī)或抽象的物體描述，系統(tǒng)的表現(xiàn)可能不如處理常見物體時穩(wěn)定。其次，雖然系統(tǒng)在大多數(shù)情況下不需要外部關(guān)系解析器，但在處理特別復(fù)雜的關(guān)系描述時，仍然會從額外的語言理解支持中受益。最后，系統(tǒng)目前主要關(guān)注靜態(tài)物體的生成，對于動態(tài)過程或變形物體的處理還有改進空間。

八、對未來的影響和展望

DreamPartGen代表了AI理解和生成3D世界能力的一個重要里程碑。這項技術(shù)有望推動多個領(lǐng)域的發(fā)展，從工業(yè)設(shè)計到娛樂產(chǎn)業(yè)，從教育工具到科學(xué)可視化。

在工業(yè)設(shè)計領(lǐng)域，設(shè)計師可以通過自然語言快速原型化復(fù)雜的機械裝置，然后精細調(diào)整每個部件的設(shè)計。這種能力將大大加速產(chǎn)品開發(fā)周期，降低設(shè)計成本。在教育領(lǐng)域，教師可以利用這種技術(shù)創(chuàng)建交互式的3D教學(xué)材料，學(xué)生可以通過語言描述來探索和理解復(fù)雜物體的結(jié)構(gòu)。

研究團隊表示，他們希望這項工作能夠激發(fā)更多關(guān)于可控3D生成和結(jié)構(gòu)化部件表示的研究。未來的發(fā)展方向包括處理更復(fù)雜的動態(tài)場景、支持更抽象的關(guān)系描述、以及在更具挑戰(zhàn)性的現(xiàn)實應(yīng)用場景中的部署。

這項技術(shù)的開源性質(zhì)意味著全世界的研究者和開發(fā)者都可以在此基礎(chǔ)上進行創(chuàng)新和改進。正如研究團隊在論文中所說，他們希望通過明確建模3D物體的結(jié)構(gòu)化、語義驅(qū)動的部件表示，為更復(fù)雜的具身智能或交互式應(yīng)用場景鋪平道路。

說到底，DreamPartGen不僅僅是一個技術(shù)突破，更是向著讓AI真正理解我們物理世界邁出的重要一步。當(dāng)AI能夠像人類工匠一樣理解物體的結(jié)構(gòu)、功能和美學(xué)時，我們就更接近了創(chuàng)造真正智能助手的目標(biāo)——它們不僅能看懂我們的世界，還能按照我們的意愿重新塑造這個世界。

Q&A

Q1：DreamPartGen相比傳統(tǒng)3D生成AI有什么不同？

A：傳統(tǒng)AI生成的3D模型像一整塊雕塑，無法分離部件。DreamPartGen則像積木拼裝，生成的每個部件都是獨立的，可以單獨編輯或重組，同時還理解部件間的連接關(guān)系。

Q2：DreamPartGen能應(yīng)用在哪些實際場景？

A：主要應(yīng)用包括游戲和虛擬現(xiàn)實中的場景創(chuàng)建、工業(yè)設(shè)計的快速原型制作、教育領(lǐng)域的3D教學(xué)材料生成，以及可以活動的鉸接式物體建模，比如可開合的筆記本或可轉(zhuǎn)動的機器人關(guān)節(jié)。

Q3：普通用戶如何使用這項技術(shù)？

A：目前這項技術(shù)主要面向研究和開發(fā)者，論文已經(jīng)開源。未來可能會集成到3D建模軟件、游戲開發(fā)工具或在線創(chuàng)作平臺中，讓用戶通過簡單的文字描述就能生成復(fù)雜的3D模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.