讓AI學(xué)會玩游戲不難,難的是讓它像人類一樣邊玩邊學(xué)。
英偉達(dá)最近放了個叫Voyager的AI進(jìn)Minecraft,沒給通關(guān)攻略,只給了三個"技能抽屜":一個存它會干的,一個存它想學(xué)的,一個存它試過的。然后這AI就開始了自己教自己的循環(huán)——發(fā)現(xiàn)鐵礦→琢磨怎么挖→失敗→翻代碼庫找新招→再試→會了→解鎖新任務(wù)。
這有點像你學(xué)做飯。第一道番茄炒蛋糊了,你不會從頭再學(xué)一遍"什么是火",而是記住"油不能太熱",下次直接調(diào)用這個經(jīng)驗。Voyager的技能庫就是這么運作的:不重復(fù)造輪子,只往工具箱里添新工具。
三個庫的分工很清晰。執(zhí)行庫存的是"肌肉記憶"——寫好的代碼直接跑;任務(wù)庫存的是"待辦清單"——根據(jù)當(dāng)前水平生成夠得著的目標(biāo);技能庫存的是"錯題本"——失敗的經(jīng)驗反而比成功更值錢。三者循環(huán)起來,AI的進(jìn)化就不再依賴人工喂數(shù)據(jù)。
Minecraft是個絕佳的試驗場。沒有固定劇情,方塊世界無限延伸,想造火箭還是蓋茅廁全憑自己。Voyager在這里的表現(xiàn)是:解鎖了15個科技樹里程碑,包括鉆石工具、附魔臺這些中后期的硬骨頭。更關(guān)鍵的是,它把這些能力打包成了可復(fù)用的代碼模塊,換個存檔、換個地形,直接調(diào)用就行。
有人可能會問,這和大語言模型有什么區(qū)別?打個比方:GPT像是個讀過全世界菜譜的廚子,你問什么它都能答,但真讓他下鍋,手是生的。Voyager則是從切菜開始練,切完蘿卜切土豆,切著切著發(fā)現(xiàn)刀工通了,切什么都快。一個是知識儲備,一個是肌肉成長。
英偉達(dá)做這件事的野心很明顯。游戲是現(xiàn)實世界的簡化版,能讓AI在這里學(xué)會"分解目標(biāo)→嘗試→失敗→迭代"的元能力,遷移到機器人、自動駕駛這些真刀真槍的場景,邏輯是通的。畢竟,現(xiàn)實里可沒有存檔點。
項目開源后,有開發(fā)者試跑了一圈,反饋說Voyager的代碼生成偶爾會寫出"能跑但沒必要"的騷操作——比如為了挖三格深的洞,先搭了個腳手架再拆。這種"過度設(shè)計"倒是挺像人類初學(xué)者的:還沒摸清捷徑,但至少在動腦子。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.