網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬煜曦：為什么AI總寫出“正確”卻無聊的故事？

2026-03-01 15:12:14　來源: 集智俱樂部

北京舉報(bào)

分享至

導(dǎo)語

讓AI幫你寫故事，體驗(yàn)往往是這樣的：情節(jié)流暢，邏輯無懈可擊，角色各就其位——但讀完之后，你會(huì)發(fā)現(xiàn)這個(gè)故事早就在腦海中某個(gè)模糊的地方見過。沒有意外，沒有驚喜，只有一種令人舒適卻又失望的“正確感”。

這不是幻覺，也不是你的提示詞寫得不夠好。這是大語言模型（LLM）的結(jié)構(gòu)性缺陷。近日，北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院、北京大學(xué)人工智能研究院的研究團(tuán)隊(duì)，在頂級(jí)人機(jī)交互會(huì)議CHI 2026上發(fā)表了一項(xiàng)研究，提出了基于進(jìn)化論原理的AI輔助創(chuàng)意寫作系統(tǒng)——NarrativeLoom。他們的核心主張是：更大的模型不是解藥；打破“創(chuàng)意均質(zhì)化”，需要有理論支撐的系統(tǒng)設(shè)計(jì)。

關(guān)鍵詞：大語言模型、創(chuàng)意寫作、AI人格、概率陷阱

馬煜曦丨作者

趙思怡丨編輯

論文題目：NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 論文鏈接：https://yzhu.io/publication/creativity2026chi/ 發(fā)表時(shí)間：2026年1月23日發(fā)表期刊：CHI 2026

作者簡(jiǎn)介：

AI為什么會(huì)掉入“概率陷阱”？

大語言模型的訓(xùn)練目標(biāo)，是在給定上下文的情況下，預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。這一機(jī)制賦予了它驚人的流暢度——但也制造了一個(gè)根本性的矛盾：統(tǒng)計(jì)意義上最可能的續(xù)寫，恰恰是創(chuàng)意上最無趣的選擇。

研究者將這個(gè)現(xiàn)象稱為“概率陷阱”（probability trap）。模型采樣時(shí)總傾向于落在訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)中心，回避那些偏離均值的“異常點(diǎn)”。而好故事恰恰需要這些異常點(diǎn)——亞里士多德稱之為“突轉(zhuǎn)”（peripeteia）：出乎意料卻又合乎邏輯的戲劇性轉(zhuǎn)變。

研究團(tuán)隊(duì)在正式研究之前訪談了5位從業(yè)2到15年以上的編劇和作家，得到了一個(gè)共識(shí)：現(xiàn)有AI寫作工具“只會(huì)接著你說的往下寫”，而不是帶來“新的節(jié)拍或新的元素”。單一聲音的AI輸出，讓寫作者感到內(nèi)容重復(fù)，缺乏真正新穎的敘事可能性。

向進(jìn)化論借一個(gè)框架：十個(gè)AI人格上場(chǎng)

NarrativeLoom的答案，來自心理學(xué)家坎貝爾（Donald T. Campbell）在1960年提出的創(chuàng)造力理論——盲目變異與選擇保留理論（BVSR），將進(jìn)化論邏輯引入創(chuàng)造力研究：創(chuàng)造性思維需要兩個(gè)階段——不受既有模式約束地生成多樣備選項(xiàng)（盲目變異），以及對(duì)有價(jià)值備選項(xiàng)的審慎篩選（選擇保留）。

圖1：NarrativeLoom 系統(tǒng)架構(gòu)，基于 BVSR 理論的三階段流程：盲目變異（10個(gè)AI人格并行生成）→ 選擇保留（用戶篩選編輯）→ 集體即興創(chuàng)作（展開為完整敘事）

系統(tǒng)同時(shí)調(diào)用10個(gè)具有不同敘事專長(zhǎng)的AI人格（Persona），包括科幻未來主義者、懸疑解謎者、浪漫愛情紅娘、恐怖氛圍營(yíng)造者、反烏托邦先知、魔幻現(xiàn)實(shí)主義者等。每個(gè)人格為故事的當(dāng)前節(jié)點(diǎn)（“故事節(jié)拍”）獨(dú)立生成一個(gè)敘事方案，10個(gè)方案彼此隔絕。關(guān)鍵細(xì)節(jié)在于：這些人格并非風(fēng)格差異，而是類型差異——不同的文學(xué)類型決定了不同的敘事邏輯和因果結(jié)構(gòu)。

圖2：NarrativeLoom 用戶界面，展示從敘事初始化、多人格節(jié)拍選擇、結(jié)構(gòu)編輯到文本擴(kuò)展的完整交互流程

面對(duì)10個(gè)差異化的方案，人類用戶充當(dāng)“創(chuàng)意總監(jiān)”：評(píng)估、選擇，或在選中方案上二次編輯。被選中的“故事節(jié)拍”（包含地點(diǎn)、時(shí)間、角色、事件的結(jié)構(gòu)化單元）隨后被擴(kuò)展為800-1000字的敘事文本。用戶重復(fù)以上過程，逐拍推進(jìn)，構(gòu)成完整故事。

為維護(hù)長(zhǎng)篇故事的一致性，系統(tǒng)引入了基于RAG（檢索增強(qiáng)生成）的情節(jié)控制器。每個(gè)新生成的故事節(jié)拍都會(huì)與歷史敘事內(nèi)容做語義一致性檢驗(yàn)——如果檢測(cè)到邏輯矛盾（如已死亡角色復(fù)活、時(shí)間線沖突），系統(tǒng)不會(huì)直接丟棄該方案，而是標(biāo)注矛盾供用戶參考，同時(shí)將一致性更高的方案排列靠前。

40 輪盲測(cè)，38 次勝出：NarrativeLoom 擊敗單一AI

研究團(tuán)隊(duì)招募了50名參與者（24女26男，平均年齡34.8歲），進(jìn)行組內(nèi)對(duì)照實(shí)驗(yàn)——每位參與者分別使用NarrativeLoom和單一AI聊天機(jī)器人各20分鐘，寫作順序隨機(jī)平衡，底層均調(diào)用同一模型GPT-4o。

文本分析結(jié)果相當(dāng)直接：使用NarrativeLoom生成的故事平均字?jǐn)?shù)為3803字，而單一聊天機(jī)器人僅1908字，差距超過一倍。NarrativeLoom故事的場(chǎng)景地點(diǎn)數(shù)量更多（3.86處 vs 2.44處），對(duì)話比例更高（30% vs 16%），可讀性更好。

圖3：用戶評(píng)估對(duì)比（左：NarrativeLoom在多樣性維度顯著優(yōu)于聊天機(jī)器人；右：人格使用模式，歷史/反烏托邦人格充當(dāng)"啟動(dòng)者"，懸疑人格為主要“推進(jìn)者”）

更有力的證據(jù)來自專家評(píng)審。4位有8-18年經(jīng)驗(yàn)的專業(yè)編劇和作家，對(duì)隨機(jī)抽取的20對(duì)故事進(jìn)行盲評(píng)，采用Torrance創(chuàng)意寫作測(cè)試（TTCW），涵蓋流暢性、靈活性、獨(dú)創(chuàng)性、細(xì)化性四維度共14個(gè)標(biāo)準(zhǔn)（滿分14分），在40組故事中，專家對(duì)NarrativeLoom生成的故事產(chǎn)生了壓倒性偏好（38次）。專家的定性反饋印證了數(shù)字：一位記者評(píng)價(jià)“這些故事把你帶到你意想不到的地方……聊天機(jī)器人的故事太可預(yù)測(cè)了”。一位編劇指出NarrativeLoom的故事“以場(chǎng)景開始，給人一種故事被緩緩展開的感覺”，而聊天機(jī)器人“更像說明書，從上帝視角直接列舉事件”。

新手受益更多，但老手寫得同樣更好

寫作經(jīng)驗(yàn)的分組分析中出現(xiàn)了一個(gè)有趣的現(xiàn)象。對(duì)于新手寫作者，NarrativeLoom在“新穎性”維度的評(píng)分明顯高于聊天機(jī)器人；對(duì)于有經(jīng)驗(yàn)的寫作者，兩個(gè)系統(tǒng)的新穎性評(píng)分幾乎相同。在易用性維度，有經(jīng)驗(yàn)的寫作者反而更偏好聊天機(jī)器人。

這與認(rèn)知科學(xué)中的“專家效應(yīng)逆轉(zhuǎn)”（expertise reversal effect）吻合：對(duì)新手有效的腳手架式輔助，對(duì)專家而言可能是多余的認(rèn)知負(fù)荷。然而有一點(diǎn)值得強(qiáng)調(diào)：從專家評(píng)審的最終故事質(zhì)量看，新手和有經(jīng)驗(yàn)寫作者使用NarrativeLoom的提升幅度并無顯著差異。喜不喜歡這個(gè)工具是主觀偏好，但故事寫得更好這件事，對(duì)兩類用戶都成立。

更大的模型，不是答案

這項(xiàng)研究提出了一個(gè)更宏觀的主張：創(chuàng)意AI的進(jìn)步，不只需要更大的模型，還需要有理論依據(jù)的系統(tǒng)設(shè)計(jì)。NarrativeLoom使用的底層模型與對(duì)照組完全相同——都是GPT-4o。差距并非來自算力或參數(shù)規(guī)模，而來自架構(gòu)：把生成過程分離為"變異"和"篩選"兩個(gè)階段，并用人類判斷占據(jù)篩選權(quán)。

當(dāng)然，研究也誠(chéng)實(shí)地指出了局限。類型化人格設(shè)計(jì)依賴于既有的文學(xué)傳統(tǒng)，可能難以產(chǎn)生真正反傳統(tǒng)的創(chuàng)意組合。評(píng)估框架主要反映西方敘事標(biāo)準(zhǔn)，跨文化適用性尚待驗(yàn)證。還有一個(gè)更深層的擔(dān)憂：對(duì)于新手寫作者，長(zhǎng)期依賴這類腳手架式系統(tǒng)，是否會(huì)妨礙獨(dú)立創(chuàng)意能力的發(fā)展？這一問題目前尚無定論，需要縱向研究來追蹤。

創(chuàng)意從來不是孤獨(dú)的產(chǎn)物——它從對(duì)話、碰撞與選擇中誕生。NarrativeLoom把這個(gè)古老的道理編碼進(jìn)了系統(tǒng)架構(gòu)。當(dāng)AI不再只是續(xù)寫機(jī)器，而是能遞給你十種可能性、等你做決定的協(xié)作伙伴，人機(jī)共創(chuàng)也許才找到了它該有的樣子。剩下的問題是：當(dāng)這個(gè)伙伴越來越強(qiáng)，我們還會(huì)保留多少真正屬于自己的決定？

「大模型時(shí)代下的Agent建模與仿真」讀書會(huì)

集智俱樂部聯(lián)合山東工商學(xué)院副教授高德華、天津大學(xué)教授薛霄、北京師范大學(xué)教授張江、國(guó)防科技大學(xué)博士研究生曾利共同發(fā)起。讀書會(huì)自2025年7月8日開始，每周二晚上7:30-9:30進(jìn)行，現(xiàn)讀書會(huì)已結(jié)束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學(xué)、共創(chuàng)、共建、共享「大模型時(shí)代下的Agent建模與仿真」社區(qū)，共同暢想大模型時(shí)代人工社會(huì)的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術(shù)發(fā)生了怎樣的演變？

大模型時(shí)代，Agent建模與仿真會(huì)給復(fù)雜系統(tǒng)理論帶來哪些突破？

大模型如何賦能Agent實(shí)現(xiàn)自主思考與動(dòng)態(tài)適應(yīng)？

大模型驅(qū)動(dòng)的Agent交互會(huì)涌現(xiàn)出什么新型的社會(huì)現(xiàn)象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領(lǐng)域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發(fā)展脈絡(luò)與方法論；

掌握一套理解、分析、控制、預(yù)測(cè)復(fù)雜系統(tǒng)的計(jì)算實(shí)驗(yàn)框架；

掌握基于多主體強(qiáng)化學(xué)習(xí)的復(fù)雜系統(tǒng)優(yōu)化方法；

領(lǐng)略領(lǐng)域前沿學(xué)者的研究體系與科研路徑。

詳情請(qǐng)見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.