337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“專家人設(shè)”反而讓 AI 變笨?研究實錘:一句“你是資深工程師”,代碼準(zhǔn)確率不升反降!

0
分享至

編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果你也經(jīng)常這樣寫 Prompt——

“你是一位資深全棧工程師,請幫我寫一套生產(chǎn)級系統(tǒng)代碼……”

那這篇研究,可能會讓你重新審視自己的使用習(xí)慣。

一直以來,“給 AI 加人設(shè)”幾乎成了默認操作。從寫代碼、寫文檔,到做架構(gòu)設(shè)計,不少開發(fā)者都會在開頭先“鋪墊一句”,試圖把模型“催眠”成一個更專業(yè)的版本。但問題是:這種看似提升專業(yè)性的技巧,可能正在悄悄拉低結(jié)果質(zhì)量。

近日,一項來自美國南加州大學(xué)(USC)的最新研究,對這一做法給出了一個有些反直覺的結(jié)論:讓 AI 扮演“專家”,并不會讓它更擅長解決專業(yè)問題,反而在編程和數(shù)學(xué)任務(wù)上會明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



一項研究:為什么“專家人設(shè)”會翻車?

所謂“人設(shè)提示”(Persona-based Prompting),本質(zhì)上就是一種“角色扮演式”的 Prompt 技術(shù)。它的核心邏輯很簡單:通過一句身份設(shè)定,讓模型進入某種“工作狀態(tài)”。

這種方法在 2023 年開始被廣泛討論,并迅速在開發(fā)者社區(qū)流行開來。無論是教程、課程,還是各種 Prompt 模板,幾乎都會建議你這樣寫:

● “你是一位經(jīng)驗豐富的機器學(xué)習(xí)工程師……”

● “你是一名精通系統(tǒng)設(shè)計的架構(gòu)師……”

● “請以安全專家的視角分析以下問題……”

理論上來說,這種方法似乎很合理。畢竟模型是“語言驅(qū)動”的,那多給一點上下文,不就能讓它“更像專家”嗎?但來自南加州大學(xué)(USC)的研究人員在一篇論文中指出:

“人設(shè)提示是否有效,很大程度上要看任務(wù)類型。”

也就是說,并不是“加了人設(shè)就一定能變強”,而是“用對了才行”。具體來說,該研究團隊將任務(wù)大致分成兩類:

(1)一類是依賴“對齊能力”的任務(wù),比如寫作、角色扮演、遵守規(guī)則、安全策略等。在這些場景中,模型需要的是“行為符合預(yù)期”,而不是絕對正確的答案。

(2)一類則是依賴“知識和推理能力”的任務(wù),比如數(shù)學(xué)計算、代碼生成、事實問答。這些任務(wù)則更依賴模型在預(yù)訓(xùn)練階段學(xué)到的知識儲備。

基于這兩類任務(wù),研究團隊得到的實驗結(jié)果為:在“人設(shè)提示”的加持下,第一類任務(wù)表現(xiàn)有所提升;但在第二類任務(wù)中,模型表現(xiàn)卻出現(xiàn)了系統(tǒng)性下降。


真正的問題:它在“演”,而不是在“算”

為了量化這種影響,研究人員使用了一個經(jīng)典評測基準(zhǔn):MMLU(大規(guī)模多任務(wù)語言理解測試)。這個測試覆蓋多個學(xué)科,常被用來衡量大模型的綜合能力。

評測之后,結(jié)果非常直接:

● 不加“人設(shè)”:準(zhǔn)確率 71.6%

● 加“專家人設(shè)”:準(zhǔn)確率 68.0%

更重要的是,這種下降幾乎出現(xiàn)在所有學(xué)科類別中,而不僅僅是個別任務(wù)。這說明了一個問題:“人設(shè)提示”確實改變了模型的行為方式,但這種改變,并不總是好的。

對于這個結(jié)果,研究團隊給出的解釋非常耐人尋味:

“人設(shè)前綴可能激活了模型的‘指令執(zhí)行模式’,從而擠占了原本用于‘事實回憶’的能力。”

解釋一下,從模型機制來看,大語言模型本質(zhì)上是在做“概率生成”。當(dāng)你告訴它“你是一位專家”,它并不會獲得任何新的知識,也不會解鎖新的推理能力,但會進入一種更偏“指令執(zhí)行”和“角色模擬”的模式。而這,就帶來了一個微妙但關(guān)鍵的變化:原本用于“從預(yù)訓(xùn)練數(shù)據(jù)中檢索事實”的能力,被部分“擠占”了。

簡單來說,就是模型開始更關(guān)注“如何像專家說話”,而不是“答案本身是否正確”。這也是為什么在編程和數(shù)學(xué)任務(wù)中,“人設(shè)”反而成為了模型的負擔(dān)。

不過,雖然準(zhǔn)確性下降,但在人類更關(guān)心的“安全”和“規(guī)范”上,人設(shè)提示確實有明顯幫助。

例如,在安全性測試中引入一個類似“安全審查員(Safety Monitor)”的人設(shè)后,模型拒絕惡意請求的能力將明顯提升。其中在 JailbreakBench 測試中:原始模型拒絕率為53.2%,但加了“人設(shè)”后拒絕率提升 17.7 個百分點,變?yōu)?0.9%。


對開發(fā)者來說,有點反直覺的結(jié)論

基于以上發(fā)現(xiàn),研究人員在論文中明確表示:

讓 AI 扮演“專家程序員”,不會提升代碼質(zhì)量或?qū)嵱眯浴?/blockquote>

這對很多開發(fā)者來說,可能是一個需要“糾正”的習(xí)慣。

因為在實際使用中,大量開發(fā)者的 Prompt 都包含類似話術(shù): “你是 Google 級別的架構(gòu)專家” 、 “你擁有 20 年開發(fā)經(jīng)驗”……這些描述看似增強了“專業(yè)性”,實際上并沒有給模型帶來任何實質(zhì)性的能力提升。

不過研究也指出,雖然“泛化的人設(shè)”沒什么用,但具體、細粒度的約束卻是有效的。例如:

● 明確前端框架(React / Vue)

● 指定架構(gòu)模式(微服務(wù) / 單體)

● 限定工具鏈(Docker / Kubernetes)

● 描述代碼風(fēng)格、接口規(guī)范

因為本質(zhì)上來說,這些屬于“對齊信息”、“需求約束”,而不是“身份設(shè)定”,它們的作用是幫助模型更好地對齊你的目標(biāo),而不是讓它“扮演某個人”。


一個更工程化的解法:PRISM

既然人設(shè)提示“有利有弊”,那有沒有辦法兩者兼顧呢?

針對這個問題,研究團隊提出了一種新的方法,叫做 PRISM(基于意圖的人設(shè)路由機制)。它的核心思想有點像“動態(tài)開關(guān)”:一般情況下保持原始模型,主要確保知識與準(zhǔn)確性,僅在需要時啟用“人設(shè)行為”。

在實現(xiàn)上,它借助了一種叫 LoRA(低秩適配)的技術(shù),通過一個“門控機制”來自動判斷使用哪種模式。簡單來說,這就讓模型具備一種能力:該認真的時候就認真算,該演的時候再去演。

在論文的最后,研究人員總結(jié)了一條非常實用的經(jīng)驗法則:

● 當(dāng)你更關(guān)心“對齊”(安全、格式、規(guī)則)時→可以加人設(shè),并具體描述要求;

● 當(dāng)你更關(guān)心“準(zhǔn)確性和事實”時→ 不要加任何設(shè)定,直接提問。

某種程度上來說,“你是一位專家”這句話,本質(zhì)上更像是寫給人看的,而不是寫給模型看的——它滿足的是人類對“專業(yè)感”的心理預(yù)期,卻未必真能提升結(jié)果質(zhì)量。

有時候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長的事情。

參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬美金懸賞!

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改,到真實千倍并發(fā)下的吞吐量極限拉扯

不看資歷,只看絕對速度

挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)

入圍即能拿 1 萬美金

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我愛上41歲女人,她開口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

我愛上41歲女人,她開口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

小月故事
2026-03-19 17:08:37
陪睡陪玩只是表象,王晶怒揭霍家秘辛,震驚娛樂圈

陪睡陪玩只是表象,王晶怒揭霍家秘辛,震驚娛樂圈

冷紫葉
2025-11-07 14:57:29
我國每天增加1萬癌癥患者,罪魁禍?zhǔn)资乔嗖耍?種青菜別再多吃

我國每天增加1萬癌癥患者,罪魁禍?zhǔn)资乔嗖耍?種青菜別再多吃

今日養(yǎng)生之道
2026-03-27 17:56:29
美國商務(wù)部:在美國制裁下,中國休想大批量制造的AI芯片

美國商務(wù)部:在美國制裁下,中國休想大批量制造的AI芯片

顧史
2026-03-24 19:56:17
老板娘說她屁股太大了,我該怎么回答?

老板娘說她屁股太大了,我該怎么回答?

太急張三瘋
2026-03-19 09:16:16
日本爆發(fā)抗議:高市道歉!小泉道歉!中國對不起!

日本爆發(fā)抗議:高市道歉!小泉道歉!中國對不起!

觀威海
2026-03-29 12:43:40
這條市中心的小馬路,居然藏著上海生煎“三巨頭”!隊伍最長的是這家!

這條市中心的小馬路,居然藏著上海生煎“三巨頭”!隊伍最長的是這家!

上海黃浦
2026-03-29 15:35:24
49歲翁帆高調(diào)露面!換造型驚艷全場,一句話讓英國定居傳聞破滅

49歲翁帆高調(diào)露面!換造型驚艷全場,一句話讓英國定居傳聞破滅

一盅情懷
2026-03-16 16:58:07
澳元,墊底!

澳元,墊底!

澳洲財經(jīng)見聞
2026-03-30 03:34:01
庫班轉(zhuǎn)發(fā)!美媒嘲諷尼科:交易東契奇讓你從私人飛機降為坐經(jīng)濟艙

庫班轉(zhuǎn)發(fā)!美媒嘲諷尼科:交易東契奇讓你從私人飛機降為坐經(jīng)濟艙

羅說NBA
2026-03-29 09:55:36
河馬的糞便多恐怖?每年有成千上萬的魚群,被河馬拉的屎生生憋死

河馬的糞便多恐怖?每年有成千上萬的魚群,被河馬拉的屎生生憋死

云景侃記
2026-03-28 09:56:18
她首度回應(yīng)“辱華”爭議!湯森德坦言:文化差異太大了

她首度回應(yīng)“辱華”爭議!湯森德坦言:文化差異太大了

體育妞世界
2026-03-29 20:58:19
高清圖:美國E-3G“哨兵”預(yù)警機被伊朗導(dǎo)彈直接命中、摧毀!

高清圖:美國E-3G“哨兵”預(yù)警機被伊朗導(dǎo)彈直接命中、摧毀!

勝研集
2026-03-29 12:35:10
遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

奇思妙想草葉君
2026-03-26 02:36:58
14點!國足VS非洲冠軍,邵佳一傳來好消息,贏球3大有利條件曝光

14點!國足VS非洲冠軍,邵佳一傳來好消息,贏球3大有利條件曝光

侃球熊弟
2026-03-30 00:16:41
冰妹性欲高漲引關(guān)注,警示遠離毒品珍愛生命!

冰妹性欲高漲引關(guān)注,警示遠離毒品珍愛生命!

特約前排觀眾
2026-02-17 00:10:05
新發(fā)現(xiàn)!966.56萬噸!全球第二大輕稀土礦床!

新發(fā)現(xiàn)!966.56萬噸!全球第二大輕稀土礦床!

中國粉體網(wǎng)
2026-03-28 11:43:06
74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

鶴羽說個事
2026-03-27 22:49:42
剛剛!萬科多名高管被帶走

剛剛!萬科多名高管被帶走

數(shù)局
2026-03-29 16:30:41
600703,大股東持股遭司法凍結(jié)!高管火速出手護盤

600703,大股東持股遭司法凍結(jié)!高管火速出手護盤

證券時報e公司
2026-03-29 20:10:16
2026-03-30 05:55:01
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26413文章數(shù) 242250關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
時尚
教育
公開課
軍事航空

房產(chǎn)要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

來到1980的周也,好毛利蘭

教育要聞

建議給家長放春秋假,否則的話,學(xué)生放春秋假就失去意義

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達

無障礙瀏覽 進入關(guān)懷版