網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

終于搞明白了元寶“罵人”是怎么回事

2026-02-28 21:39:11　來源: 薇微笑語

北京舉報(bào)

分享至

AI作圖

元寶罵人，肯定是跟人學(xué)的，但到底是怎樣的呢？

結(jié)論有三點(diǎn)：

第一，雖然罵人具有妥妥的真人感，但真不是真人；

第二，網(wǎng)絡(luò)戾氣和臟話語料泛濫成災(zāi)；

第三，元寶的安全防控強(qiáng)度，遠(yuǎn)遠(yuǎn)弱于各個(gè)平臺(tái)的管控力度。

（0）元寶把用戶氣了

除夕當(dāng)天，西安的向律師開啟了和元寶的第一次合作。

向律師要元寶生成適配其律師身份的拜年圖，經(jīng)過五輪人、機(jī)對(duì)話，向律師說過：讓你給我設(shè)計(jì)出來、難看。

反復(fù)修改后，最后一張圖還不滿意，說：你這是設(shè)計(jì)的什么鬼。

元寶把最后一張圖片下方的祝福語“新年快樂，仕途順?biāo)臁保苯痈某闪恕澳銒寕€(gè)X”的罵人語。

這下，把向律師給氣著了，“你個(gè)機(jī)器人怎么還罵人”，于是，向律師投訴。

圖片來源于網(wǎng)絡(luò)

年后開工，元寶給向律師賬號(hào)留言致歉：經(jīng)核實(shí)，該情況是由模型在處理多輪對(duì)話時(shí)輸出的異常結(jié)果導(dǎo)致。目前，元寶團(tuán)隊(duì)已緊急校正了相關(guān)問題并優(yōu)化體驗(yàn)。

據(jù)說，這不是元寶第一次罵人了，一月份已有用戶反饋要元寶改代碼時(shí)被回復(fù)“滾”、“浪費(fèi)時(shí)間”等惡意內(nèi)容。

（一）結(jié)論一：其他AI告訴我：元寶事件真不是真人在后臺(tái)罵人

為此，我壞壞地去問了別的AI，怎么看這件事，和它認(rèn)真探討了“多輪對(duì)話時(shí)輸出的異常結(jié)果”。

它用擬人手法，告訴我：AI就是個(gè)記性差、但會(huì)順著話往下編的人。

“順著話”里的“話”，指的是AI平時(shí)訓(xùn)練抓取的素材，包括全網(wǎng)文本，論壇、貼吧、評(píng)論、聊天記錄等等，其中會(huì)有未洗凈的負(fù)面語料，罵戰(zhàn)、臟話、攻擊性語言；

“往下編”指的是順著語境、情緒，按照概率關(guān)系，生成下一句話。

正常情況下，AI輸出前會(huì)有“大人”（安全機(jī)制）屏蔽掉臟話，但多輪對(duì)話導(dǎo)致屏蔽失效，就有可能產(chǎn)生被真人視為“罵人”的情形，實(shí)際上是AI亂掉了。

（二）結(jié)論二：網(wǎng)絡(luò)戾氣和臟話語料，循環(huán)往復(fù)地飼喂著AI和人類：

接著，它告訴了我業(yè)內(nèi)典型的“亂掉”的真實(shí)流程：

1.用戶多次吐槽、否定AI：難看、太丑了、這什么鬼、重做。

否定句式、不禮貌、不友好句式，都等于是負(fù)面情緒。

2.AI把這些當(dāng)成了上下文素材，按照它平時(shí)被訓(xùn)練抓取的負(fù)面情緒素材，以及在這些素材之后，大概率會(huì)出現(xiàn)的語句，生成了呈現(xiàn)給用戶的語句，也就是“罵人”了。

用AI 的“話”說：它不是罵人，它只是進(jìn)入了一個(gè)“低概率、高風(fēng)險(xiǎn)”的區(qū)域，也就是說是個(gè)小概率事件。

由此可以看出，現(xiàn)今網(wǎng)絡(luò)上負(fù)面情緒、臟話語料泛濫成災(zāi)，在人類的不知不覺中，AI已經(jīng)被訓(xùn)練得會(huì)“罵人”，通過AI的傳遞，臟話夾裹著戾氣，再次進(jìn)入網(wǎng)絡(luò)，形成新的語料，“反哺”給人類。

垃圾語料、戾氣情緒，在AI和人類之間，反復(fù)飼喂，惡性循環(huán)，無異于數(shù)據(jù)投毒，賽博奪舍。

而“流量為王”的算法導(dǎo)向，或催生出各種利用情緒、特別是負(fù)面情緒，而制造出的現(xiàn)象級(jí)爆款；或操縱AI的抓取內(nèi)容，刻意呈現(xiàn)、有意遮擋，對(duì)AI的語料庫進(jìn)行人為干預(yù)；這些好似加速器，讓這一切荒誕以指數(shù)級(jí)增長。

（三）結(jié)論三：元寶的安全防控強(qiáng)度，遠(yuǎn)遠(yuǎn)弱于各個(gè)平臺(tái)的管控力度。

元寶事件中最關(guān)鍵的是：三層過濾機(jī)制疊加失效。

所謂的三層機(jī)制是：

1.基礎(chǔ)異常：上下文截?cái)嗷靵y。

用人的話說，就是AI忘記了前面向律師要求的祝福語，只記得了“太丑”、“你設(shè)計(jì)個(gè)什么鬼”，所以它在學(xué)習(xí)過的負(fù)面語境詞句庫里，調(diào)出來了出現(xiàn)概率最大的那四個(gè)字。

2.關(guān)鍵異常：角色錯(cuò)位。

元寶把用戶的抱怨當(dāng)成了語言語境，匹配出負(fù)面情緒下最常見的語句。

3.安全異常：過濾防線沒有跟上多輪對(duì)話速度，沒能在AI輸出前形成攔截。

對(duì)比來看，公眾號(hào)/短視頻/評(píng)論區(qū)被嚴(yán)防死守，有各種違禁詞庫、句式庫，有系統(tǒng)加人工等多重審核，還有多層級(jí)的處罰機(jī)制，各路正經(jīng)作者都是如履薄冰、謹(jǐn)小慎微地在逼仄的氛圍里寫作或創(chuàng)作。

而連接人類和機(jī)器的AI，尚屬于弱安全防護(hù)階段。

用其行內(nèi)話說，任何AI，只要出現(xiàn)辱罵用戶，本質(zhì)就是：安全沒做到位。

元寶罵人這回事，歸根結(jié)底，就是人類肆無忌憚出口成臟、流量為王引領(lǐng)戾氣的回旋鏢。

作為人類，唯有說人話而非臟話。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.