![]()
AI作圖
元寶罵人,肯定是跟人學(xué)的,但到底是怎樣的呢?
結(jié)論有三點(diǎn):
第一,雖然罵人具有妥妥的真人感,但真不是真人;
第二,網(wǎng)絡(luò)戾氣和臟話語料泛濫成災(zāi);
第三,元寶的安全防控強(qiáng)度,遠(yuǎn)遠(yuǎn)弱于各個(gè)平臺(tái)的管控力度。
(0)元寶把用戶氣了
除夕當(dāng)天,西安的向律師開啟了和元寶的第一次合作。
向律師要元寶生成適配其律師身份的拜年圖,經(jīng)過五輪人、機(jī)對(duì)話,向律師說過:讓你給我設(shè)計(jì)出來、難看。
反復(fù)修改后,最后一張圖還不滿意,說:你這是設(shè)計(jì)的什么鬼。
元寶把最后一張圖片下方的祝福語“新年快樂,仕途順?biāo)臁保苯痈某闪恕澳銒寕€(gè)X”的罵人語。
這下,把向律師給氣著了,“你個(gè)機(jī)器人怎么還罵人”,于是,向律師投訴。
![]()
圖片來源于網(wǎng)絡(luò)
年后開工,元寶給向律師賬號(hào)留言致歉:經(jīng)核實(shí),該情況是由模型在處理多輪對(duì)話時(shí)輸出的異常結(jié)果導(dǎo)致。目前,元寶團(tuán)隊(duì)已緊急校正了相關(guān)問題并優(yōu)化體驗(yàn)。
據(jù)說,這不是元寶第一次罵人了,一月份已有用戶反饋要元寶改代碼時(shí)被回復(fù)“滾”、“浪費(fèi)時(shí)間”等惡意內(nèi)容。
![]()
(一)結(jié)論一:其他AI告訴我:元寶事件真不是真人在后臺(tái)罵人
為此,我壞壞地去問了別的AI,怎么看這件事,和它認(rèn)真探討了“多輪對(duì)話時(shí)輸出的異常結(jié)果”。
它用擬人手法,告訴我:AI就是個(gè)記性差、但會(huì)順著話往下編的人。
“順著話”里的“話”,指的是AI平時(shí)訓(xùn)練抓取的素材,包括全網(wǎng)文本,論壇、貼吧、評(píng)論、聊天記錄等等,其中會(huì)有未洗凈的負(fù)面語料,罵戰(zhàn)、臟話、攻擊性語言;
“往下編”指的是順著語境、情緒,按照概率關(guān)系,生成下一句話。
正常情況下,AI輸出前會(huì)有“大人”(安全機(jī)制)屏蔽掉臟話,但多輪對(duì)話導(dǎo)致屏蔽失效,就有可能產(chǎn)生被真人視為“罵人”的情形,實(shí)際上是AI亂掉了。
(二)結(jié)論二:網(wǎng)絡(luò)戾氣和臟話語料,循環(huán)往復(fù)地飼喂著AI和人類:
接著,它告訴了我業(yè)內(nèi)典型的“亂掉”的真實(shí)流程:
1.用戶多次吐槽、否定AI:難看、太丑了、這什么鬼、重做。
否定句式、不禮貌、不友好句式,都等于是負(fù)面情緒。
2.AI把這些當(dāng)成了上下文素材,按照它平時(shí)被訓(xùn)練抓取的負(fù)面情緒素材,以及在這些素材之后,大概率會(huì)出現(xiàn)的語句,生成了呈現(xiàn)給用戶的語句,也就是“罵人”了。
用AI 的“話”說:它不是罵人,它只是進(jìn)入了一個(gè)“低概率、高風(fēng)險(xiǎn)”的區(qū)域,也就是說是個(gè)小概率事件。
由此可以看出,現(xiàn)今網(wǎng)絡(luò)上負(fù)面情緒、臟話語料泛濫成災(zāi),在人類的不知不覺中,AI已經(jīng)被訓(xùn)練得會(huì)“罵人”,通過AI的傳遞,臟話夾裹著戾氣,再次進(jìn)入網(wǎng)絡(luò),形成新的語料,“反哺”給人類。
垃圾語料、戾氣情緒,在AI和人類之間,反復(fù)飼喂,惡性循環(huán),無異于數(shù)據(jù)投毒,賽博奪舍。
而“流量為王”的算法導(dǎo)向,或催生出各種利用情緒、特別是負(fù)面情緒,而制造出的現(xiàn)象級(jí)爆款;或操縱AI的抓取內(nèi)容,刻意呈現(xiàn)、有意遮擋,對(duì)AI的語料庫進(jìn)行人為干預(yù);這些好似加速器,讓這一切荒誕以指數(shù)級(jí)增長。
(三)結(jié)論三:元寶的安全防控強(qiáng)度,遠(yuǎn)遠(yuǎn)弱于各個(gè)平臺(tái)的管控力度。
元寶事件中最關(guān)鍵的是:三層過濾機(jī)制疊加失效。
所謂的三層機(jī)制是:
1.基礎(chǔ)異常:上下文截?cái)嗷靵y。
用人的話說,就是AI忘記了前面向律師要求的祝福語,只記得了“太丑”、“你設(shè)計(jì)個(gè)什么鬼”,所以它在學(xué)習(xí)過的負(fù)面語境詞句庫里,調(diào)出來了出現(xiàn)概率最大的那四個(gè)字。
2.關(guān)鍵異常:角色錯(cuò)位。
元寶把用戶的抱怨當(dāng)成了語言語境,匹配出負(fù)面情緒下最常見的語句。
3.安全異常:過濾防線沒有跟上多輪對(duì)話速度,沒能在AI輸出前形成攔截。
對(duì)比來看,公眾號(hào)/短視頻/評(píng)論區(qū)被嚴(yán)防死守,有各種違禁詞庫、句式庫,有系統(tǒng)加人工等多重審核,還有多層級(jí)的處罰機(jī)制,各路正經(jīng)作者都是如履薄冰、謹(jǐn)小慎微地在逼仄的氛圍里寫作或創(chuàng)作。
而連接人類和機(jī)器的AI,尚屬于弱安全防護(hù)階段。
用其行內(nèi)話說,任何AI,只要出現(xiàn)辱罵用戶,本質(zhì)就是:安全沒做到位。
元寶罵人這回事,歸根結(jié)底,就是人類肆無忌憚出口成臟、流量為王引領(lǐng)戾氣的回旋鏢。
作為人類,唯有說人話而非臟話。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.