![]()
Anthropic給Claude搞了一套「交通燈」式的警告系統,不是封號那種一刀切的玩法,而是層層加碼。第一檔黃燈:你的消息可能違規,系統提醒你注意。第二檔橙燈:直接給你上「增強安全濾鏡」,回答變得又短又保守。第三檔紅燈:聊天暫停,強制降級到更笨的模型。
這套機制最近被用戶挖了出來。有人在Reddit上貼出截圖,顯示自己因為連續追問敏感話題,被Claude從Opus模型踢到了Sonnet,「感覺像是從跑車換成了代步車」。
Anthropic的安全負責人Jared Kaplan去年提過類似思路:「我們想區分『用戶想搞破壞』和『用戶只是好奇』。」現在看來,這套系統已經悄悄上線。和OpenAI直接封號相比,Anthropic的做法更像信用卡的風控——先降額,再凍結,而不是直接銷戶。
但用戶不買賬的點是:降智決定由系統單方面做出,沒有申訴入口。一位被降級的開發者抱怨:「我連自己哪句話踩線都不知道。」
目前Anthropic沒公布具體觸發閾值,只說「取決于對話上下文和頻率」。換句話說,規則黑箱,解釋權歸平臺所有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.