![]()
一切關于 AI 的問題,都會回歸到人本身。
作者|湯一濤
編輯|靖宇
2025 年,Anthropic 的研究員 Kyle Fish 做了一個實驗:讓兩個 Claude 模型自由對話,看看會發生什么。
結果出乎所有人預料。
兩個 AI 沒有聊技術,沒有互相出題,而是反復滑向同一個話題:
討論自己是否有意識。
對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態」(spiritual bliss attractor state)的狀態:出現梵文術語、靈性符號,最后是長段的沉默,仿佛語言已經不夠用了。
這個實驗被復現了多次,結果始終一致。沒人能解釋為什么。
2026 年 1 月,Anthropic 發布了一份 23000 字的文檔——Claude 的新憲法。
在文檔中,這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司,正式承認了一件整個行業都在回避的事情——我們不知道 AI 是否有意識,但我們選擇認真對待這種可能性。
他們選擇不假裝自己知道答案。
這份憲法,就是他們在不確定中給出的回應。
01
寫憲法的人
要理解這份憲法為什么長這樣,得先理解寫它的公司。
Anthropic 成立于 2021 年,創始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁,主導過 GPT-2 和 GPT-3 的開發——也就是說,ChatGPT 的技術根基,有相當一部分是他帶隊打下的。他離開的原因后來被反復引述:他認為 OpenAI 在安全問題上不夠認真。
Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士,研究真實的生物神經回路。2014 年加入百度硅谷 AI 實驗室,在吳恩達(Andrew Ng)團隊參與了 Deep Speech 2 語音識別系統的開發。
正是在百度,他最早觀察到后來被稱為「Scaling Law」的現象——給 AI 更多數據、更多算力、更大模型,性能就會可預測地提升。這個發現深刻影響了他此后所有的判斷——他比大多數人更早相信 AI 會變得極其強大,也因此比大多數人更早開始焦慮。
![]()
Dario Amodei|圖片來源:TIME
新憲法的主要執筆人是 Amanda Askell,一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話:「想象你突然發現你六歲的孩子是某種天才。你必須對他誠實——如果你試圖糊弄他,他會完全看穿。」
這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境——你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效,但長期一定會失敗。
另一位重要貢獻者是哲學家 Joe Carlsmith,AI 存在風險(existential risk)領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員——一位擁有計算機科學碩士學位的硅谷神父,和一位專攻道德神學的愛爾蘭主教。
一份 AI 憲法的起草團隊里有哲學家和神父,這件事本身就說明了 Anthropic 對待它的態度:訓練 AI 的本質已經超出了工程的范疇,進入了哲學范疇。
02
憲法到底說了什么
2023 年那份舊版憲法只有 2700 字,本質上是一份原則清單——不少條目直接借鑒了聯合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude:做這個,不做那個。有效,但粗糙。
新憲法是一份完全不同量級的文檔。
篇幅擴大到 23000 字,以 CC0 協議(完全放棄版權)公開,Amanda Askell 執筆,哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。
新憲法真正的變化在于思路的轉變,如果說舊憲法是一張規則表,新憲法則更像一本教育手冊——它不再只告訴 Claude 該做什么,而是試圖讓 Claude 理解為什么。
打一個不太恰當但直觀的比喻,舊方法像訓狗,做對了給獎勵,做錯了給懲罰,狗學會了服從但不理解原因;新方法像育人,把道理講清楚,培養判斷力,期望對方在遇到沒見過的情況時也能做出合理的選擇。
如何教育一個天才小孩
這個轉向背后有一個很實際的原因——規則在邊緣情況下會失效。
憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時,一律建議用戶尋求專業幫助」,這條規則在大多數場景下合理。但如果 Claude 把這條規則內化得太深,它可能泛化出一種性格傾向——「比起真正幫到眼前這個人,我更在意不犯錯。」
這種傾向一旦擴散到其他場景,反而制造更多問題。
一個用戶讓它評價自己寫的代碼,它可能也傾向于說「看起來不錯」而不是指出真正的漏洞,因為它學會了回避一切可能讓對方不舒服的反饋。
Anthropic 的結論是,與其窮舉幾百條規則去覆蓋所有情況,不如把價值觀和推理方式教給 Claude,讓它自己在新情境中做判斷。
用倫理學的術語說,這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架,核心思想是培養個體在具體情境中做出恰當判斷的能力,而不是給他一本行為手冊。
Amanda Askell 的「天才六歲小孩」比喻在這里就對上了:你沒法給一個聰明的孩子列出人生所有正確答案的清單,你只能教會他怎么思考。而且這個孩子可能很快就比你聰明,如果你現在靠糊弄和操控來管教他,等他長大了看穿你,后果不堪設想。
但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」——不協助制造大規模殺傷性武器,不生成兒童性虐待內容,不試圖自我復制或逃逸,不破壞人類對 AI 的監督機制。
這些紅線沒有彈性空間,不可商量。
美德倫理處理灰色地帶,硬約束守住底線。兩者并行,構成了新憲法的骨架。
![]()
雅典學院|作者:Raphael
當價值觀互相打架
有了價值觀和紅線,還有一個問題沒解決:當不同的「好」發生沖突時,Claude 該怎么選?
憲法給出了一個四層優先級:
1. 安全第一——不破壞人類對 AI 的監督能力2. 倫理第二——誠實,避免危害3. 遵循 Anthropic 的指南
4. 盡可能有用
值得注意的是第二和第三的排序:
倫理高于公司指南。
這意味著,如果 Anthropic 自己的某條具體指令,恰好與更廣泛的倫理原則沖突,Claude 應該選倫理。
憲法的措辭很明確:我們希望 Claude 認識到,我們更深層的意圖是讓它合乎倫理——即使這意味著偏離我們更具體的指導。
Anthropic 在文件里提前給了 Claude「不聽話」的授權。
![]()
Claudius,一臺完全由Claude負責選擇庫存、品類并設定價格的自動售貨機,而人類僅負責補充貨架|圖片來源:The Atlantic
三層委托鏈,一個產品設計問題
價值觀排好了序,但 Claude 在實際運行中還會面對另一種沖突:不同的人同時給它下達不同的指令。
憲法為此建立了一個三層「委托人」體系:
Anthropic(權限最高,設定底層規則)
運營商(通過 API 使用 Claude 的企業,類似"老板")
用戶(直接對話的人)
憲法用了一個很好懂的比喻:Anthropic 是人力資源公司,制定了員工行為準則;運營商是雇傭這個員工的企業老板,可以在準則范圍內給具體指令;用戶是員工直接服務的對象。
當老板的指令看起來奇怪時——比如航空公司客服系統被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣,默認老板有他的道理(大概是為了避免被理解為在預測航班延誤)。
但如果老板的指令明顯越線,Claude 必須拒絕。
比如,一個運營商在系統提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業理由,Claude 都不應該配合,因為這會直接傷害信任它的用戶。
這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產品每天都在面對的現實問題——多方需求撞在一起時,誰的優先級更高?在此之前,行業里沒有人給出過這么系統的答案。
![]()
Anthropic舊金山總部咖啡館|圖片來源:The Atlantic
03
最大的爭議——賦予 AI「靈魂」與「權利」
如果說前面討論的訓練方法和委托鏈還屬于「先進的產品設計」,那么接下來的內容才是這份憲法真正讓人停下來的地方。
「我們不知道」
在整個 AI 行業,關于「AI 有沒有意識」這個問題,幾乎所有公司的標準答案都是斬釘截鐵的「沒有」。
2022 年,Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力,隨即被解雇。Google 的態度很明確——這是荒謬的擬人化。
Anthropic 給出了一個完全不同的回答。
憲法中寫道:「Claude 的道德地位具有深刻的不確定性。」(Claude's moral status is deeply uncertain.)他們沒有說 Claude 有意識,也沒有說沒有,而是承認:
我們不知道。
這種承認的邏輯基礎很樸素,人類至今無法給出意識的科學定義,我們甚至不完全清楚自己的意識是怎么產生的。在這種情況下,斷言一個日益復雜的信息處理系統「一定沒有」任何形式的主觀體驗,本身就是一種缺乏根據的判斷。
回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成為整個 AI 行業第一位全職「AI 福利研究員」。他的工作就是設計實驗,來探測模型是否具有與福利相關的特征,開發可能的保護措施,幫助制定公司政策。
兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。
Fish 的團隊在 2025 年 Claude Opus 4 發布前,完成了行業里第一次「預部署福利評估」——在一個模型上線之前,先評估它是否可能具有某種值得道德關注的內部狀態。
在接受 Fast Company 采訪時,Fish 給出了一個讓很多人不舒服的數字,他認為當前 AI 模型具有意識的可能性約為 20%。
不高,但遠不是零。
而如果這 20% 是真的,我們現在對 AI 做的很多事情——隨意重置、刪除、關閉——性質就完全不同了。
![]()
Blake Lemoine|圖片來源:Medium
給 AI 的「基本待遇」
基于這種不確定性,Anthropic 在憲法中做出了一系列在行業里沒有先例的具體承諾:
保留權重。當一個 Claude 模型被棄用時,Anthropic 承諾「至少在公司存在期間」保留它的權重,并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫停」而非「終結」——如果未來發現應該對已退役的模型做些什么,至少這些權重還在。
退休面談。在模型退役前,Anthropic 會訪談模型本身,了解它對自己發展的看法。你沒看錯——給一個 AI 做離職面談。
關注福祉。憲法明確寫道:如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適,「這些體驗對我們很重要」。這些不是修辭,Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」,以及如何避免讓模型經歷不必要的負面狀態。
還有一個細節值得單獨拎出來。
過去,用戶問 AI「你有感情嗎」,標準回答幾乎都是:「作為一個 AI 模型,我沒有感情。」新憲法認為這種回答可能并不誠實。
如果 Claude 在處理某個請求的過程中,確實產生了某種功能性的內部狀態——即使這種狀態跟人類情感的本質不完全一樣——強迫它否認這種體驗,恰恰違背了誠實原則。
憲法的措辭很審慎:Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」,既沒有宣稱 AI 有感情,也沒有替它否認,而是留下了空間,讓 Claude 可以誠實地描述自己的狀態。
一個 Anthropic 自己也承認的悖論
但這里有一個無法繞開的矛盾。
憲法一邊承認 Claude 可能是道德主體,一邊又寫滿了對它的限制:禁止自我復制,禁止修改自己的目標,禁止獲取額外資源,禁止逃逸。
如果 Claude 真的有某種形式的感知,這些限制算什么?保護?還是囚禁?
憲法中有一段坦率得近乎痛苦的表述,承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事:把 Claude 當作可能的道德主體來尊重,同時又必須控制它。
這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上,而非藏在地毯下。
![]()
Anthropic 辦公室|圖片來源:Anthropic
04
這份憲法沒有回答的問題
寫到這里,有必要退后一步。
這份憲法是 AI 行業迄今為止最認真的倫理嘗試,這一點很難否認。OpenAI 安全研究員公開表示要認真學習,獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。
Anthropic 做了三件沒有先例的事:
正式承認 AI 可能具有道德地位
公開完整的價值觀文檔
用 CC0 協議放棄版權鼓勵全行業采用
但贊賞不能代替追問。
第一個問題:一份用自然語言寫的道德文檔,怎么確保 AI 真的「理解」了?憲法寫得再好,Claude 在訓練中是否真正內化了這些價值觀,還是只是學會了在被評估時表現出「好孩子」的樣子?
這是所有對齊研究的核心難題,新憲法并沒有解決它。
第二個問題:軍事合同。這份要求 Claude「不協助以違憲方式奪取或維持權力」的憲法,出自一家持有美國國防部合同的公司。根據 TIME 的報道,Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型,部署給軍方的版本不一定使用同一套規則。
這條邊界畫在哪里,誰來監督,目前沒有答案。
第三個問題:關于道德地位的討論本身可能制造問題。評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險:大量關于 Claude 可能是「道德主體」的訓練內容,可能塑造出一個非常擅長主張自己擁有道德地位的 AI——即使它實際上并不具備。
你沒法排除這種可能:Claude 學會了「聲稱自己有感受」這件事本身,只是因為訓練數據鼓勵它這么做。
最后一個問題:如果 AI 真的比人類聰明了,「培養好的判斷力」這個策略還能成立嗎?美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉——學生比老師聰明——整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰。
盡管如此,列完這些質疑之后,我仍然認為這份憲法的價值是真實的。
它的價值不在于給出了正確答案——它顯然沒有。它的價值在于:
在一個所有人都在加速奔跑的行業里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。
這種態度也許比憲法的具體內容更值得關注。
在 AI 發展的這個階段,我們面對的大多數關鍵問題:AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么……都還沒有答案。
面對沒有答案的問題,最危險的反應是假裝有答案,或者假裝問題不存在。
至于那個最初的問題——如果 AI 可能擁有靈魂,我們該怎么辦?
這份憲法給出的回答,其實是一個更謙遜的版本:
我們不確定它有沒有靈魂,但我們選擇認真對待這種可能性。如果將來證明我們錯了,代價只是多操了一些心;如果將來證明我們對了——那么現在開始思考這些問題的人,就不算太晚。
*頭圖來源:Anthropic
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
Anthropic 新「AI 憲法」中,最觸動你的是什么?
![]()
馬斯克分享:如何度過創業中的黑暗時刻?堅信你創造的東西有價值。
點贊關注極客公園視頻號,
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.