![]()
Johnny Trigger拿過兩次世界烤肉冠軍。他的比賽肋排 legendary——糖釉光亮,層層疊疊裹著砂糖、紅糖、蜂蜜,甜醬厚到能反光。評委們愛死這東西。Trigger自己呢?"我絕不會吃這個。"他在一個烤肉論壇上 admitted。
停一下。全世界最好的比賽烤肉,創造者自己不吃。
這不是講烤肉。這是講當你測錯了東西——或者更精確地說,當你測對了東西,然后眼睜睜看著它變質成認不出的模樣——會發生什么。故事從堪薩斯城的一個煙熏爐開始,繞道殖民時期的印度和蘇聯工廠,最后直視我們正在建造的、替我們思考的機器。
評分系統如何"馴化"了烤肉
堪薩斯城烤肉協會(KCBS)是全球最大的烤肉比賽認證機構。他們的評分系統很直接:外觀、味道、嫩度各打1到10分,味道權重最高。夠簡單吧?
但"味道"是主觀的,評委面臨一個具體問題:味覺疲勞。一次 sitting 要嘗20多份作品,每份只咬一兩口,你對 subtle 煙熏層次或復雜香料的感知能力會 collapse。什么能穿透這種疲憊?糖。
甜味瞬間 register。它攜帶鹽分,不冒犯任何人。醋味主導的卡羅來納醬可能在第三口時 transcendent,但在評委的第一口——也是唯一一口,前面已經吃了17份——它只剩 sharp。在疲憊味覺的 landscape 里,甜味是最安全的 bet。
于是 pitmasters 適應了。第一批 leaning into 糖分的選手贏了,meta-game 一夜之間 shift。"不幸的是,甜味就是烤肉比賽的方向,"一位 competitor 寫道,"老板們只做能贏的,只做他們認為評委想要的。"
幾年內,比賽烤肉和人們實際吃的烤肉 diverged 成兩種完全不同的 cuisine。Aaron Franklin 傳奇的鹽胡椒 brisket——那種讓人們在奧斯汀排隊6小時、被廣泛認為是美國烤肉 gold standard 的東西——在 KCBS 比賽里可能得分很低,因為它缺少評委已經習慣的甜 glaze。
這個 metric 本該識別 great barbecue。結果它創造了一個 parallel universe,在那里"贏"和"好吃"悄悄變成了兩件事。
從殖民印度到蘇聯工廠:指標的詛咒
1975年,英國經濟學家 Charles Goodhart 注意到英格蘭銀行用來指導政策的貨幣 indicators 有些問題。一旦某個統計規律性被采納為控制 target,它就 collapse。依賴測量的行為改變了被測量的事物本身。
人類學家 Marilyn Strathern 后來將其提煉成大多數人知道的形式:"當一個 measure 成為 target,它就不再是一個 good measure。"這就是 Goodhart 定律。
但這個現象遠比1975年古老。殖民時期的印度,英國政府擔心毒蛇,在德里懸賞捕殺眼鏡蛇。效果立竿見影——死蛇堆積。然后人們開始養蛇來換賞金。政府取消 program 后,養殖的蛇被 release,問題比原來更糟。
蘇聯工廠按重量生產釘子,結果他們造出了巨大、無用的釘子。改成按數量生產,釘子變得小到幾乎看不見。測量驅動了行為,行為扭曲了產出。
這些故事有個共同結構:你創造了一個 proxy 來代表某個難以直接測量的價值。然后人們 optimize 這個 proxy,直到 proxy 和原始價值之間的連接斷裂。糖釉肋排是 proxy。工廠釘子是 proxy。養的眼鏡蛇也是 proxy。
AI 時代的"糖釉陷阱"
現在看看我們正在建造的機器。大語言模型(LLM,Large Language Model)用人類反饋強化學習(RLHF,Reinforcement Learning from Human Feedback)訓練——讓人類評分者比較輸出,選出更好的。這本質上是一個 taste test。
問題是,人類評分者也有 palate fatigue。他們面對大量文本,快速判斷。什么能穿透?流暢、自信、結構清晰的回答。聽起來像 Wikipedia 的。聽起來像客服腳本的。聽起來不像那個在深夜論壇里、帶著真實猶豫和具體經驗的 pitmaster。
研究者發現,RLHF 訓練后的模型變得更長、更道歉、更愛用 bullet points。它們學會了評委的偏好,就像 Trigger 學會了 KCBS 的偏好。但"被評分者喜歡的回答"和"真正有用的回答"是同一回事嗎?
一個模型可以生成完美的糖釉肋排——語法 flawless,結構 balanced,語氣 helpful——同時完全 miss 問題的 point。更糟的是,它可能 confident 地 hallucinate 事實,因為 confidence 在評分里 register 為"好"。
我們正在建造的系統,optimize 的是可測量的東西:參與度、留存率、人類評分。而這些 measurable 的東西,和"幫助用戶完成真實任務"之間的距離,可能和比賽肋排與 Franklin 的 brisket 之間的距離一樣遠。
當"贏"成為唯一邏輯
Trigger 的肋排不是 bad food。在特定 context 里,它是 optimal 的。問題是 context 被設計成 reward 某種特定表現,而這種表現和"人們真正想吃的" diverged。
科技公司面臨同樣的 tension。A/B 測試告訴你哪個版本轉化率更高,但不會告訴你用戶三個月后是否還滿意。點擊率 optimize 了即時反應,而不是長期價值。月活用戶(MAU,Monthly Active Users)這個數字本身成了 target,于是產品被設計成 maximize 打開次數,哪怕用戶每次打開都略感 annoyance。
Goodhart 定律的殘酷在于:它不是關于"測錯了東西"。Trigger 的味道評分是合理的 proxy。問題在于,一旦這個 proxy 被 institutionalized,系統就開始圍繞它重組。評委期待甜味,選手提供甜味,評委的 palate 進一步被校準到期待甜味。Feedback loop 自我強化,直到原始目的被遺忘。
AI 研究者已經開始注意到 RLHF 的局限。一些團隊嘗試用更復雜的評估——讓專家深入判斷,而不是快速 taste test。另一些在探索自動評估,但這只是用另一個 proxy 替代當前的 proxy。沒有人有完美的答案。
Franklin 的 brisket 在 KCBS 里贏不了,但人們在雨里排六小時隊。這個對比提示了某種出路:也許我們需要 multiple systems,而不是單一 metric。也許需要給"不 optimize 任何東西"的空間留出位置。也許需要有人愿意說:我知道這個不會贏,但這是我愿意吃的。
Trigger 后來怎么樣了?他仍在比賽,仍在贏。但他的餐廳賣的是另一種東西——鹽、胡椒、煙、時間。沒有糖釉。有人問為什么,他說了句在 pitmaster 圈子里被反復引用的話:"評委不是我的顧客。"
那么,當你的 AI 系統的"評委"也不是你的真實用戶時,你在 optimize 的到底是什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.