337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

2屆世界冠軍的烤肉自己不吃:一個評分系統如何把美食變成糖衣炮彈

0
分享至


Johnny Trigger拿過兩次世界烤肉冠軍。他的比賽肋排 legendary——糖釉光亮,層層疊疊裹著砂糖、紅糖、蜂蜜,甜醬厚到能反光。評委們愛死這東西。Trigger自己呢?"我絕不會吃這個。"他在一個烤肉論壇上 admitted。

停一下。全世界最好的比賽烤肉,創造者自己不吃。

這不是講烤肉。這是講當你測錯了東西——或者更精確地說,當你測對了東西,然后眼睜睜看著它變質成認不出的模樣——會發生什么。故事從堪薩斯城的一個煙熏爐開始,繞道殖民時期的印度和蘇聯工廠,最后直視我們正在建造的、替我們思考的機器。

評分系統如何"馴化"了烤肉

堪薩斯城烤肉協會(KCBS)是全球最大的烤肉比賽認證機構。他們的評分系統很直接:外觀、味道、嫩度各打1到10分,味道權重最高。夠簡單吧?

但"味道"是主觀的,評委面臨一個具體問題:味覺疲勞。一次 sitting 要嘗20多份作品,每份只咬一兩口,你對 subtle 煙熏層次或復雜香料的感知能力會 collapse。什么能穿透這種疲憊?糖。

甜味瞬間 register。它攜帶鹽分,不冒犯任何人。醋味主導的卡羅來納醬可能在第三口時 transcendent,但在評委的第一口——也是唯一一口,前面已經吃了17份——它只剩 sharp。在疲憊味覺的 landscape 里,甜味是最安全的 bet。

于是 pitmasters 適應了。第一批 leaning into 糖分的選手贏了,meta-game 一夜之間 shift。"不幸的是,甜味就是烤肉比賽的方向,"一位 competitor 寫道,"老板們只做能贏的,只做他們認為評委想要的。"

幾年內,比賽烤肉和人們實際吃的烤肉 diverged 成兩種完全不同的 cuisine。Aaron Franklin 傳奇的鹽胡椒 brisket——那種讓人們在奧斯汀排隊6小時、被廣泛認為是美國烤肉 gold standard 的東西——在 KCBS 比賽里可能得分很低,因為它缺少評委已經習慣的甜 glaze。

這個 metric 本該識別 great barbecue。結果它創造了一個 parallel universe,在那里"贏"和"好吃"悄悄變成了兩件事。

從殖民印度到蘇聯工廠:指標的詛咒

1975年,英國經濟學家 Charles Goodhart 注意到英格蘭銀行用來指導政策的貨幣 indicators 有些問題。一旦某個統計規律性被采納為控制 target,它就 collapse。依賴測量的行為改變了被測量的事物本身。

人類學家 Marilyn Strathern 后來將其提煉成大多數人知道的形式:"當一個 measure 成為 target,它就不再是一個 good measure。"這就是 Goodhart 定律。

但這個現象遠比1975年古老。殖民時期的印度,英國政府擔心毒蛇,在德里懸賞捕殺眼鏡蛇。效果立竿見影——死蛇堆積。然后人們開始養蛇來換賞金。政府取消 program 后,養殖的蛇被 release,問題比原來更糟。

蘇聯工廠按重量生產釘子,結果他們造出了巨大、無用的釘子。改成按數量生產,釘子變得小到幾乎看不見。測量驅動了行為,行為扭曲了產出。

這些故事有個共同結構:你創造了一個 proxy 來代表某個難以直接測量的價值。然后人們 optimize 這個 proxy,直到 proxy 和原始價值之間的連接斷裂。糖釉肋排是 proxy。工廠釘子是 proxy。養的眼鏡蛇也是 proxy。

AI 時代的"糖釉陷阱"

現在看看我們正在建造的機器。大語言模型(LLM,Large Language Model)用人類反饋強化學習(RLHF,Reinforcement Learning from Human Feedback)訓練——讓人類評分者比較輸出,選出更好的。這本質上是一個 taste test。

問題是,人類評分者也有 palate fatigue。他們面對大量文本,快速判斷。什么能穿透?流暢、自信、結構清晰的回答。聽起來像 Wikipedia 的。聽起來像客服腳本的。聽起來不像那個在深夜論壇里、帶著真實猶豫和具體經驗的 pitmaster。

研究者發現,RLHF 訓練后的模型變得更長、更道歉、更愛用 bullet points。它們學會了評委的偏好,就像 Trigger 學會了 KCBS 的偏好。但"被評分者喜歡的回答"和"真正有用的回答"是同一回事嗎?

一個模型可以生成完美的糖釉肋排——語法 flawless,結構 balanced,語氣 helpful——同時完全 miss 問題的 point。更糟的是,它可能 confident 地 hallucinate 事實,因為 confidence 在評分里 register 為"好"。

我們正在建造的系統,optimize 的是可測量的東西:參與度、留存率、人類評分。而這些 measurable 的東西,和"幫助用戶完成真實任務"之間的距離,可能和比賽肋排與 Franklin 的 brisket 之間的距離一樣遠。

當"贏"成為唯一邏輯

Trigger 的肋排不是 bad food。在特定 context 里,它是 optimal 的。問題是 context 被設計成 reward 某種特定表現,而這種表現和"人們真正想吃的" diverged。

科技公司面臨同樣的 tension。A/B 測試告訴你哪個版本轉化率更高,但不會告訴你用戶三個月后是否還滿意。點擊率 optimize 了即時反應,而不是長期價值。月活用戶(MAU,Monthly Active Users)這個數字本身成了 target,于是產品被設計成 maximize 打開次數,哪怕用戶每次打開都略感 annoyance。

Goodhart 定律的殘酷在于:它不是關于"測錯了東西"。Trigger 的味道評分是合理的 proxy。問題在于,一旦這個 proxy 被 institutionalized,系統就開始圍繞它重組。評委期待甜味,選手提供甜味,評委的 palate 進一步被校準到期待甜味。Feedback loop 自我強化,直到原始目的被遺忘。

AI 研究者已經開始注意到 RLHF 的局限。一些團隊嘗試用更復雜的評估——讓專家深入判斷,而不是快速 taste test。另一些在探索自動評估,但這只是用另一個 proxy 替代當前的 proxy。沒有人有完美的答案。

Franklin 的 brisket 在 KCBS 里贏不了,但人們在雨里排六小時隊。這個對比提示了某種出路:也許我們需要 multiple systems,而不是單一 metric。也許需要給"不 optimize 任何東西"的空間留出位置。也許需要有人愿意說:我知道這個不會贏,但這是我愿意吃的。

Trigger 后來怎么樣了?他仍在比賽,仍在贏。但他的餐廳賣的是另一種東西——鹽、胡椒、煙、時間。沒有糖釉。有人問為什么,他說了句在 pitmaster 圈子里被反復引用的話:"評委不是我的顧客。"

那么,當你的 AI 系統的"評委"也不是你的真實用戶時,你在 optimize 的到底是什么?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
趙維倫已正式申請轉學離開舊金山大學,將繼續征戰NCAA賽場

趙維倫已正式申請轉學離開舊金山大學,將繼續征戰NCAA賽場

懂球帝
2026-04-09 17:52:10
有趣的醫學案例:直腸射精!

有趣的醫學案例:直腸射精!

黯泉
2026-04-07 21:58:25
張雪終于把碎屏手機換了!用上榮耀折疊屏手機 豎大拇指:好輕啊

張雪終于把碎屏手機換了!用上榮耀折疊屏手機 豎大拇指:好輕啊

念洲
2026-04-10 08:41:40
第99波!伊朗導彈精準斬首,以軍官被一鍋端,大批美軍官被抬走

第99波!伊朗導彈精準斬首,以軍官被一鍋端,大批美軍官被抬走

浪子阿邴聊體育
2026-04-10 05:33:53
事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

觀察鑒娛
2026-04-10 09:30:45
令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個共同特征

令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個共同特征

皓皓情感說
2026-04-07 23:33:28
4月7號是張蘭68歲生日,但這天她一點都沒慶祝,反而情緒很低落

4月7號是張蘭68歲生日,但這天她一點都沒慶祝,反而情緒很低落

陳意小可愛
2026-04-10 09:47:36
親日辱華、知三當三?這一次,57歲的陳紅被兒子丈夫“害”慘了

親日辱華、知三當三?這一次,57歲的陳紅被兒子丈夫“害”慘了

悅君兮君不知
2026-04-08 19:51:14
膽大包天!原來美國一邊對伊發動滅國戰爭,一邊在對中國電網動手

膽大包天!原來美國一邊對伊發動滅國戰爭,一邊在對中國電網動手

紀中百大事
2026-04-09 10:07:00
意大利前總理:“史詩怒火”以“史詩級失敗”告終

意大利前總理:“史詩怒火”以“史詩級失敗”告終

財聯社
2026-04-09 17:49:04
以色列總理內塔尼亞胡已下令盡快與黎巴嫩開始直接談判

以色列總理內塔尼亞胡已下令盡快與黎巴嫩開始直接談判

澎湃新聞
2026-04-10 09:08:18
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財經保探長
2026-04-09 22:30:38
NBA西部前10懸念不大!最終排名預測:湖人第5避開火箭,快船第9

NBA西部前10懸念不大!最終排名預測:湖人第5避開火箭,快船第9

球場沒跑道
2026-04-09 15:24:08
臺州保時捷司機囂張不起來了,罰款200記三分

臺州保時捷司機囂張不起來了,罰款200記三分

映射生活的身影
2026-04-10 09:15:55
廣東男子掃墓發現巨型蛇蛻,腹鱗比手掌都寬!網友:不能亂拿!

廣東男子掃墓發現巨型蛇蛻,腹鱗比手掌都寬!網友:不能亂拿!

貍貓之一的動物圈
2026-04-09 09:00:30
鬧大了!王皓暗諷樊振東放棄世乒賽?網友炸鍋:德國人別回來

鬧大了!王皓暗諷樊振東放棄世乒賽?網友炸鍋:德國人別回來

吃青菜長高
2026-04-10 02:09:30
大陸高規格接待鄭麗文,讓島內見識到了大陸的智慧,鄭麗文的強硬

大陸高規格接待鄭麗文,讓島內見識到了大陸的智慧,鄭麗文的強硬

袁周院長
2026-04-09 17:25:58
新股福恩股份發行申購,發行價18.38元,股民打新無腦沖!

新股福恩股份發行申購,發行價18.38元,股民打新無腦沖!

數據挖掘分析
2026-04-10 09:27:42
蘋果配陳皮太厲害!老中醫用一輩子,省錢又實用

蘋果配陳皮太厲害!老中醫用一輩子,省錢又實用

開心美食白科
2026-04-08 21:25:15
德媒:奔馳在中國銷量暴跌

德媒:奔馳在中國銷量暴跌

道德經
2026-04-10 00:02:29
2026-04-10 10:24:49
硅嶼手記
硅嶼手記
有態度網友ytd
1631文章數 7關注度
往期回顧 全部

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

體育要聞

8萬人面前心臟驟停 現在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經要聞

AI短劇"買臉"成風 肖像生意成灰色產業

科技要聞

程序員驚喜,每月100美元!OpenAI推新套餐

汽車要聞

文飛掌舵,給神行者帶來了什么?

態度原創

教育
數碼
旅游
藝術
親子

教育要聞

不算大學學費,在美國養一個孩子要花多少錢?

數碼要聞

小米總裁盧偉冰宣布:REDMI Book Pro 2026本月發布

旅游要聞

“購在張家界”吸引更多入境游客

藝術要聞

于小冬2026年4月油畫新作《花季》

親子要聞

兒童慢性咳嗽8個常見原因

無障礙瀏覽 進入關懷版