337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

悶聲賺錢的 RL 生意:每個任務,200-20000 美元

0
分享至

2025 年 9 月,The Information 報道 Anthropic 曾討論在接下來一年內投入超過 10 億美元用于 RL 環境建設


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

10 億美元,只買一樣東西:讓模型「練習」的場地和題目

Epoch AI 最近發了一篇報告,采訪了 18 位來自 RL 環境初創公司、neolab(Cursor 這類應用型 AI 公司)和前沿實驗室的從業者


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

通過這份報告,讓我們看一下這個正在快速成長的隱秘市場

為什么 RL 環境突然重要了

o1 證明了一件事:在有明確答案的任務上做強化學習,能顯著提升模型的推理能力

Andrej Karpathy 在 2025 年度總結里說:通過在大量可驗證任務和不同環境上訓練大模型,大模型會自發涌現出在人類看來像是推理的策略


各家實驗室現在瘋狂擴展訓練任務的類型和數量,同時持續加大 RL 訓練的算力投入

但問題來了,沒有多樣化、高質量的環境和任務,盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓練期間每個任務大約消耗 2400 美元的算力。如果任務質量不行,這些算力就浪費了

創建高質量的環境和任務,已經成為擴展模型能力的關鍵瓶頸

什么是 RL 環境

對于 RL 環境,這里有三個組件:環境任務評分器

環境
模型可以執行動作的沙盒。可能是一個 Docker 容器里跑著的代碼倉庫,可能是一個模擬的網站,可能是一個 Excel 克隆。定義了模型能做什么(寫代碼、點按鈕、搜文檔)以及這些動作會產生什么效果

任務
一個具體的目標。比如「修復這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數據做個數據透視表」

評分器
判斷模型做得對不對、好不好。可以是單元測試,可以是另一個大模型按標準打分

三者組合起來,模型反復嘗試任務,評分器給反饋,模型根據反饋調整策略


RL 環境示意

幾個具體的例子:

Git 倉庫環境:任務是修復 bug 使單元測試通過,類似 SWE-bench。評分器運行測試,檢查是否通過


Airbnb 克隆環境:任務是在指定城市和日期找最便宜的兩居室。環境是帶有真實房源、價格和篩選器的模擬網站。評分器驗證最終答案是否正確


Bloomberg 終端克隆環境:任務是查找一批公司的 5 年復合年增長率。評分器檢查返回的數字是否正確


Excel 克隆環境:任務是根據原始數據創建數據透視表。評分器將輸出與參考答案對比


對于 Excel 這類電腦操作環境,單個環境可能支持數百個不同任務。對于編程環境,更常見的是每個環境只包含一個任務,因為設置倉庫狀態相對便宜

誰在做,多少錢

四類玩家:

專業初創公司
專注于構建 RL 環境,覆蓋軟件工程、電腦操作、數學、金融等領域。Chris Barber 整理了一份名單:pavlovslist.com

傳統數據供應商
Mercor、Surge、Handshake、Turing 這些過去主要提供人工標注數據的公司,現在也開始賣 RL 環境。一位創始人說,主要價值是「他們有人」:如果需要快速擴大任務創建規模,他們能比自己招人更快地配置項目

實驗室內部團隊
xAI、Anthropic 都在招 RL 環境相關崗位。Cursor 這類 neolab 可以利用用戶數據來構建訓練任務。一位創始人指出,最近「內部化的趨勢明顯增加」

產品公司
Salesforce、Slack 這類公司比任何人都更了解自己產品的界面和邊界情況。我們正在看到實驗室與產品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景


成本方面:

合同規模通常是每季度六到七位數。一位創始人說合同經常是每季度七位數或更多

環境成本取決于保真度。SemiAnalysis 報道網站復刻品(UI 健身房)每個約 2 萬美元。但像 Slack 這樣復雜產品的高質量復刻可能要 30 萬美元

任務成本多位受訪者認同每個 2002000 美元的范圍。特別復雜的軟件工程任務可能到 2 萬美元,但很少見

獨占權顯著影響定價。兩位創始人獨立表示,獨家交易大約是非獨家的 45


整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發算力支出預計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環境,相比算力支出仍然是零頭

領域演變

最早是數學和編程

數學任務容易產出,不需要構建復雜環境,只需要有可驗證答案的任務。但一位創始人觀察到,數學任務容易創建,遷移到其他能力的效果不太好。一位受訪者說「數學可能在萎縮」

編程仍是主要需求來源

而且正在超越 SWE-bench 風格的任務。一位創始人說:「我看到代碼環境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務,轉向更加產品化。軟件工程師實際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」


主要增長領域是企業工作流

提交費用報告、在電子表格中創建數據透視表、根據簡報生成幻燈片、在 CRM 中更新客戶記錄

一位創始人說:「我認為企業工作流今年會爆發。實驗室非常看重有價值且可量化的東西,企業工作流正好符合這兩點」

環境形式多樣:MCP 風格的工具集成、Playwright 風格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應用的克隆

一位實驗室研究員警告:「使用網站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網站,這沒什么用。存在大量沒用的爛環境」

兩個領域都在往長時間跨度任務發展。一位創始人說:「長時間跨度是未來方向。讓智能體執行完整的端到端任務,涉及在多個標簽頁、瀏覽器之間導航,然后提交涉及多跳步驟的東西」

什么才是好的 RL 環境

獎勵黑客是頭號顧慮

受訪者一致認為,防止獎勵黑客(reward hacking)是最重要的質量標準


一位 neolab 研究員說:「獎勵黑客是個大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時不小心,它可能會檢出未來的 commit。必須要魯棒。這是底線」

另一位說:「可靠性最重要:高獎勵必須意味著任務確實被解決了,而不是被黑掉了」

創建魯棒的評分器很少能一次成功。一位創始人說:「需要很多很多次迭代來檢查獎勵黑客」

難度校準

任務需要有挑戰性但不能不可能完成。如果通過率是 0%100%,模型就學不到東西


多位受訪者提到希望最低通過率在 2%3%,或者在 64128 次嘗試中至少成功一次

整體分布也很重要。一位研究員說:「RL 環境的一個非常重要的特性是平滑的梯度:任務難度的多樣性」。可能需要混合搭配:一些任務 0%,一些 5%,一些 30%。訓練一段時間后,0% 的任務變得可學習。一旦任務達到約 70% 的通過率,可能會丟棄它轉向更難的任務

保質擴量是核心瓶頸

一位創始人說:「保質擴量是大家看到的頭號瓶頸。找到專家并不難,但管理他們和做質量控制很難」

一位 neolab 研究員說:「不容易找到人來監督這個數據構建、RL 環境構建的過程。承包商,你需要激勵他們。當然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗證過的?激勵承包商和做質量控制是苦活」


一位創始人說,他們增加收入的限制因素就是在保持質量的前提下擴大任務創建的難度

需要什么技能

構建環境主要是工程技能。創建好的任務需要不同的東西

一位創始人說:「領域知識和專家級的提示詞能力比 ML 技能對創建任務更重要」

一位研究員補充說產品感覺也很重要:「你需要知道人們實際上是怎么使用這些工具的」

一位研究員說:「你不一定需要是 AI 研究員,但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」

另一位簡單總結:「最擅長這個的人可能是那些創建了真正被使用的基準測試的人」

最后

RL 環境已經從一個技術細節,變成了前沿 AI 訓練的關鍵一環

目前來看,這個領域還在快速變化,一年后的情況可能會大不相同

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗稱成功打擊以色列及美國海軍第五艦隊目標

伊朗稱成功打擊以色列及美國海軍第五艦隊目標

財聯社
2026-03-21 23:48:05
前員工發帖吐槽海底撈工作制度,疑遭四川簡陽警方跨省要求配合核查

前員工發帖吐槽海底撈工作制度,疑遭四川簡陽警方跨省要求配合核查

大風新聞
2026-03-20 17:01:11
克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

明星私服穿搭daily
2026-03-21 11:50:06
“伊朗沖突后,中國電動汽車在亞太賣爆”

“伊朗沖突后,中國電動汽車在亞太賣爆”

觀察者網
2026-03-20 12:29:03
一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

火山詩話
2026-03-20 15:19:13
離那些張口閉口不離宏大敘事的人遠點

離那些張口閉口不離宏大敘事的人遠點

廖保平
2026-03-20 10:14:56
為什么國家衛健委不建立一個統一電子病歷系統?網友回答真相了!

為什么國家衛健委不建立一個統一電子病歷系統?網友回答真相了!

另子維愛讀史
2026-03-20 19:19:48
硬漢!方鏡淇手指錯位經包扎后復位,復位后連做關鍵撲救

硬漢!方鏡淇手指錯位經包扎后復位,復位后連做關鍵撲救

懂球帝
2026-03-21 20:10:08
明十三陵被挖后,怪異之事接連不斷的發生,至今都無法合理地解釋

明十三陵被挖后,怪異之事接連不斷的發生,至今都無法合理地解釋

歷史甄有趣
2026-03-19 16:55:08
狂賺18億!比愛馬仕還狠的運動奢侈品,正在掏空中產的錢包

狂賺18億!比愛馬仕還狠的運動奢侈品,正在掏空中產的錢包

青眼財經
2026-03-17 16:03:09
臘肉先泡水還是先煮?10年大廚:第1步錯了,難怪臘肉又咸又硬!

臘肉先泡水還是先煮?10年大廚:第1步錯了,難怪臘肉又咸又硬!

思思夜話
2026-03-18 12:11:32
杜蘭特只差26分超喬丹!本人回應:我想像MJ那樣讓防守者心生恐懼

杜蘭特只差26分超喬丹!本人回應:我想像MJ那樣讓防守者心生恐懼

羅說NBA
2026-03-21 21:30:36
沒想到!寧波市一棟別墅降價第二次拍賣,被人145萬競得

沒想到!寧波市一棟別墅降價第二次拍賣,被人145萬競得

說故事的阿襲
2026-03-21 17:58:05
你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
狂飆9記三分轟60分6助!男籃雙后衛殺紅眼:趙睿砍34分斬殺遼籃

狂飆9記三分轟60分6助!男籃雙后衛殺紅眼:趙睿砍34分斬殺遼籃

籃球快餐車
2026-03-22 00:02:16
伊朗無人機指揮官被斬首,美國曾懸賞1000萬美元的人物

伊朗無人機指揮官被斬首,美國曾懸賞1000萬美元的人物

桂系007
2026-03-21 22:34:18
南航一客機起飛后遭鳥擊返航上海,機頭雷達罩疑受損嚴重

南航一客機起飛后遭鳥擊返航上海,機頭雷達罩疑受損嚴重

新京報
2026-03-21 17:53:16
他接受紀律審查和監察調查

他接受紀律審查和監察調查

錫望
2026-03-21 22:23:21
你干過最舒服的工作是啥?網友:姐,你們公司還招人嗎

你干過最舒服的工作是啥?網友:姐,你們公司還招人嗎

帶你感受人間冷暖
2026-03-19 22:37:39
被斬首的那些人,手上滿是人民的鮮血

被斬首的那些人,手上滿是人民的鮮血

黔有虎
2026-03-21 22:00:55
2026-03-22 00:39:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數 49關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

藝術
時尚
親子
旅游
教育

藝術要聞

斯托揚畫作:她們的眼神能勾動你的心!

這個趨勢好適合亞洲人!不用花大錢也能跟

親子要聞

寶媽必學,讓孩子警惕這種視覺和言語侵犯!

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

教育要聞

高考地理中的湖岸沉積

無障礙瀏覽 進入關懷版