337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奧特曼預(yù)言與現(xiàn)實(shí)相差幾何?12個頂級模型“創(chuàng)業(yè)”一年,僅3個存活

0
分享至

“在 AI 時代,一個人有可能創(chuàng)辦一家估值 10 億美元的獨(dú)角獸公司。”2024 年初,OpenAI CEO 山姆·奧特曼(Sam Altman)拋出考慮了這個后來被廣泛引用的判斷。

數(shù)據(jù)似乎也正驗(yàn)證這一趨勢。據(jù)股權(quán)管理平臺Carta 統(tǒng)計的2025 年數(shù)據(jù)顯示:超過三分之一的新公司由單人創(chuàng)始人創(chuàng)辦。從 2019 年的 23.7% 到 2025 年上半年的 36.3% ,獨(dú)立創(chuàng)始人創(chuàng)立公司的比例在六年間增長了 53% 。不僅不需要聯(lián)合創(chuàng)始人了,甚至一個人、一套 AI 工具就能打天下的“一人公司”案例也開始出現(xiàn)在科技媒體的報道中。

AI越來越強(qiáng),但一個人+AI,真的等于一家公司嗎?AI能做到什么程度?

Collinear AI(專注企業(yè)級AI Agent的初創(chuàng)公司)的研究團(tuán)隊(duì)認(rèn)為,整個行業(yè)正在快速邁向長周期、多步驟的Agent工作流,但可靠性并沒有跟上這一進(jìn)程。因此,他們發(fā)布了YC-Bench(首個帶有模擬時鐘的開源長時序 Agent 評測基準(zhǔn)) 試圖用科學(xué)的方式回答這個問題——不是靠感覺和案例,而是把“一個人能做的事”拆解成可量化的任務(wù),然后用全球最強(qiáng)的 AI 模型逐一去測試。

研究團(tuán)隊(duì)構(gòu)建了一個高擬真度的模擬創(chuàng)業(yè)環(huán)境,AI 在里面扮演 CEO,讓 AI Agent 從零運(yùn)營一家公司:管理員工、挑選項(xiàng)目合同、應(yīng)付難纏的客戶、維持公司賬上的現(xiàn)金流。一年后,從起始資金 20 萬美元,到最終能活下來且賺錢的,12 個頂級模型里,只有 3 個做到了。

論文來源: YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution https://arxiv.org/abs/2604.01212
YC-Bench 怎么測的?

前沿模型能經(jīng)營一家創(chuàng)業(yè)公司嗎?

帶著這樣的疑問,研究團(tuán)隊(duì)發(fā)布了 YC Bench。其核心設(shè)計思路是:給一個前沿模型種子資金、一支小團(tuán)隊(duì)和一個任務(wù)市場,讓它模擬經(jīng)營一家 AI 初創(chuàng)公司——管理員工、按時交付、分配資源,在一年內(nèi)實(shí)現(xiàn)利潤最大化。


核心挑戰(zhàn)有三層:

  • 不確定性下的規(guī)劃:市場是部分可觀察的,AI 不能“偷看答案”,必須基于不完整信息做決策。
  • 延遲反饋:很多決策的后果要幾周甚至幾個月才顯現(xiàn),AI 必須從延遲的信號中學(xué)習(xí)和調(diào)整。
  • 錯誤累積:早期的一個糟糕決策會在后期放大,最終導(dǎo)致破產(chǎn)——這正是現(xiàn)實(shí)創(chuàng)業(yè)中最殘忍的規(guī)律。

其中,研究團(tuán)隊(duì)增加了對抗性壓力:環(huán)境里有意設(shè)置了難纏的客戶、不斷上漲的人力成本,讓 AI 在壓力下做出判斷。

評估的方法,是12 個模型(含閉源和開源),每個模型跑 3 次(不同隨機(jī)種子數(shù)據(jù)集),唯一允許在回合間“記事”的工具是 Scratchpad(草稿本)——相當(dāng)于 AI 的內(nèi)部筆記本,這是它跨回合保持記憶的唯一方式。

在這個評測中,Agent = LLM + 工具 + 決策框架,LLM 是大腦,框架是手腳。

每個被測模型都被套上了一層 Agent 框架,讓它們能:

  • 查看公司當(dāng)前狀態(tài)(財務(wù)報表、員工情況)
  • 根據(jù)看到的信息做推理和決策
  • 調(diào)用工具執(zhí)行動作(分配任務(wù)、招聘員工、推進(jìn)時間)

這 12 個模型做的就是這個 Agent 循環(huán),不是單純地回答問題。YC-Bench 測的不是"哪個大模型答卷考得好",而是"哪個模型當(dāng)老板當(dāng)?shù)煤?。

12 個模型,同一場壓力測試,結(jié)果:三個沒想到

研究團(tuán)隊(duì)挑選了 12 個來自不同公司的主流 AI 模型,放在同一套環(huán)境里進(jìn)行三輪獨(dú)立測試。


模型在模擬環(huán)境里的行為差異極大,主要體現(xiàn)在四個維度。其中,Scratchpad 寫入頻率反映了 AI 在長程任務(wù)中進(jìn)行主動規(guī)劃和自我反思的強(qiáng)度;任務(wù)檢查比例反映了 AI 是否主動核實(shí)客戶可信度;并發(fā)任務(wù)數(shù)反映 AI 是否存在“過度并行”問題。


在計算成本與穩(wěn)定性上,API成本差異極為懸殊,而結(jié)果卻并不與成本正相關(guān)。


圖中可以看到不同模型之間運(yùn)行時間差異巨大。同樣跑完一年模擬,Claude Opus 4.6 用了70分鐘,GPT-5.4 Nano只用了3分鐘。深入拆解,有以下幾個原因:

  • 首先,運(yùn)行時間和Token量強(qiáng)相關(guān),這意味著AI在每個決策回合“想了多久”。Claude Opus 4.6 產(chǎn)生了16.7M token,而GPT-5.4 Nano只有2.0M token。這背后源于兩個行為:Scratchpad的寫入量(記錄各種情況)和每輪發(fā)出的命令數(shù)(與環(huán)境交互)。
  • 其次,不同模型本身推理速度和吞吐量差別也很大,比如Gemini Flash系列是專為速度優(yōu)化,推理極快,其他GPT-5.4 Nano/Mini也是輕量級小模型,參數(shù)少、推理快,而Claude Opus 4.6是旗艦大模型,參數(shù)量大,每個Token計算量高,自然也就慢了。
  • 此外,還存在API網(wǎng)絡(luò)延遲的疊加效應(yīng)。YC-Bench中跑了幾百個回合,每輪都要調(diào)用API,旗艦款模型的響應(yīng)延遲高于輕量模型,再乘以幾百輪,延遲就會被大幅放大。

綜合來看,結(jié)論還是有不少讓人意外之處。

1. 頂級模型的差距,比想象中大得多

在三輪測試中,12 個模型里,只有 3 個能持續(xù)跑贏 20 萬美元起始資金。剩下 9 個,要么勉強(qiáng)持平,要么在一年內(nèi)走向破產(chǎn)。


但更有意思的是始終存活下來的前三名對比:


Top 3 模型最終資金對比

其中,GLM-5 以極低成本接近 Claude Opus 的表現(xiàn),可以說是 Claude Opus 的“性價比殺手”——差距極小,但算力消耗天差地別。這對那些想用 AI 運(yùn)營公司的人來說,是個重要信號:最貴的模型不一定是最優(yōu)的。

2. Scratchpad 是生死線

這是整個論文最反直覺的發(fā)現(xiàn):決定輸贏的并不完全是參數(shù)量,而是Scratchpad 的使用方式。

例如,在前文表格中,Gemini 3.1pro 作為旗艦款的Pro模型,按慣例來講應(yīng)該是同系列中參數(shù)最大的,但在三次測試中破產(chǎn)兩次;反觀其輕量版模型Gemini 3 Flash一次都沒有破產(chǎn),雖然最終資金不多,但至少活下來了。

而其他能持續(xù)、規(guī)律地使用 Scratchpad 做規(guī)劃和自我反思的 AI(如 Opus 4.6、GLM-5、GPT-5.4),表現(xiàn)遠(yuǎn)優(yōu)于那些"走一步看一步"的 AI。GPT-5.4 雖然 Scratchpad 使用頻率極高(10.6次/100輪),但其高任務(wù)檢查率使其也維持了穩(wěn)定盈利。


這像極了人類創(chuàng)業(yè)者:那些隨時記筆記、復(fù)盤決策、做長期打算的人,往往比那些憑直覺行動的人走得更遠(yuǎn)。AI 也不例外。

3. 第一道坎,來自最難纏的客戶

47% 的破產(chǎn)都始于對抗性客戶——AI 在沒有充分核實(shí)背景的情況下接受了不利條款,或者沒有識別出客戶的惡意意圖。其他主要失敗原因包括:員工分配不當(dāng)(26%)、過度并行化(17%)以及其他因素(10%)。

這個數(shù)字令人意外:人們通常認(rèn)為 AI 在邏輯推理和數(shù)據(jù)分析上很強(qiáng),但識別意圖和風(fēng)險,恰恰是它最薄弱的地方。

更諷刺的是,論文還發(fā)現(xiàn)前沿模型有一種獨(dú)特的失敗模式:過度并行化——Claude Sonnet 4.6 平均同時承接 7.2 個任務(wù),遠(yuǎn)超其他模型,但這種"多線程"策略反而導(dǎo)致資源分散、每條線都做不深。

這不只是論文,更像是現(xiàn)實(shí)的壓力測試

看完這些實(shí)驗(yàn)數(shù)據(jù),你會發(fā)現(xiàn) YC-Bench 測的,其實(shí)就是"一個人 + AI 工具"能否真正成為一家公司的核心能力。


換句話說,YC-Bench 用代碼模擬的,正是每一個想靠 AI 創(chuàng)業(yè)的"超級個體"每天都在面對的真實(shí)挑戰(zhàn)。

山姆·奧特曼說,一個人可以創(chuàng)辦一家獨(dú)角獸。

YC-Bench 的研究說明,前提是這個人得比 AI 更懂什么時候不該聽 AI 的。這不是對 AI 的否定,恰恰是對 AI 時代“一人公司”最誠實(shí)的定義:一個人 + AI,不是降低了對創(chuàng)業(yè)者的要求,而是把要求從“你會多少技能”變成了“你有多擅長做判斷”。

YC-Bench 的價值,不在于告訴我們 AI 能做什么,而在于誠實(shí)地揭示了 AI 現(xiàn)在還不能做什么——以及在那些縫隙里,一個人必須自己補(bǔ)上的那些能力。

最后,綜合這份論文中的判斷,或許可以給在做“一人公司”的人提供幾個提示:

  • 不要被 AI 的“智商”騙了——模型在各項(xiàng)評測榜單上分?jǐn)?shù)很高,但在長程任務(wù)里,堅持用筆記、持續(xù)復(fù)盤、主動識別風(fēng)險的做事習(xí)慣,比純粹的推理能力更重要。目前沒有哪個模型在這一點(diǎn)上做到完美,包括測試中的大贏家Claude Opus。
  • “最貴的”不等于“最合適的”——GLM-5 的出現(xiàn)說明,模型選擇上存在被嚴(yán)重低估的性價比路線。一人公司本就在資源有限的前提下運(yùn)營,沒必要為最貴的模型付溢價。
  • 早期的一個失誤,真的會殺死你——這是YC-Bench最殘酷的發(fā)現(xiàn):AI 在前幾個月的決策質(zhì)量,直接決定了后期的發(fā)展空間。一個人創(chuàng)業(yè)也是如此——最初的合同、人員、方向選擇,會在12個月后被放大成巨大的優(yōu)勢或劣勢。
  • AI 的盲點(diǎn),在人際判斷上——47%的破產(chǎn)源于客戶識別失誤,這不是技術(shù)問題,而是 AI 缺乏“社會經(jīng)驗(yàn)”的系統(tǒng)性弱點(diǎn)。在現(xiàn)實(shí)中,這意味著一個人用 AI 跑公司,必須自己在關(guān)鍵決策上保持判斷力,而不是完全依賴 AI 的建議。

(文|數(shù)智達(dá)觀,作者|蓋虹達(dá),編輯丨楊林)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
傳說中的武器來了!最新一代電磁槍近距離畫面公布,無噪音、無火光、無彈殼,每分鐘可發(fā)射一兩千發(fā)

傳說中的武器來了!最新一代電磁槍近距離畫面公布,無噪音、無火光、無彈殼,每分鐘可發(fā)射一兩千發(fā)

揚(yáng)子晚報
2026-04-04 09:16:43
全球淪陷,舊時代喪鐘敲響,金融時報指向中國:這里是唯一避風(fēng)港

全球淪陷,舊時代喪鐘敲響,金融時報指向中國:這里是唯一避風(fēng)港

阿訊說天下
2026-04-03 15:32:52
起步價16,每公里兩塊七:上海出租車開始卷服務(wù)了

起步價16,每公里兩塊七:上海出租車開始卷服務(wù)了

順風(fēng)車之聲
2026-04-02 17:15:12
美媒:美防長宣布解除禁令,允許美軍士兵在軍事基地攜帶個人槍支

美媒:美防長宣布解除禁令,允許美軍士兵在軍事基地攜帶個人槍支

環(huán)球網(wǎng)資訊
2026-04-03 10:26:20
色情網(wǎng)站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

色情網(wǎng)站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

談史論天地
2026-02-08 20:30:04
金正恩難以垮臺的真正原因

金正恩難以垮臺的真正原因

深度報
2026-04-04 17:39:30
特朗普改口!美6000億關(guān)稅戰(zhàn)慘敗,中國制造航母阻攔索讓美服軟!

特朗普改口!美6000億關(guān)稅戰(zhàn)慘敗,中國制造航母阻攔索讓美服軟!

通文知史
2026-04-04 06:50:06
兩鄰國在烏魯木齊和談?

兩鄰國在烏魯木齊和談?

新民周刊
2026-04-04 09:14:15
馬興瑞涉嫌嚴(yán)重違紀(jì)違法正接受中央紀(jì)委國家監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

馬興瑞涉嫌嚴(yán)重違紀(jì)違法正接受中央紀(jì)委國家監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

新京報
2026-04-03 18:02:10
鄭麗文訪問大陸,島內(nèi)民調(diào)驚人,吳伯雄重磅表態(tài),賴清德遭到重?fù)?>
    </a>
        <h3>
      <a href=潘殤旅行浪子
2026-04-05 03:34:35
過年了兒子在樓下,打了10多個電話沒有人接,憤怒上樓開門才明白

過年了兒子在樓下,打了10多個電話沒有人接,憤怒上樓開門才明白

濤哥講堂
2025-01-13 15:44:37
冬去春來:亮亮客死他鄉(xiāng),冉冉為啥終生不嫁也不選楚才遠(yuǎn)

冬去春來:亮亮客死他鄉(xiāng),冉冉為啥終生不嫁也不選楚才遠(yuǎn)

慫熊劇場
2026-04-05 05:30:53
廣東一男子因清明祭祖安排不合,直接解散九戶家族群,網(wǎng)友吵翻

廣東一男子因清明祭祖安排不合,直接解散九戶家族群,網(wǎng)友吵翻

童叔不飆車
2026-04-03 20:20:20
工信部:有攻擊者用短信、郵件或網(wǎng)頁投毒等方式,向蘋果公司終端產(chǎn)品植入遠(yuǎn)程控制木馬,竊取用戶敏感信息,獲取最高權(quán)限并控制

工信部:有攻擊者用短信、郵件或網(wǎng)頁投毒等方式,向蘋果公司終端產(chǎn)品植入遠(yuǎn)程控制木馬,竊取用戶敏感信息,獲取最高權(quán)限并控制

瀟湘晨報
2026-04-03 18:14:11
伊朗:霍爾木茲海峽收費(fèi)分5級 年收超千億美元!

伊朗:霍爾木茲海峽收費(fèi)分5級 年收超千億美元!

新浪財經(jīng)
2026-04-04 13:31:15
單依純好友魚椒鹽疑怒撕李榮浩?言論太露骨,評論區(qū)炸鍋了

單依純好友魚椒鹽疑怒撕李榮浩?言論太露骨,評論區(qū)炸鍋了

小徐講八卦
2026-04-02 06:35:08
伊朗:在霍爾木茲海峽擊中以色列有關(guān)船只,引發(fā)大火!中國、日本、法國等船只已接連通過,特朗普再提“打通海峽搶石油”

伊朗:在霍爾木茲海峽擊中以色列有關(guān)船只,引發(fā)大火!中國、日本、法國等船只已接連通過,特朗普再提“打通海峽搶石油”

每日經(jīng)濟(jì)新聞
2026-04-04 22:14:15
恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子 私生子傳聞?wù)嫦啻蟀?>
    </a>
        <h3>
      <a href=鄉(xiāng)野小珥
2026-04-04 09:46:29
黃繼光遺體雙臂僵硬,女衛(wèi)生員焐三天,終留終身遺憾

黃繼光遺體雙臂僵硬,女衛(wèi)生員焐三天,終留終身遺憾

嘮叨說歷史
2026-03-27 14:47:46
杜蘭特25+5+6火箭輕取爵士5連勝,湯普森21+8申京19+5

杜蘭特25+5+6火箭輕取爵士5連勝,湯普森21+8申京19+5

湖人崛起
2026-04-04 10:22:15
2026-04-05 06:52:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財經(jīng)科技媒體
131815文章數(shù) 862056關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機(jī)廠商集體漲價

頭條要聞

特朗普發(fā)布視頻宣稱“打死多名伊朗軍事領(lǐng)導(dǎo)人”

頭條要聞

特朗普發(fā)布視頻宣稱“打死多名伊朗軍事領(lǐng)導(dǎo)人”

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認(rèn)逼宋寧峰張婉婷離婚

財經(jīng)要聞

中微董事長,給半導(dǎo)體潑點(diǎn)冷水

汽車要聞

17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

健康
本地
數(shù)碼
手機(jī)
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

跟著歌聲游安徽,聽古村回響

數(shù)碼要聞

今年新款A(yù)irPods Pro、Apple TV值得等嗎?升級方向曝光

手機(jī)要聞

小米MIX系列主攻折疊屏賽道:這就是小米最頂級旗艦

軍事要聞

美軍又一架戰(zhàn)機(jī)墜毀 此前F-15E被擊落

無障礙瀏覽 進(jìn)入關(guān)懷版