他設計了一道支付陷阱題，47個AI模型集體踩坑

2026-03-26 13:21:14　來源: 閃存獵手

北京舉報

分享至

支付系統(tǒng)的崩潰往往始于一行"看起來正確"的代碼。VibeCode Arena創(chuàng)始人最近放出一道測試題：檢查訂單是否已支付，若否則扣款。邏輯無懈可擊，但47個參測AI模型中，絕大多數(shù)都栽在同一個坑里——它們沒看懂并發(fā)請求。

一道題，拆穿AI的"偽安全"

測試場景并不復雜：用戶點擊支付，網(wǎng)絡抖動觸發(fā)重試，兩筆請求同時抵達服務器。人類工程師的噩夢在此——第一筆請求檢查"未支付"，第二筆請求也檢查"未支付"，兩筆都通過了。結果是用戶被扣兩次錢。

參測模型表現(xiàn)分化明顯。部分能識別基礎狀態(tài)校驗，少數(shù)提及重試機制，但真正理解冪等性（idempotency，指同一操作執(zhí)行多次與執(zhí)行一次效果相同）設計的寥寥無幾。更諷刺的是，有些模型的回答讀起來像安全手冊，代碼里卻留著明顯的競態(tài)條件窗口。

出題人把這道題命名為"雙重扣款風險"。命名很直白，但AI們似乎更擅長解釋概念，而非識別代碼里的時間縫隙。

為什么支付是AI的盲區(qū)

支付系統(tǒng)的危險不在于業(yè)務復雜，而在于失敗模式隱蔽。正常流程走一萬次都通，異常邊界只要觸發(fā)一次就是資損。AI訓練數(shù)據(jù)里充斥著"正確"的代碼示例，卻鮮少包含生產事故的尸檢報告。

更深層的問題在于上下文缺失。模型看到的是一個孤立函數(shù)，看不到網(wǎng)關超時配置、看不到數(shù)據(jù)庫隔離級別、看不到下游渠道的異步通知延遲。這些才是決定"檢查-扣款"兩步操作是否原子化的關鍵變量。

有模型在回答中自信地寫下"此方案已考慮并發(fā)安全"，附帶的代碼卻連事務邊界都沒加。這種自信比無知更麻煩——它可能讓審查者放松警惕。

人機協(xié)作的邊界在哪

測試發(fā)起人沒有公開點名哪些模型表現(xiàn)最差，但數(shù)據(jù)足夠說明問題：當問題從"寫一段支付代碼"變成"找出這段代碼哪里會賠錢"，AI的勝率斷崖式下跌。

這指向一個被忽視的評估維度。行業(yè)熱衷用LeetCode風格題目測試模型，但生產環(huán)境的bug往往藏在"看起來對的邏輯"里。支付、庫存、資金劃轉——這些領域容錯率為零，卻極少出現(xiàn)在基準測試集中。

出題人在挑戰(zhàn)頁底部留了一句話："支付不是關于成功處理一次，而是關于確保永遠不會意外處理兩次。"這句話被47個模型中的大多數(shù)引用或改寫，但只有個位數(shù)真正在代碼層面實現(xiàn)了它。

測試仍在開放，新的模型版本陸續(xù)加入。一個值得觀察的細節(jié)是：那些在第一輪失敗的模型，經(jīng)過針對性微調后，能否識別出同一類問題的變體？還是說，它們只是學會了回答"并發(fā)安全很重要"，而非真正理解時間片交錯時的狀態(tài)機？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

紐約時報：許多美國官員從未去過中國應該去中國看看

環(huán)球網(wǎng)資訊 2026-03-26 00:05:09
1969 跟貼 1969
“根本不敢上路”！深圳男子買全新百萬豪車，修了15次還是壞的！很多車主受害

南方都市報 2026-03-26 09:26:45
120 跟貼 120

上海一三甲醫(yī)院候診屏出現(xiàn)"照顧號"引熱議院方回應

上游新聞 2026-03-26 15:33:08
98 跟貼 98

千萬粉絲大V，微博賬號被禁止關注

第一財經(jīng)資訊 2026-03-26 12:19:47
1234 跟貼 1234
收評：滬指跌1.09% 全市場成交額不足2萬億元

證券時報 2026-03-26 15:22:10
819 跟貼 819

生死12分鐘！廣東一男子踢球時心臟驟停一群醫(yī)生沖上前接力心肺復蘇救回一命

閃電新聞 2026-03-26 11:46:05
101 跟貼 101

10元/斤，最近這一口“鮮貨”正肥！杭州一攤主：一天上百斤不夠賣

環(huán)球網(wǎng)資訊 2026-03-25 13:22:33
432 跟貼 432
美媒稱美考慮將援助烏克蘭的武器轉至中東

新華社 2026-03-26 20:05:17
1458 跟貼 1458

泰國征兵廣告用張凌赫做海報：想像“武安侯”一樣帥氣騎馬嗎？今年四月報名參軍選擇騎兵部隊

閃電新聞 2026-03-26 17:45:38
195 跟貼 195
火車站“老師兒！出租車在這乘坐”標語引熱議，網(wǎng)友稱一看就是山東濟南，車站工作人員：在當?shù)剡@是尊稱

極目新聞 2026-03-26 12:06:40
147 跟貼 147
中原消費金融為催收“買”借款人手機號碼三大運營商均中標或涉買賣個人信息惹爭議

信網(wǎng) 2026-03-26 19:12:37
354 跟貼 354
《長征組歌》響徹“上海之春”，廖昌永石倚潔同臺放歌

澎湃新聞 2026-03-26 23:04:27
2 跟貼 2
廣東公布首批25家國際醫(yī)療服務試點醫(yī)院

南方都市報 2026-03-26 23:06:12
5 跟貼 5
約基奇背靠背均貢獻15+15+15歷史首人！穆雷：嘆為觀止

北青網(wǎng)-北京青年報 2026-03-26 20:51:06
17 跟貼 17
法系在華銷冠車型降價20%，車名叫凡爾賽

第一財經(jīng)資訊 2026-03-26 10:16:14
139 跟貼 139
張雪峰去世，留下的幾億資產去向，知情人爆料去年3月就立過遺囑

孤城落日 2026-03-26 23:58:19
0 跟貼 0
微信聊天反復出現(xiàn)“對方正在輸入”，說明對方在干什么？

學申論的談妹 2026-03-26 16:15:26
63 跟貼 63
5家快遞企業(yè)聯(lián)合調價行業(yè)告別低價“內卷”

中國能源網(wǎng) 2026-03-26 07:40:03
240 跟貼 240
聯(lián)大通過決議，宣布“最嚴重反人類罪”

澎湃新聞 2026-03-26 11:03:06
1 跟貼 1
100只整裝待發(fā)！量產機器狼“-20℃極寒測試”現(xiàn)場曝光

中國網(wǎng) 2026-03-26 15:55:11
392 跟貼 392
中東局勢影響原油進口韓國多地垃圾袋緊缺，有超市每人限購10個，在韓華人：跑七八家便利店“搶到”150個垃圾袋

極目新聞 2026-03-26 19:53:02
115 跟貼 115
首秀庫拉索，國足主帥邵佳一：國家隊的比賽沒有友誼賽

澎湃新聞 2026-03-26 15:58:27
0 跟貼 0
廣東一男子買啤酒抽中電動車大獎，將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷，網(wǎng)友：“這下又上了一課”

洪觀新聞 2026-03-26 10:56:49
0 跟貼 0
【科普】“酒醉駕”和“酒醉騎”通通不可以！

潮州玩家 2026-03-26 23:58:10
0 跟貼 0

手機 / 數(shù)碼

房產 / 家居

他設計了一道支付陷阱題，47個AI模型集體踩坑

一道題，拆穿AI的"偽安全"

為什么支付是AI的盲區(qū)

人機協(xié)作的邊界在哪

美團發(fā)布外賣大戰(zhàn)后成績單：虧損超200億

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

申京努力了，然而杜蘭特啊

劉曉慶妹妹發(fā)聲！稱姐姐受身邊人挑撥

油價"馴服"特朗普？一到100美元就TACO

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

救命，這只醬板鴨已經(jīng)在我手機復仇了一萬遍

傍海而居 靜觀蝴蝶海

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動，支持B70 / B65顯卡

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

傍海而居靜觀蝴蝶海