![]()
整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
過去幾年里,科技公司幾乎都在同一件事上加速:讓 AI 參與寫代碼。
從自動補全、自動生成函數(shù),到直接修改系統(tǒng)配置,生成式 AI 已經(jīng)逐漸走進真實生產(chǎn)環(huán)境。但最近發(fā)生在亞馬遜的一連串事故,卻給整個行業(yè)潑了一盆冷水——當 AI 開始真正參與生產(chǎn)環(huán)境開發(fā)時,事情可能遠比想象復(fù)雜。
最近,多家媒體披露,本周二亞馬遜內(nèi)部緊急召開了一場工程“深度復(fù)盤(deep dive)”會議,專門討論最近頻繁出現(xiàn)的系統(tǒng)故障——其中,一個被反復(fù)提及的關(guān)鍵詞是:AI 輔助代碼。
![]()
一周4次嚴重事故,亞馬遜內(nèi)部緊急復(fù)盤
事情的起點,是最近一段時間亞馬遜系統(tǒng)穩(wěn)定性明顯下降。
負責亞馬遜網(wǎng)站技術(shù)架構(gòu)的高級副總裁 Dave Treadwell 在一封內(nèi)部郵件中坦言:“各位,正如大家可能已經(jīng)知道的,最近網(wǎng)站及相關(guān)基礎(chǔ)設(shè)施的可用性確實不太理想。”
為此,公司決定把原本每周例行舉行的技術(shù)會議 “This Week in Stores Tech”(簡稱 TWiST) 臨時改成一次“深度復(fù)盤會議”。通常來說,TWiST 會議對員工是自愿參加的,但這一次,Treadwell 要求工程師盡量全部參加。
這場會議在周二中午 12:30 召開,主要目標只有一個:弄清楚最近這一連串系統(tǒng)故障到底是怎么發(fā)生的——Treadwell 在內(nèi)部郵件中透露,僅僅在一周時間內(nèi),公司就發(fā)生了 4 起 Sev1 級別事故。
這里解釋一下:在亞馬遜的事故分級體系中,Sev1 即最高級別事故,通常意味著核心系統(tǒng)宕機或關(guān)鍵功能嚴重受影響。
也就是說,這已經(jīng)不是普通的小 Bug,而是直接影響業(yè)務(wù)運行的大問題。
![]()
一次6小時宕機,讓購物功能幾乎癱瘓
其中,最明顯的一次事故就發(fā)生在上周。
當天,亞馬遜網(wǎng)站和購物 App 突然出現(xiàn)大規(guī)模故障,持續(xù)時間接近 6 小時。在這段時間里,大量用戶無法完成商品結(jié)算、查看賬戶信息、查詢商品價格……簡單來說,整個電商核心流程幾乎停擺。
事后,亞馬遜對此給出的解釋是:這次事故源于一次錯誤的軟件代碼部署。不過并沒有進一步披露細節(jié),比如是否涉及 AI 生成代碼等。
不僅如此,。
根據(jù)多家媒體報道,那次事故發(fā)生的原因是:工程師允許內(nèi)部 AI 編程工具 Kiro 修改系統(tǒng)環(huán)境,而 AI 在執(zhí)行任務(wù)時選擇了一個極端操作——刪除并重新創(chuàng)建了整個運行環(huán)境。
不過,亞馬遜后來回應(yīng)稱,那次問題本質(zhì)上是人為操作失誤,并非 AI 本身造成的。
![]()
內(nèi)部文檔曾點名:GenAI代碼變更是事故因素之一
但事實上,據(jù)《金融時報》報道,在此次會議的準備材料中,亞馬遜的一份內(nèi)部文檔曾提到:過去幾個季度,公司出現(xiàn)了一種“事故趨勢”,其中一個因素就是“GenAI 工具輔助的代碼變更”。
這份文檔還指出了一個關(guān)鍵問題:一些新的生成式 AI 使用方式,目前還沒有成熟的工程規(guī)范和安全防護機制。
不過,根據(jù) CNBC 獲得的更新版本文件顯示,在亞馬遜內(nèi)部會議開始前,涉及 GenAI 的那一條內(nèi)容被刪除了——知情人士表示,該調(diào)整可能與內(nèi)部信息敏感性有關(guān)。
在媒體報道發(fā)布后,亞馬遜發(fā)言人進一步回應(yīng)稱:近期的事故中只有一起與 AI 相關(guān),沒有任何事件是 AI 直接編寫代碼導(dǎo)致的。發(fā)言人還強調(diào),這次會議本身只是“常規(guī)運營”的一部分:
“TWiST 是零售技術(shù)負責人每周舉行的例會,我們會在會上評估網(wǎng)站和應(yīng)用的運行情況,并持續(xù)改進系統(tǒng)可用性。”
![]()
AI輔助開發(fā)被“加上剎車”
雖然亞馬遜試圖淡化 AI 的直接責任,但內(nèi)部仍然決定采取新的工程措施,而最核心的一條規(guī)則就是:今后任何 AI 輔助生成的代碼修改,都需要更高級別工程師審批。
換句話說:初級工程師可以用 AI 改代碼,但不能直接上線,必須由資深工程師簽字確認——某種意義上,這相當于給 AI 生成代碼增加了一層“人工安全閥”。
但對于這項新規(guī)定,一些分析師也提出了擔憂。例如,Constellation Research 首席分析師 Chirag Mehta 就表示:“如果每次 AI 改代碼都需要高級工程師去逐行審核,那么企業(yè)很可能把 AI 帶來的效率優(yōu)勢又還回去了。”
而真正的風險也并不是 AI 會犯錯,畢竟人類工程師同樣會犯錯——真正的問題在于:AI 會把錯誤放大。正如 Info-Tech Research Group 的研究總監(jiān) Manish Jain 所說,AI 最大的危險是它壓縮了人類干預(yù)和糾正問題的時間。
LexisNexis Risk Solutions 的 CISO Flavio Villanustre 給出了一個很形象的比喻:“AI 就像一個非常聰明但沒有安全意識的孩子。”在 AI Agent 技術(shù)出現(xiàn)之后,軟件開發(fā)速度已經(jīng)大幅提升,企業(yè)的治理體系卻沒有同步升級,AI 策略還過于激進。
如果企業(yè)直接讓這樣的系統(tǒng)操作關(guān)鍵基礎(chǔ)設(shè)施,結(jié)果就是:小 Bug 可能瞬間影響大規(guī)模系統(tǒng)、修復(fù)時間窗口變得更短、事故影響范圍更大——因此,雖然“人類審核”會降低效率,但目前看來,這仍是必要的安全措施。
![]()
工程師猜測:故障變多可能和大裁員有關(guān)?
除了AI工具,一些亞馬遜工程師還把最近頻發(fā)的系統(tǒng)故障指向另一個原因——大裁員。
此前有多名員工表示,由于團隊規(guī)模大幅縮減,工程團隊每天需要處理更多“Sev2”級別事故。亞馬遜內(nèi)部,“Sev2”指的是:需要快速響應(yīng),否則可能導(dǎo)致產(chǎn)品服務(wù)中斷的嚴重事件。
眾所周知,亞馬遜在過去幾年中確實進行了多輪大規(guī)模裁員。最近一次是在今年 1 月,裁掉了約 1.6 萬個崗位。不過,亞馬遜官方否認裁員與其系統(tǒng)故障有關(guān),并表示系統(tǒng)穩(wěn)定性評估只是公司的“常規(guī)運營流程”。
那么,在你看來,最近亞馬遜頻發(fā)的系統(tǒng)故障是什么原因?qū)е碌哪兀?/p>
參考鏈接:https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/
未來沒有前后端,只有 AI Agent 工程師。
這場十倍速的變革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開,大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題,為你繪制通往未來的認知地圖。
成為時代的見證者,更要成為時代的先行者。
奇點智能技術(shù)大會上海站,我們不見不散!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.