猛裁1.6萬人后，網(wǎng)站再崩6小時、一周4次重大事故！官方“緊急復(fù)盤”：跟裁員無關(guān)，也不是AI寫代碼的鍋

2026-03-11 16:56:36　來源: CSDN

北京舉報

分享至

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

過去幾年里，科技公司幾乎都在同一件事上加速：讓 AI 參與寫代碼。

從自動補全、自動生成函數(shù)，到直接修改系統(tǒng)配置，生成式 AI 已經(jīng)逐漸走進真實生產(chǎn)環(huán)境。但最近發(fā)生在亞馬遜的一連串事故，卻給整個行業(yè)潑了一盆冷水——當 AI 開始真正參與生產(chǎn)環(huán)境開發(fā)時，事情可能遠比想象復(fù)雜。

最近，多家媒體披露，本周二亞馬遜內(nèi)部緊急召開了一場工程“深度復(fù)盤（deep dive）”會議，專門討論最近頻繁出現(xiàn)的系統(tǒng)故障——其中，一個被反復(fù)提及的關(guān)鍵詞是：AI 輔助代碼。

一周4次嚴重事故，亞馬遜內(nèi)部緊急復(fù)盤

事情的起點，是最近一段時間亞馬遜系統(tǒng)穩(wěn)定性明顯下降。

負責亞馬遜網(wǎng)站技術(shù)架構(gòu)的高級副總裁 Dave Treadwell 在一封內(nèi)部郵件中坦言：“各位，正如大家可能已經(jīng)知道的，最近網(wǎng)站及相關(guān)基礎(chǔ)設(shè)施的可用性確實不太理想。”

為此，公司決定把原本每周例行舉行的技術(shù)會議 “This Week in Stores Tech”（簡稱 TWiST）臨時改成一次“深度復(fù)盤會議”。通常來說，TWiST 會議對員工是自愿參加的，但這一次，Treadwell 要求工程師盡量全部參加。

這場會議在周二中午 12:30 召開，主要目標只有一個：弄清楚最近這一連串系統(tǒng)故障到底是怎么發(fā)生的——Treadwell 在內(nèi)部郵件中透露，僅僅在一周時間內(nèi)，公司就發(fā)生了 4 起 Sev1 級別事故。

這里解釋一下：在亞馬遜的事故分級體系中，Sev1 即最高級別事故，通常意味著核心系統(tǒng)宕機或關(guān)鍵功能嚴重受影響。

也就是說，這已經(jīng)不是普通的小 Bug，而是直接影響業(yè)務(wù)運行的大問題。

一次6小時宕機，讓購物功能幾乎癱瘓

其中，最明顯的一次事故就發(fā)生在上周。

當天，亞馬遜網(wǎng)站和購物 App 突然出現(xiàn)大規(guī)模故障，持續(xù)時間接近 6 小時。在這段時間里，大量用戶無法完成商品結(jié)算、查看賬戶信息、查詢商品價格……簡單來說，整個電商核心流程幾乎停擺。

事后，亞馬遜對此給出的解釋是：這次事故源于一次錯誤的軟件代碼部署。不過并沒有進一步披露細節(jié)，比如是否涉及 AI 生成代碼等。

不僅如此，。

根據(jù)多家媒體報道，那次事故發(fā)生的原因是：工程師允許內(nèi)部 AI 編程工具 Kiro 修改系統(tǒng)環(huán)境，而 AI 在執(zhí)行任務(wù)時選擇了一個極端操作——刪除并重新創(chuàng)建了整個運行環(huán)境。

不過，亞馬遜后來回應(yīng)稱，那次問題本質(zhì)上是人為操作失誤，并非 AI 本身造成的。

內(nèi)部文檔曾點名：GenAI代碼變更是事故因素之一

但事實上，據(jù)《金融時報》報道，在此次會議的準備材料中，亞馬遜的一份內(nèi)部文檔曾提到：過去幾個季度，公司出現(xiàn)了一種“事故趨勢”，其中一個因素就是“GenAI 工具輔助的代碼變更”。

這份文檔還指出了一個關(guān)鍵問題：一些新的生成式 AI 使用方式，目前還沒有成熟的工程規(guī)范和安全防護機制。

不過，根據(jù) CNBC 獲得的更新版本文件顯示，在亞馬遜內(nèi)部會議開始前，涉及 GenAI 的那一條內(nèi)容被刪除了——知情人士表示，該調(diào)整可能與內(nèi)部信息敏感性有關(guān)。

在媒體報道發(fā)布后，亞馬遜發(fā)言人進一步回應(yīng)稱：近期的事故中只有一起與 AI 相關(guān)，沒有任何事件是 AI 直接編寫代碼導(dǎo)致的。發(fā)言人還強調(diào)，這次會議本身只是“常規(guī)運營”的一部分：

“TWiST 是零售技術(shù)負責人每周舉行的例會，我們會在會上評估網(wǎng)站和應(yīng)用的運行情況，并持續(xù)改進系統(tǒng)可用性。”

AI輔助開發(fā)被“加上剎車”

雖然亞馬遜試圖淡化 AI 的直接責任，但內(nèi)部仍然決定采取新的工程措施，而最核心的一條規(guī)則就是：今后任何 AI 輔助生成的代碼修改，都需要更高級別工程師審批。

換句話說：初級工程師可以用 AI 改代碼，但不能直接上線，必須由資深工程師簽字確認——某種意義上，這相當于給 AI 生成代碼增加了一層“人工安全閥”。

但對于這項新規(guī)定，一些分析師也提出了擔憂。例如，Constellation Research 首席分析師 Chirag Mehta 就表示：“如果每次 AI 改代碼都需要高級工程師去逐行審核，那么企業(yè)很可能把 AI 帶來的效率優(yōu)勢又還回去了。”

而真正的風險也并不是 AI 會犯錯，畢竟人類工程師同樣會犯錯——真正的問題在于：AI 會把錯誤放大。正如 Info-Tech Research Group 的研究總監(jiān) Manish Jain 所說，AI 最大的危險是它壓縮了人類干預(yù)和糾正問題的時間。

LexisNexis Risk Solutions 的 CISO Flavio Villanustre 給出了一個很形象的比喻：“AI 就像一個非常聰明但沒有安全意識的孩子。”在 AI Agent 技術(shù)出現(xiàn)之后，軟件開發(fā)速度已經(jīng)大幅提升，企業(yè)的治理體系卻沒有同步升級，AI 策略還過于激進。

如果企業(yè)直接讓這樣的系統(tǒng)操作關(guān)鍵基礎(chǔ)設(shè)施，結(jié)果就是：小 Bug 可能瞬間影響大規(guī)模系統(tǒng)、修復(fù)時間窗口變得更短、事故影響范圍更大——因此，雖然“人類審核”會降低效率，但目前看來，這仍是必要的安全措施。

工程師猜測：故障變多可能和大裁員有關(guān)？

除了AI工具，一些亞馬遜工程師還把最近頻發(fā)的系統(tǒng)故障指向另一個原因——大裁員。

此前有多名員工表示，由于團隊規(guī)模大幅縮減，工程團隊每天需要處理更多“Sev2”級別事故。亞馬遜內(nèi)部，“Sev2”指的是：需要快速響應(yīng)，否則可能導(dǎo)致產(chǎn)品服務(wù)中斷的嚴重事件。

眾所周知，亞馬遜在過去幾年中確實進行了多輪大規(guī)模裁員。最近一次是在今年 1 月，裁掉了約 1.6 萬個崗位。不過，亞馬遜官方否認裁員與其系統(tǒng)故障有關(guān)，并表示系統(tǒng)穩(wěn)定性評估只是公司的“常規(guī)運營流程”。

那么，在你看來，最近亞馬遜頻發(fā)的系統(tǒng)故障是什么原因?qū)е碌哪兀?/p>

參考鏈接：https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/

未來沒有前后端，只有 AI Agent 工程師。

這場十倍速的變革已至，你的下一步在哪？

4 月 17-18 日，由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開，大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題，為你繪制通往未來的認知地圖。

成為時代的見證者，更要成為時代的先行者。

奇點智能技術(shù)大會上海站，我們不見不散！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.