![]()
凌晨3:17,PagerDuty炸了。某SaaS公司的值班工程師從床上彈起來,屏幕血紅一片——支付網關掛了,訂單流水正在歸零。按常理,這時候該有人沖進Slack頻道喊"全體起床",然后一群人邊罵邊修,四小時后天亮才能收工。
但這家公司不太一樣。他們沒有"救火隊長",只有一張寫著SEV0到SEV4的表格。支付網關宕機自動觸發SEV0,兩分鐘內值班工程師必須完成三件事:開橋接電話、拉指定專家進群、宣布"我現在只收集信息,不做判斷"。
這套系統叫"結構化應急響應",抄的是航空業的事故處理手冊。核心就一句話:「思考是奢侈品,執行是必需品」。工程師被禁止在故障前30分鐘做任何根因分析,只能按清單打勾——誰看日志、誰聯系云廠商、誰準備回滾。腦子越動,手越慢。
效果很粗暴。他們之前的平均修復時間是4小時,現在壓到40分鐘。不是人變強了,是把" panic time"從流程里摳掉了。創始人算過賬:一次SEV0如果拖到早高峰,客戶流失率會跳漲17%,這還沒算工程師 burnout 的隱性成本。
有個細節很有意思。他們的值班手機不是發給最資深的工程師,而是輪流抽簽—— senior 反而容易憑經驗瞎猜, junior 更聽話,清單執行得更干凈。上個月一次數據庫主從切換失敗,抽簽抽中的實習生按步驟走完,26分鐘解決。隔壁組的老兵同期遇到類似問題,邊查邊罵,修了兩個小時。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.