作為企業(yè)IT運維的“老黃牛”,服務(wù)器的穩(wěn)定運行直接關(guān)乎業(yè)務(wù)連續(xù)性。
上周我們就收到一臺同行送過來的華為鯤鵬920服務(wù)器,客戶描述為突發(fā)啟動故障。
今天就把整個排查過程復(fù)盤分享,旨在拋磚引玉,建議收藏備用~
![]()
一、突發(fā)故障:核心服務(wù)器突然“罷工”
客戶發(fā)現(xiàn)部署的算力服務(wù)器無法連接,趕到機房后發(fā)現(xiàn)服務(wù)器開機屏幕停留在“嘗試從網(wǎng)卡引導(dǎo)”的提示界面,反復(fù)重啟后問題依舊。
二、初步排查:鎖定“啟動設(shè)備識別”核心問題
收到同行送來的服務(wù)器后,我司技術(shù)人員進行了簡單的溝通和交流,然后上電,開始最基本的檢測。
開機后,自檢階段未出現(xiàn)陣列卡型號和自檢提示,說明陣列卡未完成基礎(chǔ)自檢;
然后屏幕提示“無引導(dǎo)設(shè)備”,然后開始反復(fù)嘗試從網(wǎng)卡引導(dǎo),當然不可能引導(dǎo)成功。
這臺鯤鵬920服務(wù)器配置了獨立陣列卡,所有硬盤均連接至陣列卡,作為系統(tǒng)和數(shù)據(jù)存儲的載體。
于是,進入BIOS,遺憾的是,陣列卡未被識別。
如果陣列卡無法正常工作,自然無法識別到由其管理的硬盤,進而導(dǎo)致服務(wù)器找不到啟動設(shè)備。
關(guān)閉服務(wù)器電源,打開機蓋,拆下陣列卡觀察,并未發(fā)現(xiàn)異常,于是擦拭金手指后,換了個PCIe插槽,但仍未被正確識別,排除插槽故障。
三、深入定位:陣列卡“隱身”是關(guān)鍵
在BIOS界面反復(fù)查找無果后,發(fā)現(xiàn)有一項叫做“有些驅(qū)動程序不健康”,在里面找到了陣列卡。
![]()
嘗試修復(fù)操作,并重啟后,BIOS能正確識別到陣列卡型號,也能識別到硬盤了。
![]()
但此時服務(wù)器有紅燈告警,系統(tǒng)無法引導(dǎo)。
登錄iBMC帶外管理,發(fā)現(xiàn)有陣列卡告警信息。
四、嘗試修復(fù):既然BIOS操作無效,那更換就是唯一出路
由于硬件尚在質(zhì)保期內(nèi),于是我司技術(shù)人員聯(lián)系了寶德售后,雖然是鯤鵬920服務(wù)器,但是經(jīng)查詢,售后服務(wù)由寶德負責(zé)。
工程師遠程確認故障后,以航空件的方式,發(fā)來了同型號的陣列卡。
更換過程很順利:關(guān)閉服務(wù)器電源后,取下故障陣列卡,將新陣列卡插入PCIe插槽并固定,重新連接硬盤數(shù)據(jù)線。
![]()
五、故障解決:更換陣列卡后恢復(fù)正常
更換陣列卡后,我們重新開機,自檢階段順利顯示陣列卡型號和RAID陣列信息。進入BIOS后,“存儲設(shè)備”欄成功識別到陣列卡,啟動項中“陣列卡引導(dǎo)”也顯示“可用設(shè)備”。
將硬盤里面的陣列信息導(dǎo)入到新的陣列卡后,設(shè)置為陣列卡為首選啟動項,然后服務(wù)器順利進入操作系系統(tǒng)。
此時聯(lián)系客戶,準備進入系統(tǒng)檢查數(shù)據(jù),結(jié)果被告知,root密碼忘記了,于是又為客戶重置了root密碼,這才得以進入系統(tǒng),好在客戶還是幸運的,經(jīng)查看,數(shù)據(jù)未丟失。
![]()
六、運維反思:3點經(jīng)驗避坑指南
這次故障排查雖然最終順利解決,但也給我們敲響了警鐘。結(jié)合此次經(jīng)歷,總結(jié)3點運維經(jīng)驗:
這次故障排查雖順利解決,但也給客戶敲響了警鐘。結(jié)合經(jīng)歷總結(jié)3點核心運維經(jīng)驗,發(fā)給同行及客戶:
核心備件必儲備:承載核心業(yè)務(wù)的服務(wù)器,陣列卡、電源模塊等關(guān)鍵硬件必須備足備件,避免因等待備件延長宕機時間;
硬件巡檢不松懈:除軟件監(jiān)控外,每月用官方診斷工具做一次硬件深度巡檢,重點檢測陣列卡、硬盤的健康狀態(tài),提前發(fā)現(xiàn)老化隱患;
排查邏輯要清晰:遵循“先基礎(chǔ)后核心、先軟件后硬件”原則,逐步縮小范圍,避免盲目操作造成二次故障。
日常運維重在備份:數(shù)據(jù)無價,本次算是幸運,數(shù)據(jù)未丟失,但是如果還是不注重備份,遲早有一天會破防后悔。
互動時間:你在運維中遇到過哪些“詭異”的服務(wù)器故障?排查時踩過什么坑?歡迎在評論區(qū)分享,一起交流避坑技巧~
服務(wù)器運維容不得半點馬虎,每一次故障都是一次經(jīng)驗積累。如果大家有類似的排查經(jīng)歷,歡迎在評論區(qū)分享交流,一起提升運維能力~
覺得這篇排查干貨有用的話,記得 點贊+在看+收藏,轉(zhuǎn)發(fā)給團隊里的運維伙伴,一起提升故障處理效率~
關(guān)注我們,后續(xù)還會分享更多服務(wù)器運維、故障排查的實戰(zhàn)技巧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.