對(duì)于企業(yè)來說,服務(wù)器的應(yīng)用越來越普遍,然而,服務(wù)器在使用過程中會(huì)發(fā)生各種故障,因而,企業(yè)對(duì)服務(wù)器故障排除是一門精細(xì)的工藝,但也有一些方法和技巧可以把這件事情變得簡單和快速。
ITIL方法深入研究如何解決服務(wù)器故障或相關(guān)問題,但總的主旨是盡可能快速和有效地縮小問題范圍。
退一步想想如何從邏輯上解決中斷期間的問題。例如,如果有用戶抱怨不能訪問一些東西,看看其他用戶有沒有相同的問題,這樣可以消除本地某個(gè)具體終端用戶設(shè)備問題的可能性。
以下全方面指南旨在幫你考慮故障診斷流程和過程。請(qǐng)結(jié)合你自己的指導(dǎo)原則和技術(shù)優(yōu)勢(shì)使用。
問題普遍存在嗎?
你需要的第一條信息是停機(jī)或效率變慢發(fā)生的范圍以及產(chǎn)生了什么樣的影響。就像是網(wǎng)絡(luò)問題可能是因?yàn)椴染€而影響了一臺(tái)PC或小的群集。
如果同一問題影響到了多位用戶,可以排除環(huán)境變量,比如本地PC上的軟件誤操作或硬件問題。
如果你有多個(gè)網(wǎng)站,它們?nèi)渴苡绊憜?這樣可以確定問題是否在于本地服務(wù)器。
是服務(wù)器引起的問題嗎?
不同的部門之間傾向于相互指責(zé)。系統(tǒng)管理員會(huì)將服務(wù)前臺(tái)緩慢的應(yīng)用程序響應(yīng)歸咎于網(wǎng)絡(luò);網(wǎng)絡(luò)管理員抱怨存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN);存儲(chǔ)管理員指責(zé)軟件部門。如果你正在解決一個(gè)問題——尤其是像應(yīng)用程序變慢這類無法確定原因所在的問題——那么,確定數(shù)據(jù)中心里哪些區(qū)域的基礎(chǔ)設(shè)施受到了影響。當(dāng)多個(gè)服務(wù)器和應(yīng)用程序發(fā)生故障,通??梢耘懦?wù)器問題,真正的問題可能來自網(wǎng)絡(luò)或存儲(chǔ)陣列。虛擬化環(huán)境中,檢查所有受影響的虛擬機(jī)的物理主機(jī)位置,確保它們沒有共享受損的硬件。
通過排除,結(jié)果最終通常會(huì)指向某個(gè)明確的罪魁禍?zhǔn)祝⒎强偸侨绱?。發(fā)現(xiàn)問題的共性,嘗試不同的因素組合,以縮小可能性。例如,問題可能源于文件共享時(shí)復(fù)制時(shí)間過長。如果在相同站點(diǎn)上,從一臺(tái)服務(wù)器復(fù)制到另一臺(tái)服務(wù)器時(shí),是否也很緩慢?如果是的話,可排除廣域網(wǎng)絡(luò)的嫌疑。在服務(wù)器上的本地磁盤之間復(fù)制過程是否緩慢?如果是的話,可排除SAN或局域網(wǎng)的嫌疑。如果你不得不使用數(shù)據(jù)包捕獲
或輸入/輸出(I/O)速度測(cè)試,故障排除可能需要很長時(shí)間。
文檔
文檔是一個(gè)非常有價(jià)值的故障診斷工具,可輕松訪問你的環(huán)境的拓?fù)?,并了解?yīng)用程序是如何工作的,讓你能夠迅速排除服務(wù)器問題。
你需要有扎實(shí)的數(shù)據(jù)中心操作知識(shí),并拷問自己幾個(gè)重要的問題:每個(gè)應(yīng)用程序涉及多少臺(tái)服務(wù)器?基本的網(wǎng)絡(luò)設(shè)置是什么?當(dāng)前是什么基礎(chǔ)設(shè)施?這些問題很有價(jià)值。例如,如果你有兩臺(tái)應(yīng)用服務(wù)器供客戶端通過循環(huán)DNS訪問,同時(shí)你的一半用戶反饋有問題。你從一開始就知道一半的用戶連接到各自的服務(wù)器,因此你不會(huì)將時(shí)間浪費(fèi)到另外一臺(tái)服務(wù)器上并試圖解決問題。
溝通
溝通是診斷服務(wù)器故障的關(guān)鍵。例如你的同事昨晚更改了服務(wù)器設(shè)置,結(jié)果第二天一些東西無法使用。你需要了解做了哪些更改,因?yàn)檫@可能就是原因所在。大型企業(yè)有正式的改革形勢(shì),涉及到每個(gè)人,但并不是所有的IT小組都會(huì)享受(或者阻礙,這得看你怎么看待這件事了)的。
當(dāng)一個(gè)新的應(yīng)用程序或其他項(xiàng)目改變投入生產(chǎn)時(shí),溝通可以幫助數(shù)據(jù)中心團(tuán)隊(duì)做好準(zhǔn)備并積極地檢查環(huán)境。否則當(dāng)終端用戶開始抱怨應(yīng)用無法正常工作的時(shí)候,你不得不詢問新應(yīng)用程序的部署和資源需求等情況。
監(jiān)控
在對(duì)服務(wù)器進(jìn)行故障排除時(shí),對(duì)正在進(jìn)行的操作進(jìn)行完整的描述可以幫助節(jié)省時(shí)間。
市場(chǎng)上有很多監(jiān)控工具用于不同規(guī)模和架構(gòu)的數(shù)據(jù)中心。正確配置之后,它們會(huì)跟蹤關(guān)鍵指標(biāo),如延遲和I/O速度等。監(jiān)控工具還會(huì)提醒你潛在的有用的信息,例如一個(gè)只剩1%磁盤空間的驅(qū)動(dòng)器將要導(dǎo)致服務(wù)器問題。
很多產(chǎn)品還會(huì)對(duì)服務(wù)進(jìn)行監(jiān)控,因此如果某個(gè)關(guān)鍵服務(wù)崩潰或中斷,監(jiān)控工具會(huì)發(fā)出警告或自動(dòng)按照已設(shè)置的規(guī)則嘗試重啟。
檢查日志
令人驚訝的是,服務(wù)器和相關(guān)的日志常常被忽視。
當(dāng)出現(xiàn)問題時(shí),技術(shù)人員認(rèn)為他們知道問題出自哪里,并且會(huì)花好幾個(gè)小時(shí)來證明他們的正確性。但是如果他們花上幾分鐘的時(shí)間檢查一下日志,會(huì)發(fā)現(xiàn)已記錄下來的確切的問題。例如,如果你知道正在交互的兩件事情以及它們的賬戶,就能夠很容易解決許可問題。
查看微軟Windows中的Event Viewer日志或Unix/Linux服務(wù)器上的系統(tǒng)記錄,這上面顯示了警告和錯(cuò)誤。應(yīng)用程序日志也值得一看,因?yàn)樗鼈兺ǔ0e(cuò)誤的數(shù)據(jù),為你指向正確的根本方向。
支持
有些管理員調(diào)用供應(yīng)商和日志記錄,但最好不要這樣做。檢查基礎(chǔ)事項(xiàng)之后,花幾分鐘調(diào)用日志,而不是直到停機(jī)幾個(gè)小時(shí)后再這樣做。
在解決事情之前不要著急,檢查數(shù)據(jù)中心供應(yīng)商支持的服務(wù)水平協(xié)議。如果你的供應(yīng)商直到第二個(gè)工作日都沒主動(dòng)聯(lián)系你,記錄問題可以盡早避免一個(gè)令人沮喪的夜晚。
許多供應(yīng)商網(wǎng)上有具體說明如何解決服務(wù)器問題。從知識(shí)庫和在線論壇中檢查供應(yīng)商的資源。
D1Net評(píng)論:
對(duì)于很多企業(yè)來說,不能排除服務(wù)器問題并且在前五分鐘內(nèi)解決問題著實(shí)會(huì)令人沮喪,但是不要害怕尋求幫助。充足的準(zhǔn)備、溝通和對(duì)環(huán)境的理解是拯救錯(cuò)誤的有利工具,只要找到正確方法,總能解決服務(wù)器故障問題。