應(yīng)對數(shù)據(jù)中心常見問題的IT監(jiān)控策略

責(zé)任編輯:editor005

作者:Jim O’Reilly

2016-09-05 14:26:34

摘自:TechTarget中國

如果修復(fù)BUG的周期長達12個月甚至更長,這清楚的表明了現(xiàn)有系統(tǒng)(例如COBOL)以及造成如此長周期的操作流程應(yīng)該被替換掉了。

作為一個數(shù)據(jù)中心管理員,如果缺乏更大的視野,很容易陷入到千篇一律的解決問題的工作中。然而,數(shù)據(jù)中心的問題會從運行的方方面面產(chǎn)生,從操作故障到宏觀經(jīng)濟問題。與其等待不可避免的問題出現(xiàn),管理員應(yīng)該積極的收集數(shù)據(jù)、分析趨勢、做好應(yīng)對準備。

本文介紹3個數(shù)據(jù)中心常見的問題,管理員通過IT監(jiān)控操作,能夠提前做好準備處理這些問題。

操作問題

如果修復(fù)BUG的周期長達12個月甚至更長,這清楚的表明了現(xiàn)有系統(tǒng)(例如COBOL)以及造成如此長周期的操作流程應(yīng)該被替換掉了。數(shù)據(jù)中心管理員應(yīng)該考慮將這些已有系統(tǒng)替換,可以替換為一個SaaS服務(wù),也可以是用SQL和C重寫。如果替換系統(tǒng)時,公司并沒有意愿更改商業(yè)流程,那你將付出巨大開銷,并且很大比例的軟件將會運行得很低效。特定部門迅速增長的系統(tǒng)更改請求,即是一個警告,表明一些員工抗拒改變商業(yè)流程。

在操作層面上,管理員最重要的工作,就是收集趨勢數(shù)據(jù),了解數(shù)據(jù)中心正在發(fā)生什么。如果一項工作需要原先兩倍的時間才能執(zhí)行完,則必須弄清楚為什么會這樣。管理員需要隨時監(jiān)控存儲、網(wǎng)絡(luò)和服務(wù)器的運行狀態(tài),通過這些監(jiān)控結(jié)果分析出系統(tǒng)瓶頸和錯誤。一個好的IT監(jiān)控系統(tǒng)將需要花費大量金錢和操作人員時間,但一個壞的靠暴力收集數(shù)據(jù)的系統(tǒng)會收集過多的數(shù)據(jù),造成信息過載,而非找到問題的根源。

更新存儲

似乎存儲更新的簡單解決方法就是當(dāng)存儲池滿了后,買更多的硬盤,但選擇正確類型的存儲器是至關(guān)重要的,例如SSD,SATA大容量驅(qū)動器,或網(wǎng)絡(luò)存儲器。你需要通過存儲監(jiān)控了解每一層級存儲的容量使用率和IOPS趨勢。因為目前最好的策略是將較少用到的數(shù)據(jù)從主存儲器層移出,因此判斷是否需要購買更多硬盤的方法即是根據(jù)自動計算的趨勢數(shù)據(jù)判斷哪些數(shù)據(jù)是較少被訪問的。如果你有許多存儲數(shù)據(jù)探針,趨勢分析將幫助你將存儲驅(qū)動器分配到最需要他們的地方去。

企業(yè)級存儲將變得更為復(fù)雜。它已經(jīng)從簡單的主/從硬盤驅(qū)動器(HHD)變?yōu)橐欢裇SD和大容量SATA HDD的組成。未來2年將出現(xiàn)非易失性內(nèi)存規(guī)格(NVDIMM)的存儲器,3D XPoint非易失性存儲器標準(NVMe)的SSD,高容量SATA SSD和越來越多的網(wǎng)絡(luò)和集群選擇,例如虛擬存儲區(qū)域網(wǎng)絡(luò)(SAN),超融合系統(tǒng)和遠程直接內(nèi)存訪問鏈接。當(dāng)這些技術(shù)形成主流后,自動化的IT監(jiān)控將是唯一的優(yōu)化運維的方式。

更先進的網(wǎng)絡(luò)

網(wǎng)絡(luò)也會造成數(shù)據(jù)中心一系列的問題。采用模版和策略來控制虛擬局域網(wǎng)建立和關(guān)閉將變得更為普遍,并將會被用到業(yè)務(wù)部門用戶的云服務(wù)配置中去。

然而這些用戶并沒有義務(wù)做優(yōu)化網(wǎng)絡(luò)的工作,當(dāng)一個新的云服務(wù)部署完后,他們?nèi)匀豢赡軙^續(xù)使用傳統(tǒng)的較松散的終端。使用自動化工具找出網(wǎng)絡(luò)瓶頸對改善用戶使用體驗將非常有用。 監(jiān)控一條鏈路潛在的和承載吞吐量的趨勢也是非常重要的。這可以揭示出哪些工作流量需要被重新分配,并且驗證這些改變是否有效。

隨著云和集群編配技術(shù)的進步,智能負載平衡方法將變得更為重要,它能夠?qū)⑿枰拇罅抠Y源的應(yīng)用實例分布到只有較輕網(wǎng)絡(luò)負載的環(huán)境中。 服務(wù)器還有一些額外的模塊需要被監(jiān)控,包括動態(tài)內(nèi)存(DRAM)和CPU占有率。很快將出現(xiàn)一些云配屬工具,能夠指出系統(tǒng)熱點,并自動化的進行負載平衡。

目前這還是一個正在發(fā)展的方向,公司還需要根據(jù)歷史數(shù)據(jù),以每個應(yīng)用為單位進行平衡決策。 任何一個好的IT監(jiān)控軟件都具備當(dāng)某些值超過門限后報警的功能。找到并使用這些軟件,能夠幫助快速定位問題。一些工具能夠?qū)⒔K端上的一個慢速工作的報警轉(zhuǎn)變?yōu)橐粋€秒級更新的應(yīng)用進程列表中的標記,無需人工從實際系統(tǒng)進程樹中去深入分析,例如eG Innovations Enterprice 6.1和PrinterLogic公司的Printer Installer。

總的來說,用好IT監(jiān)控軟件和趨勢分析工具,能夠使IT管理員能更好的響應(yīng)數(shù)據(jù)中心問題,并快速處理現(xiàn)實危機。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號