首先是服務(wù)器設(shè)備,數(shù)據(jù)中心里可以說有海量的服務(wù)器設(shè)備,幾乎清一色采用的是Linux系統(tǒng),掌握一些Linux操作系統(tǒng)的命令是必不可少的,還要至少熟悉一個(gè)內(nèi)置編輯器:VI或Nano,至少熟悉一個(gè)發(fā)行版,比如Centos、Debian、Ubuntu,要熟悉很多Linux運(yùn)維的命令,以便出了問題知道如何分析服務(wù)器的運(yùn)行狀態(tài),對LAMP或LNMP、FTP、DNS、SAMBA、EMAIL、NTP、DHCP等Linux可以支持的基礎(chǔ)協(xié)議要了解,熟悉這些協(xié)議的故障處理。
其次,是服務(wù)器一些虛擬化軟件技術(shù),比如KVM,虛擬化技術(shù)在數(shù)據(jù)中心里應(yīng)用已非常普遍,對KVM不熟悉將很難開展運(yùn)維工作,所以要掌握常用的虛擬化技術(shù),以及KVM的工作原理,包括在CPU、內(nèi)存、存儲、網(wǎng)絡(luò)等各個(gè)部分的虛擬化,最為重要的是要掌握KVM的各種管理工具:OpenStack、CloudStack、OpenNebula、Zstack等。現(xiàn)在虛擬化技術(shù)早已不再局限于服務(wù)器上,在數(shù)據(jù)中心的各種設(shè)備上都可以支持虛擬化,適當(dāng)掌握這些虛擬化的技能,非常有利于做好運(yùn)維工作。
第三,要會編寫一些程序腳本,比如使用Shell、Python、Perl等腳本語言做一些自動(dòng)化運(yùn)行腳本、診斷故障的腳本,使用這些腳本可以提升工作效率,將重復(fù)性的簡單工作交給腳本程序處理,也可以通過這些腳本判斷故障發(fā)生的位置和原因,高效的運(yùn)維將不再需要人工去逐個(gè)字符地去輸入各種命令,而且靠大量的腳本語言快速搞定工作。在平時(shí)的工作中,可以編寫一些特定腳本,然后慢慢累積形成腳本集,做什么樣的工作就用什么樣的腳本來完成,這將大大提升運(yùn)維的工作效率。
第四,數(shù)據(jù)中心里那么設(shè)備,僅掌握服務(wù)器是不夠的,網(wǎng)絡(luò)、安全都是需要重點(diǎn)學(xué)習(xí)的地方。數(shù)據(jù)中心數(shù)據(jù)網(wǎng)采用的是以太網(wǎng)協(xié)議,存儲網(wǎng)采用光纖通道協(xié)議,隨著以太網(wǎng)技術(shù)的成熟,大有兩網(wǎng)合一的趨勢,由以太網(wǎng)協(xié)議技術(shù)接管存儲網(wǎng),掌握以太網(wǎng)協(xié)議是運(yùn)維工程師的必修課程。當(dāng)然,以太網(wǎng)協(xié)議包含有太多的內(nèi)容,各種協(xié)議讓人看得眼花繚亂,根本沒有精力全部掌握,但至少應(yīng)該對自己數(shù)據(jù)中心所用到的協(xié)議知曉,再不濟(jì)也應(yīng)該掌握抓包的本領(lǐng)。在出現(xiàn)問題時(shí),懂得在各個(gè)網(wǎng)絡(luò)位置抓包,來確認(rèn)故障設(shè)備或線路,會使用Linux的tcpdump抓包或者ethreal、sniffer、Wireshark等抓包軟件,會在網(wǎng)絡(luò)設(shè)備上配置鏡像,將關(guān)心的流量抓出來進(jìn)行分析。當(dāng)出現(xiàn)網(wǎng)絡(luò)故障時(shí),通過抓包來分析雖然比較土,但這種方式最直接,直接找到故障位置。還有各種安全設(shè)備,安全過濾的規(guī)則查看、調(diào)整與修改都要熟悉。要懂得查看各種接口類型,硬件信息以及各種服務(wù)器類型比如:塔式、機(jī)架式、刀片式的工作原理。
第五,要掌握一下運(yùn)維平臺工具,利用這些工具做運(yùn)維,很多事情往往可以事半功倍,例如:SSH證書、Nagios、Puppet、Zabbix、Cacti、SaltStack、Pssh、Fabric等,這些都是開源的免費(fèi)網(wǎng)絡(luò)監(jiān)控工具,雖然用起來會有一些問題,但都是開源的,都可以根據(jù)自己數(shù)據(jù)中心的實(shí)際情況,進(jìn)行修改,最重要的是這些軟件都是免費(fèi)使用的,通過使用這些工具對數(shù)據(jù)中心進(jìn)行網(wǎng)絡(luò)監(jiān)控,可以及時(shí)掌握數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)行狀況,發(fā)現(xiàn)問題及時(shí)解決。當(dāng)然,也有一些專業(yè)性比較強(qiáng)的網(wǎng)絡(luò)監(jiān)控軟件,一般都是網(wǎng)絡(luò)廠商推出的,要收費(fèi)的軟件,這些軟件具有一些獨(dú)特的網(wǎng)絡(luò)監(jiān)控功能,與自己硬件設(shè)備的兼容性也更好,往往和自己的硬件設(shè)備綁定銷售,這類軟件運(yùn)行穩(wěn)定,遇到問題也可以尋求廠商幫助,比開源的網(wǎng)絡(luò)軟件要好。
第六,最后一點(diǎn),也是最為重要的一點(diǎn),就是工作態(tài)度。運(yùn)維的技術(shù)聰明人可能掌握快些,不夠聰明的人多花一點(diǎn)時(shí)間也可以掌握,所以很多時(shí)候并不是技術(shù)問題,而是工作責(zé)任心的問題。比如遇到問題時(shí),具有主人翁的意識,第一時(shí)間處理各種告警,消除隱患。平時(shí)將每個(gè)工作都有條理地處理好,注意與各個(gè)不同層級的人交流,注意對不同的人采用不同的溝通技巧。在工作上要有進(jìn)取心,避免消極怠工。有強(qiáng)烈的安全意識,尤其現(xiàn)在人們都對數(shù)據(jù)中心的安全問題極為關(guān)注,要避免數(shù)據(jù)中心出現(xiàn)數(shù)據(jù)泄露事件,在數(shù)據(jù)中心內(nèi)部各個(gè)環(huán)節(jié)增加安全防護(hù)設(shè)備,對出入數(shù)據(jù)中心人員和訪問進(jìn)行管控,把好數(shù)據(jù)中心的安全門,萬一數(shù)據(jù)中心出現(xiàn)嚴(yán)重的安全事故,那之前做的工作再好,都變得毫無意義。工作上要保持如履薄冰的心態(tài),小心駛得萬年船,謹(jǐn)慎對待工作中的每個(gè)細(xì)節(jié)。
數(shù)據(jù)中心涉及的技術(shù)知識包羅萬象,一個(gè)人的精力是有限的,不可能全部掌握,這時(shí)就要注意選擇,建議將以上列舉的幾個(gè)部分技能都掌握到,這些是運(yùn)維工程師必須具備的技能。只有這樣,您才有機(jī)會成為數(shù)據(jù)中心運(yùn)維方面的專家。