浙江移動7*24小時“技術(shù)流”微服務不打折
作為中國移動的重要分支,浙江移動一直以“追求客戶滿意”為宗旨。為了更好地服務用戶,浙江移動2015年便搭建了微服務運行監(jiān)控平臺,只是隨著新技術(shù)的發(fā)展,該平臺在一些方面稍顯滯后,如缺乏內(nèi)部核心指標的監(jiān)控、異常分類及跟蹤能力不足、調(diào)用鏈代碼對應用有侵入、缺乏實時調(diào)控管理手段等問題,平臺的升級改造被提上日程。
亞信科技作為浙江移動多年的合作伙伴,對該平臺優(yōu)缺點有很深的了解,在接到優(yōu)化需求后,項目組在原有系統(tǒng)基礎(chǔ)上,基于容器技術(shù)提出了一套完整的升級改造方案,通過修改探針埋點等方式減小了上線過程對業(yè)務的影響。而升級后,浙江移動用戶最直接的感受是——真正體驗到了7*24小時的全天候無間斷服務,而不像以前經(jīng)常因為系統(tǒng)升級而造成業(yè)務無法辦理。
該項目贏得了浙江移動的高度認可,項目負責人陳航、褚小川表示:“新平臺修復了運營中的老問題,將業(yè)務影響壓到最低,新增了實例運行狀態(tài)監(jiān)控,輸出的指標數(shù)據(jù)為運維人員提供了更多監(jiān)控手段,極大縮短了問題定位的時間,同時優(yōu)化了調(diào)用鏈數(shù)據(jù)的處理流程,能在“分鐘級”展現(xiàn)用戶服務調(diào)用情況,詳細體現(xiàn)每一筆請求的業(yè)務調(diào)用關(guān)系,降低了故障排查的復雜度。”
微服務監(jiān)控平臺改造:開著飛機修飛機
而此前,浙江移動“微服務運行監(jiān)控平臺”的不足主要體現(xiàn)在:
首先,缺乏內(nèi)部核心指標的監(jiān)控:如線程、數(shù)據(jù)庫連接、GC、網(wǎng)絡連接、CPU、內(nèi)存等;
其次,調(diào)用鏈代碼侵入: Log4x通過硬編碼埋點,對應用有侵入,影響應用以及整個調(diào)用鏈的性能;
第三,異常分類不足:無法對業(yè)務異常進行分析、分類,異常實例跟蹤能力不足,不能通過異常信息定位問題;
第四,監(jiān)控支撐處理能力不足:隨著接入系統(tǒng)越來越多,原監(jiān)控系統(tǒng)擴展能力不足。同時,缺少實時調(diào)控管理手段,監(jiān)控指標出現(xiàn)告警時,無法快速介入;
最后,無法展示服務依賴關(guān)系:難以理清服務間的相互依賴程度,以及某服務出現(xiàn)異常時造成的影響范圍。
浙江移動希望借助平臺升級改造來消除以上不足,但前提是不能影響業(yè)務的正常運行,其難度比得上“開著飛機修飛機”,任何改動都牽一發(fā)動全身。
亞信科技:以最小代價實現(xiàn)最佳改造
于是, “如何以最小代價完成全面而系統(tǒng)的改造”就擺在了浙江移動合作伙伴——亞信科技這一頭兒,在結(jié)合實踐創(chuàng)新的基礎(chǔ)上,以下方案浮出水面:
1,采用無侵入式探針埋點對目標系統(tǒng)進行數(shù)據(jù)采集,無業(yè)務改造量,運行數(shù)據(jù)通過后期清洗、聚合計算,會形成各類統(tǒng)計指標,并可視化展現(xiàn)在監(jiān)控首頁;
2,用統(tǒng)計指標說話,通過統(tǒng)計接口、集群、中心的調(diào)用情況,作為擴縮容依據(jù);通過成功和失敗次數(shù)統(tǒng)計,了解系統(tǒng)健康情況,作為系統(tǒng)優(yōu)化基礎(chǔ);通過耗時統(tǒng)計,了解系統(tǒng)性能,作為系統(tǒng)調(diào)優(yōu)的基礎(chǔ);
3,優(yōu)化調(diào)用鏈,可展現(xiàn)請求的整個調(diào)用過程,每個調(diào)用環(huán)節(jié)的延時,輕松排查分布式系統(tǒng)下的異常,并定位問題所在;
4,對異常進行統(tǒng)計、分類,便于快速定位異常,實現(xiàn)高效運維;
5,展示服務的正反向依賴關(guān)系,任何新需求開發(fā)上線,都可以清晰地評估其影響范圍;
6,監(jiān)控能力可無限擴容,在對接配置中心后,可在線擴容升級。
亞信科技薛浩表示,“我們以最小代價,完成了對分布式系統(tǒng)架構(gòu)的全面監(jiān)控,收集監(jiān)控數(shù)據(jù)的耗時幾乎可以忽略不計。我們通過關(guān)鍵節(jié)點數(shù)據(jù)的收集,分析業(yè)務健康狀態(tài),并通過獲取系統(tǒng)日志、系統(tǒng)堆棧信息、GC信息、運行參數(shù)等一系列運維手段,實現(xiàn)故障排查和系統(tǒng)保障。能夠秒級響應10億級用戶訪問量,并能快速無感知的定制客戶需要收集的數(shù)據(jù)。”
截至目前,全新微服務運行監(jiān)控平臺的調(diào)用鏈可覆蓋浙江移動26個業(yè)務中心,即全省95%的業(yè)務量,所有的遠程調(diào)用都納入了監(jiān)控范圍。雖然成績顯而易見,但薛浩認為,“技術(shù)的更迭永無止境,正如逆水行舟不進則退,不斷迭代、讓技術(shù)始終保持先進性,是我們的堅定追求。”