本研究構(gòu)建了一套大數(shù)據(jù)采集、存儲體系,將系統(tǒng)分為采集層、ODS、DW、DM等四層,分別完成海量數(shù)據(jù)的采集、匯總、處理、生成價值數(shù)據(jù)過程中的不同環(huán)節(jié)。其中,采集層負責原始數(shù)據(jù)的采集,ODS層負責統(tǒng)一不同系統(tǒng)間的業(yè)務內(nèi)容,對部分海量數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)進行轉(zhuǎn)換。DW層是以空間換時間的一層,要形成大量的基礎Cube,基礎常用業(yè)務粒度的數(shù)據(jù)。實現(xiàn)統(tǒng)一的KPI過程,是ODS層指標轉(zhuǎn)換的基礎。DM層主要是面向業(yè)務的組合,面向分析的Cube變換,面向挖掘的數(shù)據(jù)變換。
數(shù)據(jù)分類存儲
在數(shù)據(jù)存儲過程中,按照數(shù)據(jù)價值和生命周期管理原則(熱數(shù)據(jù)對存儲性能要求高,隨著數(shù)據(jù)生命周期的變化,數(shù)據(jù)價值降低,逐漸向一般性能存儲遷移,其中數(shù)據(jù)價值的參考項包括時效性、訪問頻率、價值密度、業(yè)務意義等),可以將不同數(shù)據(jù)分類存儲,制定不同的存儲方式及存儲周期。
對于采集層的原始數(shù)據(jù),將采集層的數(shù)據(jù)加載到基礎數(shù)據(jù)緩存,為數(shù)據(jù)整合提供緩存,其中大數(shù)據(jù)1~3天,傳統(tǒng)數(shù)據(jù)7天。對于ODS層數(shù)據(jù),通過內(nèi)存庫關聯(lián)與整合,ETL為ODM提供完整、準確的數(shù)據(jù)。該層存儲周期:大數(shù)據(jù)3個月,傳統(tǒng)數(shù)據(jù)1年。對于DW層數(shù)據(jù),通過基于數(shù)據(jù)模型的并行計算域數(shù)據(jù)庫計算,提供多用途的輕度匯總,該層數(shù)據(jù)類型主要為按維度、事實組織的數(shù)據(jù),存儲周期為3年。
數(shù)據(jù)處理及存儲過程采用了分布式架構(gòu),其中有兩項關鍵技術(shù)—HDFS和MapReduce,應用這兩項技術(shù)能給系統(tǒng)帶來如下技術(shù)優(yōu)勢。
Hadoop分布式文件系統(tǒng)適合運行在通用硬件(x86服務器)上的分布式文件系統(tǒng),HDFS對外開放文件命名空間并允許用戶數(shù)據(jù)以文件形式存儲;MapReduce能自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應于一個計算任務(Task),并自動調(diào)度計算節(jié)點來處理相應的數(shù)據(jù)塊。作業(yè)和任務調(diào)度功能主要負責分配和調(diào)度計算節(jié)點(Map節(jié)點或Reduce節(jié)點),同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制。
具體應用案例
通過該系統(tǒng)的推進落地,吉林省完成了省內(nèi)大數(shù)據(jù)處理平臺—數(shù)據(jù)共享平臺的建設,該系統(tǒng)日均處理數(shù)據(jù)超過10T左右,并為吉林省內(nèi)多個上層應用提供了數(shù)據(jù)支撐,比如互聯(lián)網(wǎng)端到端系統(tǒng)能以四大類關鍵業(yè)務(網(wǎng)頁瀏覽類、視頻類、即時通信類、應用下載類)進行端到端質(zhì)量分析,通過五元五階分析定位方法,能夠定位質(zhì)差業(yè)務SP、質(zhì)差小區(qū)、質(zhì)差核心網(wǎng)網(wǎng)元、質(zhì)差終端等,并找出業(yè)務問題原因;CSFB業(yè)務質(zhì)量分析系統(tǒng)能實現(xiàn)全流程質(zhì)量概況分析、全流程質(zhì)差網(wǎng)元問題定位分析;客戶滿意度畫像從覆蓋質(zhì)量、網(wǎng)絡感知等網(wǎng)絡指標判斷用戶滿意度,做到在被投訴之前發(fā)現(xiàn)問題。
這些應用在吉林省內(nèi)日常的網(wǎng)絡問題分析、優(yōu)化,業(yè)務預測、發(fā)展支撐等方面發(fā)揮著有力的數(shù)據(jù)支撐作用。