對(duì)于擁有龐大用戶數(shù)量的通信網(wǎng)絡(luò)運(yùn)營(yíng)商來(lái)說(shuō),其數(shù)據(jù)的“產(chǎn)量”一直都很大。電信業(yè)的數(shù)據(jù)類型,主要包括客戶信息數(shù)據(jù)(如客戶入網(wǎng)資料、套餐情況)、業(yè)務(wù)過(guò)程數(shù)據(jù)(如通話記錄、客戶服務(wù)記錄等)、網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)(如網(wǎng)絡(luò)性能、客戶終端使用情況等)。數(shù)據(jù)的量級(jí)規(guī)模需要相應(yīng)的存儲(chǔ)技術(shù)解決方案來(lái)支撐,解決方案的能力體現(xiàn)為數(shù)據(jù)容量、數(shù)據(jù)處理速度和數(shù)據(jù)吞吐速率等指標(biāo)。
從傳統(tǒng)存儲(chǔ)走向分布式存儲(chǔ)
傳統(tǒng)上,運(yùn)營(yíng)商采用關(guān)系數(shù)據(jù)庫(kù)(RDB)或數(shù)據(jù)倉(cāng)庫(kù)(DW),主要處理電信業(yè)務(wù)運(yùn)營(yíng)過(guò)程數(shù)據(jù)、資源信息、話單記錄等結(jié)構(gòu)化的數(shù)據(jù)類型。對(duì)于核心業(yè)務(wù)(響應(yīng)時(shí)間在1ms之內(nèi)),一般的數(shù)據(jù)容量在20TB量級(jí),吞吐速率IOPS在20K~2M量級(jí);對(duì)于非核心業(yè)務(wù)(響應(yīng)時(shí)間在20ms之內(nèi)),數(shù)據(jù)容量可能達(dá)到3PB,吞吐速率IOPS達(dá)到1K~10K量級(jí)。傳統(tǒng)的存儲(chǔ)服務(wù)器采用2~16個(gè)控制器加上最大1500塊硬盤的配置,是可以滿足這種量級(jí)的關(guān)系型數(shù)據(jù)庫(kù)應(yīng)用需求的。
在移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務(wù)崛起之后,原有的這些結(jié)構(gòu)化數(shù)據(jù)在全部數(shù)據(jù)量中所占的比例迅速降低。運(yùn)營(yíng)商經(jīng)常會(huì)看到,80%以上的新增數(shù)據(jù)都是視頻流、網(wǎng)頁(yè)鏈接、圖片、文本等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),也就是如今眾所周知的“大數(shù)據(jù)”。對(duì)于運(yùn)營(yíng)商來(lái)說(shuō),大數(shù)據(jù)蘊(yùn)含著眾多的增值業(yè)務(wù)創(chuàng)新機(jī)會(huì),如:存儲(chǔ)(日志存儲(chǔ)和分析、搜索服務(wù)、應(yīng)用商店內(nèi)容下載、視頻內(nèi)容存儲(chǔ)等),查詢(詳單、上網(wǎng)記錄、投訴系統(tǒng)等),分析處理(在線2G/3G話單處理、WAP內(nèi)容分析、SMS監(jiān)控和分析、日志分析、視頻文件分析等),以及諸多數(shù)據(jù)量大、需求靈活多變、需要高聚合帶寬訪問(wèn)的抽取/轉(zhuǎn)換/加載(ETL)類應(yīng)用等。
但要利用大數(shù)據(jù)實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新,必須重新審視存儲(chǔ)解決方案。如果沿用傳統(tǒng)的SAN方案,采用專用存儲(chǔ)服務(wù)器來(lái)應(yīng)對(duì)數(shù)據(jù)擴(kuò)容的話,需要付出高額的前期投資;而且垂直化的專用存儲(chǔ)管理軟件,難以讓不同的子系統(tǒng)之間共享存儲(chǔ)資源,從而降低了運(yùn)營(yíng)商的投資回報(bào)率。分布式存儲(chǔ)的引入,能夠很好地解決傳統(tǒng)SAN難以根除的容量和性能均衡分布的難題。典型的分布式存儲(chǔ)系統(tǒng),采用1~2U的存儲(chǔ)服務(wù)器,每臺(tái)服務(wù)器帶有8~24塊硬盤,在標(biāo)準(zhǔn)的服務(wù)器機(jī)架上很容易實(shí)現(xiàn)性能和容量的擴(kuò)展,維護(hù)也非常簡(jiǎn)單。
此外,不同類型的數(shù)據(jù)被訪問(wèn)或被處理的“熱度”是不一樣的,大量的“冷”數(shù)據(jù)并不需要很高的響應(yīng)速度,如果采用可擴(kuò)展性更靈活的廉價(jià)存儲(chǔ)方案,能夠使運(yùn)營(yíng)商節(jié)省大量的設(shè)備投資成本。在分布式存儲(chǔ)系統(tǒng)中,數(shù)據(jù)類型按照數(shù)據(jù)的使用“熱度”,可以分為在線、近線、離線數(shù)據(jù),對(duì)不同熱度的數(shù)據(jù)采取不同的技術(shù)策略。例如,在線數(shù)據(jù)如虛擬化的響應(yīng)時(shí)間可能在30ms以內(nèi),近線數(shù)據(jù)如媒體資訊的響應(yīng)時(shí)間可以放寬到100ms以內(nèi),而云盤、歸檔、備份等相對(duì)較“冷”的離線數(shù)據(jù),響應(yīng)時(shí)間即使超過(guò)1s也仍然處在用戶可接受的范圍之內(nèi)。