“安全與隱私”自大數(shù)據(jù)概念誕生以來便一直伴隨其左右。
在這個數(shù)據(jù)大爆炸的時代,企業(yè)通過大數(shù)據(jù)可以更加高效的洞察和預(yù)見消費(fèi)者行為以及行業(yè)趨勢,但同時也伴隨著安全性的困擾。能否保護(hù)自己的隱私安全、信息安全,成為了企業(yè)部署大數(shù)據(jù)之前擺在面前的首道難題。
Hadoop作為大數(shù)據(jù)的首選平臺,從開發(fā)之初也一直被籠罩著安全性問題。
曾有開發(fā)者指出,“當(dāng)Hadoop在2004年開始開發(fā)的時候,對如何創(chuàng)建一個安全的分布式計算式環(huán)境上沒有考慮,Hadoop框架對用戶及服務(wù)的驗證和授權(quán)嚴(yán)重不足,用戶可以仿冒任意一個HDFS和mapreduce上的用戶,惡意的代碼可以以任何一個用戶提交到Job tracker”。他還提到,到了2009年,關(guān)于hadoop安全性的討論已經(jīng)接近白熱化了,安全被作為一個高優(yōu)先級的問題擺了出來。
雖然,Hadoop在面對多數(shù)據(jù)源的數(shù)據(jù)聚合與數(shù)據(jù)分析方面性能表現(xiàn)得十分高效,但也不能忽視由此帶來的安全性風(fēng)險。
國外專家指出,Hadoop在應(yīng)對企業(yè)的海量數(shù)據(jù)分析時,表現(xiàn)得靈活自如。但也不能忽視Hadoop引入的一系列新問題,包括安全性,數(shù)據(jù)訪問,數(shù)據(jù)監(jiān)控,HA,業(yè)務(wù)數(shù)據(jù)連續(xù)性等各個方面。這些問題是企業(yè)必須面對的問題。
在惠普公司企業(yè)安全產(chǎn)品部北亞區(qū)總經(jīng)理姚翔看來,大數(shù)據(jù)現(xiàn)在是一個很大的趨勢,預(yù)計未來五年之內(nèi),大數(shù)據(jù)在中國市場將平均增長51%。而其中,安全一定是不可回避的話題。雖然大數(shù)據(jù)尚處于初級階段,但在構(gòu)建數(shù)據(jù)庫和數(shù)據(jù)中心云的時候都必須有安全的考慮,如果沒有安全,構(gòu)建再大的業(yè)務(wù)系統(tǒng)可能最后的損失也會很大。
雖然業(yè)界普遍關(guān)注安全問題,但往往都是在實施后或者在實施過程中開始考慮。
實際上,在啟動大數(shù)據(jù)項目之前要考慮安全問題,才能做到未雨綢繆從容應(yīng)對。不應(yīng)該等到發(fā)生數(shù)據(jù)突破事件之后再采取保證數(shù)據(jù)安全的措施。
大數(shù)據(jù)的安全性問題應(yīng)在部署之前便加以考慮
分析機(jī)構(gòu)Dataguise最近發(fā)布了Hadoop十大數(shù)據(jù)安全措施,其中首條便指出,數(shù)據(jù)隱私措施越早越好。分析認(rèn)為,通過及早啟動并建立敏感數(shù)據(jù)預(yù)案,企業(yè)能盡早發(fā)現(xiàn)Hadoop環(huán)境中的敏感數(shù)據(jù),分析合規(guī)風(fēng)險并合理采用數(shù)據(jù)保護(hù)技術(shù),這不但能大大降低數(shù)據(jù)泄漏和合規(guī)風(fēng)險,還能提高大數(shù)據(jù)項目的投資回報。
以下是Dataguise列出的十大數(shù)據(jù)安全措施:
1.數(shù)據(jù)隱私措施越早越好。在規(guī)劃階段就明確數(shù)據(jù)隱私保護(hù)策略,最好在將數(shù)據(jù)導(dǎo)入Hadoop之前完成,這可以防患未然。
2.明確你所在企業(yè)中哪些數(shù)據(jù)元素屬于敏感數(shù)據(jù)。充分考慮企業(yè)的隱私政策,相關(guān)行業(yè)規(guī)定和政府法規(guī)。
3.審視分析環(huán)境和裝配Hadoop系統(tǒng)的過程中是否藏有/夾帶敏感數(shù)據(jù)。
4.收集足夠信息來明確合規(guī)風(fēng)險。
5.明確業(yè)務(wù)分析是否需要訪問真實數(shù)據(jù),或“脫敏”數(shù)據(jù)能否使用。然后選擇合適的敏感信息遮擋和加密等矯正技術(shù)(masking or encryption)。遮擋(masking)技術(shù)提供最好的安全性能,而加密則更具靈活性,視將來的需要而定。
6.確保數(shù)據(jù)保護(hù)方案能夠同時支持遮擋和加密兩種數(shù)據(jù)矯正技術(shù),尤其是當(dāng)需要將經(jīng)過遮擋處理和未經(jīng)遮擋的兩個版本的數(shù)據(jù)分別存放于不同的Hadoop目錄下的時候。
7.確保數(shù)據(jù)保護(hù)技術(shù)對所有數(shù)據(jù)文件提供一致的masking方式,這樣可以保證在各個數(shù)據(jù)匯聚維度上的分析的準(zhǔn)確性。
8.確定特定數(shù)據(jù)集是否需要定制的保護(hù)方案,出于數(shù)據(jù)單元安全管理的需要,可以考慮將Hadoop目錄劃分成更小的群組。
9.確保你選擇的加密方案與企業(yè)的訪問控制技術(shù)能夠互操作,這樣特定級別和身份的用戶只能訪問Hadoop集群中特定的數(shù)據(jù)范圍。
10.當(dāng)需要使用加密技術(shù)的時候,確保部署合適的技術(shù)(Java、Pig等)實現(xiàn)無縫加密,同時確保對數(shù)據(jù)的無障礙訪問。