日前,Boing Boing在網(wǎng)上發(fā)布了一份長達96頁關于英國情報機構(gòu)GCHQ數(shù)據(jù)挖掘技術(shù)的電子書—《數(shù)據(jù)挖掘研究問題書(Data Mining Research Problem Book)》。據(jù)悉,這份文件最早由愛德華·斯諾登獲得。
Boing Boing為這本電子書打上了一個“可能發(fā)生的最糟糕的情況是什么?”的副標題,并對其進行以下描述:一種為想要利用惡意軟件尋找許可、感染敵人電腦或網(wǎng)絡的間諜所使用的清單。
從電子書中了解到,這份數(shù)據(jù)挖掘手冊由來自海爾布隆數(shù)學研究所的研究人員和GCHQ和布里斯托爾大學的研究人員聯(lián)合編寫。據(jù)Boing Boing披露,相關人員一半的時間花在公共研究工作上,而另外一半時間則用在政府的秘密項目開發(fā)上。
手冊為GCHQ數(shù)據(jù)挖掘工作提供了非常具有價值的見解,至少在2011年9月編寫完成的時候是非常有用的。那個時候,一些“傳輸者”—互聯(lián)網(wǎng)連接—其速度為10 gigabits/s。而手冊中寫道:“一個10G的傳輸者可以生產(chǎn)巨大的數(shù)據(jù)。為了讓它們變得可管理,首先要做的就是丟掉大部分我們看得到的數(shù)據(jù)包。”
然而重要的是,其實被丟掉的只是內(nèi)容,而非源數(shù)據(jù)。這也就證實了GCHQ在對源數(shù)據(jù)監(jiān)控中所扮演的中心角色,換句話說,這個機構(gòu)甚至有可能在《監(jiān)聽者憲章(Snooper Charter)》到來之前就已經(jīng)開始數(shù)據(jù)收集了。
還有值得注意的部分則是隱寫術(shù)—將信息隱藏在另外一個文件中,其中一個常用的辦法就是通過對JPEG圖像系數(shù)的修改將數(shù)據(jù)藏在里邊,與此同時,對圖片的改變則要盡量保持最小化。
不過手冊中大部分內(nèi)容都集中在GCHQ大規(guī)模源數(shù)據(jù)儲存的審查上。
當有外媒就這一份文件真實性向GCHQ求證時,該機構(gòu)發(fā)言人稱:“我們不對此做評論,”僅簡單地提供了一個非常官方的回應。