谷歌和微軟沒有提供正式數(shù)據(jù)提取服務(wù)來幫助用戶將大量數(shù)據(jù)放到云中,而且它們似乎也不打算在近期推出這樣的服務(wù)。因此,潛在用戶如何利用云中的數(shù)百TB的數(shù)據(jù)就變得有點神秘了。云供應(yīng)商通過數(shù)據(jù)提取服務(wù)為客戶們提供了一個機會,讓它們可以將硬盤中存儲的數(shù)據(jù)快速上傳到云中。亞馬遜網(wǎng)絡(luò)服務(wù)中的輸入/輸出服務(wù)就是第一批這類服務(wù)之一,支持最多16TB的數(shù)據(jù)提取,它的設(shè)備只有14英寸高、19英寸寬和36英寸長(標(biāo)準(zhǔn)19英寸機架中的8U設(shè)備的尺寸),重量在50磅以內(nèi)。
Rackspace提供了一款類似的服務(wù),服務(wù)的名稱是Cloud Files Bulk Import。電信巨頭新加坡電信的澳大利亞分公司Optus也將提供一款類似的服務(wù)。 澳大利亞云服務(wù)商Ninefold也推出了一款名為Sneakernet的類似服務(wù)。
某些其他的云供應(yīng)商也提供了類似的服務(wù),但沒有形成產(chǎn)品或進行宣傳。據(jù)一位云服務(wù)的客戶稱,他們從新的云服務(wù)供應(yīng)商那里借了一臺桌面NAS設(shè)備,然后又購買了一臺那樣的設(shè)備,將數(shù)據(jù)上傳到設(shè)備,然后分派了一名員工去管理云設(shè)備。NAS設(shè)備可隨身攜帶,出行的員工在飛機上可以將那些設(shè)備放在腿上。
它需要那些長度,因為正如AWS在宣傳推廣其輸入/輸出服務(wù)時所說的,這樣做比通過互聯(lián)網(wǎng)來傳輸數(shù)據(jù)要快一些。
原因很簡單,寬帶上網(wǎng)服務(wù)的廣告中所說的速度并不總是能夠在現(xiàn)實生活中達到。例如,Optus對我們說,雖然它最快的寬帶連網(wǎng)速度可達3-5Gbps,但標(biāo)準(zhǔn)服務(wù)協(xié)議只能保證300Mbps的速度。 以那個速度計算,上傳1TB的數(shù)據(jù)需要8個小時的時間,那還是在預(yù)留10%的帶寬和網(wǎng)絡(luò)流量不擁擠的情況下的樂觀預(yù)期。
很難想象這種速度將如何被用于提供PB級存儲服務(wù)的云服務(wù),比如Azure的定價分級規(guī)定大約5PB的數(shù)據(jù)量就要收費。 谷歌的BigQuery服務(wù)也承諾會支持最高數(shù)百TB的數(shù)據(jù)集的分析。
但是谷歌和微軟沒有提供有關(guān)客戶如何將數(shù)據(jù)上傳到云中的詳細資料。盡管微軟早就說過,它在2010年就對這樣的服務(wù)進行過評估了。
Wordpress備份插件廠商cloudsafe365的首席執(zhí)行官、聯(lián)合創(chuàng)始人Craig Deveson表示,谷歌沒有數(shù)據(jù)提取服務(wù)已經(jīng)成為一個大問題。他在為澳大利亞的一家軟件公司進行Gmail遷移時就遇到了這個問題。 在進行那個項目的時候,他發(fā)現(xiàn)將過去的電子郵件數(shù)據(jù)遷移到谷歌云中的最好方法是先將存儲著數(shù)據(jù)的磁盤發(fā)送到新加坡,然后上傳到亞馬遜的S3云存儲服務(wù)之中。數(shù)據(jù)進入亞馬遜的云中之后,我們必須運行一款程序來將數(shù)據(jù)提取出來,放到谷歌的后臺中。
將大量數(shù)據(jù)發(fā)送到服務(wù)型軟件供應(yīng)商的云中也需要采取類似的手段。
例如,Salesforce.com曾經(jīng)建議我們,零散的數(shù)據(jù)上傳可以通過零散API來進行,它可以讓SOAP和REST按批提取數(shù)據(jù),每次提取10000條數(shù)據(jù)記錄。公司說:“即便數(shù)據(jù)仍然要發(fā)送到服務(wù)器才行,但Force.com平臺會提交批處理命令。”
公司回答說,所有的通用數(shù)據(jù)庫產(chǎn)品都提供了提取到某個通用文件格式如.csv的功能。
至于人們是否能夠等待.csv或其他更大的文件那就是另一回事了。