EMC研發(fā)中心劉偉:大數(shù)據(jù)=大機(jī)遇

責(zé)任編輯:sjia

2012-06-09 08:00:07

摘自:IT專家網(wǎng)

近日在2012地理信息開(kāi)發(fā)者大會(huì)上,EMC研發(fā)中心總經(jīng)理劉偉接受了記者采訪,劉偉認(rèn)為大數(shù)據(jù)意味著大機(jī)遇。

在我們無(wú)意識(shí)中這個(gè)世界已經(jīng)變成了一個(gè)大數(shù)據(jù)的世界了,我們經(jīng)常討論大數(shù)據(jù),究竟什么是大數(shù)據(jù)?近日在2012地理信息開(kāi)發(fā)者大會(huì)上,EMC研發(fā)中心總經(jīng)理劉偉接受了記者采訪,劉偉認(rèn)為大數(shù)據(jù)意味著大機(jī)遇。

隨著互聯(lián)網(wǎng)的發(fā)展,移動(dòng)社會(huì)的普遍應(yīng)用,包括Facebook的發(fā)展和電子商務(wù)、音頻、視頻、圖像廣泛的應(yīng)用,使得每一個(gè)個(gè)體都變成了巨大數(shù)據(jù)的創(chuàng)造者。這樣這個(gè)基數(shù)就變成了一個(gè)天文數(shù)字,而新產(chǎn)生的數(shù)據(jù)很大一部分是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)?;氐降乩硇畔⑾到y(tǒng),地理信息系統(tǒng)是在走入這個(gè)大數(shù)據(jù)行業(yè)里面的一個(gè)比較前列的行業(yè)。隨著技術(shù)的發(fā)展,在測(cè)繪領(lǐng)域,新的技術(shù)為我們提供了很多新的測(cè)繪方法,包括遙感技術(shù)、GPS技術(shù)、和測(cè)量技術(shù)等等,它能幫助我們收集更多數(shù)據(jù)這是好的方面。另一方面也無(wú)形中推動(dòng)了數(shù)據(jù)量的大發(fā)展。

而多媒體信息和傳統(tǒng)地理信息的結(jié)合也從某種意義上來(lái)講,讓地理信息的數(shù)據(jù)量有了一個(gè)跨越式的發(fā)展。比如說(shuō)Google地圖,它06年的數(shù)據(jù)量是70TB,到了2010年已經(jīng)達(dá)到了50萬(wàn)TB,隨著新的移動(dòng)互聯(lián)網(wǎng)、手機(jī)設(shè)備和LBS的發(fā)展,新的地理信息相關(guān)數(shù)據(jù)衍生出很多新的數(shù)據(jù)種類和增加了很多數(shù)據(jù)量。

我們看一下傳統(tǒng)上地理信息系統(tǒng)怎么管理和處理這些數(shù)據(jù)?傳統(tǒng)的地理信息系統(tǒng)相對(duì)處理數(shù)據(jù)的種類和類型比較單一、比較簡(jiǎn)單。主要是矢量數(shù)據(jù),就是點(diǎn)、線、面體以及跟矢量數(shù)據(jù)相關(guān)的一些屬性、信息??臻g數(shù)據(jù)是利用文件系統(tǒng)來(lái)管理,我們用關(guān)系數(shù)據(jù)庫(kù)來(lái)關(guān)系這種屬性數(shù)據(jù)。所以文件系統(tǒng)加上關(guān)系數(shù)據(jù)庫(kù)的系統(tǒng)就變成了一個(gè)很典型的地理信息的數(shù)據(jù)管理系統(tǒng)。這個(gè)系統(tǒng)里有一個(gè)很明顯的問(wèn)題,就是因?yàn)閿?shù)據(jù)是在不同的地方管理,所以造成了在計(jì)算效率和數(shù)據(jù)管理,包括保持?jǐn)?shù)據(jù)一致性的時(shí)候都有一些困難。所以后來(lái)有很多空間數(shù)據(jù)苦來(lái)同時(shí)管理空間數(shù)據(jù)和屬性數(shù)據(jù)。

地理信息發(fā)生了很大的變化,不管是從數(shù)據(jù)量還是數(shù)據(jù)的種類都跟以前不可同日而語(yǔ)。原來(lái)簡(jiǎn)單空間數(shù)據(jù)管理已經(jīng)不太適用了。我們覺(jué)得將來(lái)的方式對(duì)于矢量數(shù)據(jù)應(yīng)該考慮大規(guī)模并行的空間數(shù)據(jù)庫(kù)來(lái)進(jìn)行管理。面對(duì)這種大的數(shù)據(jù)量和多種類的數(shù)據(jù),對(duì)于地理信息來(lái)講要解決兩方面的問(wèn)題。一個(gè)是信息存儲(chǔ)問(wèn)題。因?yàn)橛羞@樣的數(shù)據(jù)量,我們信息存儲(chǔ)的平臺(tái)一定要具有這樣的特點(diǎn),第一容量要大,第二擴(kuò)展性要好,第三就是要能夠兼容異構(gòu)的數(shù)據(jù),能夠同時(shí)的管理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)的管理還有一個(gè)很重要的方面就是怎么分析和處理這個(gè)數(shù)據(jù)?這么大的數(shù)據(jù),傳統(tǒng)的分析方法有限,所以處理數(shù)據(jù)的時(shí)候有幾個(gè)關(guān)鍵的地方:

第一,一定是分布式的處理方式,通過(guò)這個(gè)方式以達(dá)到更高的處理效果。第二,一定要想辦法讓我們的分析、讓我們的計(jì)算更加的靠近數(shù)據(jù)。這么高的數(shù)據(jù)分析系統(tǒng)有沒(méi)有?我們說(shuō)“可以有”。這是EMC的一個(gè)存儲(chǔ)系統(tǒng),這是業(yè)界無(wú)論是從可靠性還是性能都是最高的。我們看一下它的容量,單一的文件系統(tǒng)可以達(dá)到15PB。而這樣大的文件系統(tǒng)里面橫向的可擴(kuò)展性能夠保證性能即便是這樣的大的數(shù)據(jù),IO也可以達(dá)到1.5兆。

有了數(shù)據(jù)很好,有了數(shù)據(jù)可以有很多工作可以做,更重要的是怎么從大量數(shù)據(jù)中挖掘出來(lái)信息。傳統(tǒng)的方法都是做結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)量比較小,是TB量級(jí)的那時(shí)候是縱向擴(kuò)展,接下來(lái)大數(shù)據(jù)時(shí)代,一方面數(shù)據(jù)既有結(jié)構(gòu)化的,也有非結(jié)構(gòu)化的。所以我們將來(lái)的分析平臺(tái)一定是能兼容結(jié)構(gòu)化和非結(jié)構(gòu)化。同時(shí)在分析能量上也要分析到PB量的數(shù)據(jù)。再有一個(gè)分析的形態(tài)一定是可擴(kuò)展的,因?yàn)閿?shù)據(jù)量不管是大它還是與時(shí)俱進(jìn)的。怎么樣讓數(shù)據(jù)動(dòng)態(tài)適應(yīng)數(shù)據(jù)的增長(zhǎng),一定要讓系統(tǒng)里有一個(gè)可擴(kuò)展的空間和能力。

舉一個(gè)例子,EBC分析平臺(tái),它有兩個(gè)核心引擎,一個(gè)是Greenplum,它是一個(gè)大規(guī)模的并行數(shù)據(jù)庫(kù),它有幾個(gè)很重要的特點(diǎn),一個(gè)是容量大,可以處理PB級(jí)數(shù)據(jù),另外一個(gè)就是可擴(kuò)展性,我們叫做無(wú)共享體系架構(gòu)。這個(gè)體系架構(gòu)可以部署在一個(gè)很多節(jié)點(diǎn)構(gòu)成的數(shù)據(jù)量,如果我們處理數(shù)據(jù)兩需要擴(kuò)大,性能需要提高,可以通過(guò)增加節(jié)點(diǎn)完成工作。數(shù)據(jù)加載速度可以達(dá)到10/秒,因?yàn)樗前阉械牟樵兎植嫉讲煌墓?jié)點(diǎn)進(jìn)行。這個(gè)系統(tǒng)所有的負(fù)載均衡都是由系統(tǒng)自動(dòng)完成的。

還有一點(diǎn)GPDB是支持地理空間數(shù)據(jù)的數(shù)據(jù)庫(kù)。它通過(guò)支持PostGIS可以支持空間計(jì)算。剛才我們強(qiáng)調(diào)了大數(shù)據(jù)一定要有大數(shù)據(jù)的分析頭腦,GPDB有內(nèi)置的分析強(qiáng)大功能,通過(guò)SQL的一些調(diào)用,可以調(diào)到很多分析的函數(shù),包括像SVM這些都是在系統(tǒng)里有支持的。

再有一點(diǎn)就是支持全文搜索。這種全文搜索集成了Soir,它可以實(shí)現(xiàn)自由文本的全文檢索。同時(shí)并行的體系架構(gòu),在全文搜索中是完全被簡(jiǎn)化的,搜索的效率非常高。剛才講的這些都是結(jié)構(gòu)化的數(shù)據(jù)里面用什么樣的方式進(jìn)行分析。對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)處理現(xiàn)在最好的方式就是Greenplum HD。它在標(biāo)準(zhǔn)的基礎(chǔ)上做了很多改進(jìn),特別是性能和可靠性上的改進(jìn)。比如說(shuō)增加了數(shù)字節(jié)點(diǎn)內(nèi)容,可以增加反應(yīng)速度和避免一些單節(jié)點(diǎn)的問(wèn)題造成系統(tǒng)的問(wèn)題。同時(shí)增加了一些競(jìng)像的配套反應(yīng),這些都是根據(jù)系統(tǒng)可靠性采用的一些方式。

總的來(lái)說(shuō)Greenplum這個(gè)平臺(tái)是一個(gè)大數(shù)據(jù)完整的分析解決方案,涵蓋了所有的數(shù)據(jù),不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),加上分布式結(jié)構(gòu)體系架構(gòu),可以在分析大數(shù)據(jù)過(guò)程中實(shí)現(xiàn)高容量高效率。

當(dāng)前地理信息行業(yè)在經(jīng)歷一個(gè)很大的轉(zhuǎn)變,這個(gè)轉(zhuǎn)變其中有一個(gè)方面就是我們要面對(duì)的數(shù)據(jù)是大數(shù)據(jù),這對(duì)我們所有人來(lái)說(shuō)是一個(gè)機(jī)會(huì)。在以數(shù)據(jù)為中心的時(shí)代,數(shù)據(jù)非常重要,擁有分析數(shù)據(jù)、駕馭數(shù)據(jù)的能力更重要。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)