Esri自2013年發(fā)布了GIS tools for Hadoop,正式加入互聯(lián)網(wǎng)大數(shù)據(jù)廠商的行列,至今已經(jīng)3年了。在這3年中風(fēng)云變幻,業(yè)界技術(shù)在不斷的發(fā)生著變更,Esri的大數(shù)據(jù)戰(zhàn)略也在不斷的向前推進(jìn)。 在剛剛結(jié)束的2016Esri空間信息技術(shù)開(kāi)發(fā)者大會(huì)上,在IT熱點(diǎn)技術(shù)專場(chǎng)的《ArcGIS平臺(tái)下的大數(shù)據(jù)挖掘》,與往年相比,發(fā)生了明顯的變化。往年因?yàn)镋sri自身的原因,將大數(shù)據(jù)限定在空間大數(shù)據(jù)這個(gè)領(lǐng)域里面。但是今年很明顯的發(fā)現(xiàn),在ArcGIS的平臺(tái)上,已將傳統(tǒng)的空間二字去掉,使得平臺(tái)支持的領(lǐng)域更加廣泛。
實(shí)際上,地理信息發(fā)展了這么多年,如果說(shuō)最能與互聯(lián)網(wǎng)大數(shù)據(jù)概念掛鉤的,只有LBS(基于位置的服務(wù))數(shù)據(jù)和遙感影像的數(shù)據(jù)。這兩類數(shù)據(jù)無(wú)論是從體量上,還是從生成速度、數(shù)據(jù)結(jié)構(gòu)、維度以及價(jià)值密度上,都能夠與互聯(lián)網(wǎng)大數(shù)據(jù)的概念貼合。但是傳統(tǒng)的空間分析乃至于空間數(shù)據(jù)挖掘領(lǐng)域,卻更多是在地理空間統(tǒng)計(jì)樣本上進(jìn)行分析。而且因?yàn)榭臻g數(shù)據(jù)的特點(diǎn),諸如空間自相關(guān)、空間異質(zhì)性等空間統(tǒng)計(jì)學(xué)與傳統(tǒng)統(tǒng)計(jì)學(xué)截然不同的概念,使得很多的分析,無(wú)法采用互聯(lián)網(wǎng)大數(shù)據(jù)中那些分布式計(jì)算的方法來(lái)實(shí)現(xiàn)。
在Esri中國(guó)高級(jí)咨詢師盧萌看來(lái),“這一次開(kāi)發(fā)者大會(huì),從大數(shù)據(jù)的熱炒狀態(tài)中,回歸了地理分析的本源。”
盧萌在其《ArcGIS平臺(tái)下的大數(shù)據(jù)挖掘》講座中談到,地理分析一直是地理信息系統(tǒng)區(qū)別于其他系統(tǒng)最大的不同點(diǎn)。地理信息首先是一個(gè)從不一樣的視角來(lái)看待整個(gè)世界。很多人都說(shuō),做地理信息的人,每天都像神一樣,在離地幾百米以上的高空俯視著整個(gè)大地。而地理分析讓這個(gè)視角更進(jìn)了一步,不但是從高空俯視著大地,而且通過(guò)不同的痕跡,可以讓我們的視野穿越過(guò)去未來(lái),在更廣闊的空間和時(shí)間線了解發(fā)生了什么事情。
其次,地理學(xué)研究的領(lǐng)域是所有領(lǐng)域中最為廣泛的,上至無(wú)窮的太空,下至人類所能探測(cè)到的最深的地底,都是地理學(xué)的研究范圍,很多研究都在改變著我們的生活。這樣一個(gè)廣泛的領(lǐng)域構(gòu)成了一個(gè)巨復(fù)雜的系統(tǒng),比之這個(gè)系統(tǒng)的龐大程度,特別是隨著人類觀察手段的日益提升,互聯(lián)網(wǎng)所謂的大數(shù)據(jù),在它面前,也都是九牛一毛。
在回歸地理分析本源的情況下,盧萌還介紹了新一代技術(shù)能夠給地理分析帶來(lái)什么。
他認(rèn)為,首先就是業(yè)界最流行的Hadoop的MapReduce框架進(jìn)化到2.0之后,對(duì)地理分析帶來(lái)的價(jià)值。本次開(kāi)發(fā)者大會(huì),首次在GIS領(lǐng)域演示了新一代大數(shù)據(jù)分析框架Spark的應(yīng)用。
因?yàn)閭鹘y(tǒng)的MpaReduce架構(gòu)對(duì)迭代運(yùn)算的支持很不好,所以很多地理分析都無(wú)法運(yùn)行在其上面,更多的只是在它上面運(yùn)行諸如過(guò)濾、聚合這樣的簡(jiǎn)單的空間分析。而新一代的Spark框架,因?yàn)槠洳捎昧藦椥苑植际綌?shù)據(jù)集(RDD)這一特性,能夠使得在Spark框架上,進(jìn)行迭代運(yùn)算的效率,超過(guò)傳統(tǒng)MapReduce的百倍以上。這樣,很多的分析算法就能夠直接跑在Spark上面了,諸如空間分析領(lǐng)域中最重要的前提計(jì)算步驟:構(gòu)建空間權(quán)重矩陣。利用Spark的優(yōu)勢(shì),完全可以將龐大的空間權(quán)重矩陣加載到RDD中,然后每次運(yùn)算都可以從預(yù)先構(gòu)建的矩陣中快速獲取鄰近要素。這樣就讓很多在以前不可能實(shí)現(xiàn)、具有強(qiáng)空間自相關(guān)的分析在分布式集群框架上運(yùn)行了。
據(jù)盧萌透露,未來(lái),Esri的分布式并行計(jì)算框架,將慢慢的從MapReduce上轉(zhuǎn)移到Spark上來(lái)。另外作為空間技術(shù)的業(yè)界領(lǐng)導(dǎo)者,Esri也致力于推動(dòng)開(kāi)源技術(shù)的發(fā)展。所以他建議有興趣的朋友可以從GitHub上下載最新的GIS Tools for Hadoop,開(kāi)始嘗試Spark分析框架在空間分析領(lǐng)域給我們帶來(lái)的變化。
盧萌最后還指出,ArcGIS軟件作為平臺(tái)級(jí)產(chǎn)品,無(wú)論是對(duì)空間信息技術(shù)的支撐,還是對(duì)非空間信息的內(nèi)容進(jìn)行支撐,都在不斷的進(jìn)步。“從淘汰VB,將Python作為官方指定腳本,到能夠在平臺(tái)中直接引入R語(yǔ)言,都表明了這種趨勢(shì),未來(lái)ArcGIS平臺(tái)將更加強(qiáng)大,也會(huì)有更廣泛的應(yīng)用。”