關(guān)于大數(shù)據(jù)的實(shí)戰(zhàn)技術(shù)

責(zé)任編輯:一三

2014-03-17 09:22:42

摘自:CSDN

大數(shù)據(jù)范圍越來越廣,隨著不同應(yīng)用的爆發(fā)式增長,數(shù)據(jù)分析正在被更多行業(yè)企業(yè)所知曉并實(shí)踐,比如互聯(lián)網(wǎng)、金融、零售、醫(yī)療、以及制造業(yè)等。

大數(shù)據(jù)范圍越來越廣,隨著不同應(yīng)用的爆發(fā)式增長,數(shù)據(jù)分析正在被更多行業(yè)企業(yè)所知曉并實(shí)踐,比如互聯(lián)網(wǎng)、金融、零售、醫(yī)療、以及制造業(yè)等。與此同時,對于統(tǒng)計(jì)分析系統(tǒng)應(yīng)用的爭論,也隨著應(yīng)用與實(shí)踐的逐步深入而日趨激烈。

正如之前就“數(shù)據(jù)收集與分析”的話題與 LinkedIn商業(yè)分析部總監(jiān)張溪夢討論時,他特別提到的一點(diǎn):“統(tǒng)計(jì)分析有兩個知名系統(tǒng),SAS和R。前者穩(wěn)定,閉源,功能眾多,大型企業(yè)用戶很多。后者,開源,反應(yīng)快,但并不穩(wěn)定,專業(yè)領(lǐng)域優(yōu)勢明顯,年輕人很喜歡用。各有空間和市場。”是的,直到現(xiàn)在,圍繞SAS和R,仍有不同的擁護(hù)者在持續(xù)熱烈地討論。

WildTrack動物保護(hù)組織聯(lián)合創(chuàng)始人Zoe Jewell及Sky Alibhai博士

有這樣感觸的不僅是企業(yè),還有很多需要進(jìn)行數(shù)據(jù)分析的組織。近日,有機(jī)會與SAS軟件旗下的JMP軟件大中華區(qū)總經(jīng)理嚴(yán)雪林、WildTrack動物保護(hù)組織聯(lián)合創(chuàng)始人Zoe Jewell及Sky Alibhai博士溝通,深入了解了作為公益性動物保護(hù)組織,WildTrack是如何在JMP統(tǒng)計(jì)分析軟件上開發(fā)出自己的技術(shù)——FIT(Footprints Identification Technology,足跡識別技術(shù))。

我們討論的重點(diǎn)在:FIT研發(fā)方向、對底層數(shù)據(jù)分析平臺的需求、技術(shù)困難和實(shí)現(xiàn)路徑、為何沒有選擇R、未來在國內(nèi)野生動物保護(hù)(東北虎和大熊貓等)方面的應(yīng)用等。值得敬佩的是,F(xiàn)IT技術(shù)已經(jīng)全面對野生動物保護(hù)機(jī)構(gòu)和個人開放(免費(fèi)),而作為其底層分析平臺,近20年來,JMP公司一直免費(fèi)為全球野生動物保護(hù)組織提供。

FIT,數(shù)據(jù)分析平臺上的“APP”

Jewell是WildTrack動物保護(hù)組織聯(lián)合創(chuàng)始人兼主席,擁有倫敦衛(wèi)生與熱帶病醫(yī)學(xué)院理科碩士及劍橋大學(xué)獸醫(yī)碩士。他告訴我,F(xiàn)IT,足跡識別技術(shù),實(shí)際上是基于JMP軟件的數(shù)據(jù)分析方法創(chuàng)造出來的“APP或工具包”(我們更傾向認(rèn)為這是一種SaaS)。其原理是通過動物腳印的分析、追蹤、比較來進(jìn)行數(shù)據(jù)分析,確定整個生物種群的生存、生活規(guī)律和發(fā)展的狀況,為動物保護(hù)有關(guān)方面的決策打下基礎(chǔ)。FIT已經(jīng)在非洲大象、黑犀牛、白犀牛、獅子、獵豹、犰狳、北極熊等動物追蹤和分析中都有所應(yīng)用。更有意思的是,Jewell和Alibhai已經(jīng)與國家林業(yè)局貓科動物研究中心一起,在東北虎基地里面做了很多野外工作,并與四川臥龍和雅安一起,共同為大熊貓的保護(hù)和野生大熊貓種群的調(diào)查、探尋做著基礎(chǔ)的培訓(xùn)工作。

FIT足跡識別技術(shù)

談到FIT技術(shù)的研發(fā)初衷,是很多年以前,Jewell在中非的津巴布韋附近的一個公園里做野生動物保護(hù)工作的時候,給犀牛安裝了無線電項(xiàng)圈,從而監(jiān)控其生存狀態(tài)。當(dāng)時,無線電是很先進(jìn)的技術(shù),也很昂貴,但并不是很有效(在草原上容易使用,但在森林或灌木叢中,并不好用)。更可怕的是,十多年過去,通過Jewell和Alibhai的研究發(fā)現(xiàn),因?yàn)闊o線電技術(shù)的應(yīng)用,雌性犀牛的受孕率不斷下降(沒有佩戴無線電的母犀牛每三年就會自然懷孕一次,但當(dāng)不斷的增加戴項(xiàng)圈的次數(shù)后,其兩次懷孕之間的間隔可長達(dá)十年)。

Alibhai 是WildTrack動物保護(hù)組織共同創(chuàng)始人,擁有烏干達(dá)馬凱雷雷大學(xué)動物學(xué)學(xué)士、牛津大學(xué)動物學(xué)哲學(xué)博士,對這種“侵入式技術(shù)”保護(hù)動物的負(fù)面影響,他非常重視和傷心,一直在積極探索新的“非侵入式”動物保護(hù)方法。

有沒有有效、低成本、非侵入式,盡可能不影響動物,對動物的傷害盡可能少,并且在任何地方都可以使用的新技術(shù)?Jewell 說:“一次和非洲動物追蹤者一起工作時,當(dāng)我們在非洲獵人面前使用無線技術(shù)時,遭到了嘲笑。他們說‘為什么你們使用這么愚蠢的技術(shù),而不通過腳印。這樣多簡單、多直接、多清晰。’

如果要從頭開始研發(fā)足跡識別技術(shù),對于動物學(xué)家們而言,幾乎不可能(被迫的學(xué)習(xí)背后的統(tǒng)計(jì)學(xué)原理和技術(shù),這對動物學(xué)家而言是不可思議的)。他們需要能夠支持個性化開發(fā)的數(shù)據(jù)分析平臺。

Alibhai說:“那個時候我們很想找到一些簡單的數(shù)據(jù)分析方法,去幫助我們了解這些腳印分析的原理是什么,很偶然的機(jī)會知道了JMP軟件(SAS軟件旗下產(chǎn)品)。我們拿到的第一個版本的JMP是在20年以前,JMP有個很獨(dú)特的地方,JMP有自己的編程語言,叫JMP Script Language(JSL)腳本語言。和其他程序語言不一樣的地方是,它很簡單,很容易讀,不像計(jì)算機(jī)編程那樣涉及到很多原理性的東西,它都是在應(yīng)用層面的。”

將圖形、圖像引入數(shù)據(jù)分析的世界

在獲得JMP公益性支持之后,Jewell和Alibhai開始一步步構(gòu)建起他們的足跡識別技術(shù)。當(dāng)然,問題很多:

如何辨識腳印?用數(shù)碼攝像機(jī)或者普通照相機(jī)來拍攝。

如何辨識其中的區(qū)別模式?來確保能夠準(zhǔn)確地將兩組看起來很相似的腳印中辨別出這是兩只不同的犀牛。這需要找到一套簡單的統(tǒng)計(jì)方法來建立模型。事實(shí)上,正常人眼中一樣的腳印,在統(tǒng)計(jì)學(xué)中是有顯著差異的。其目標(biāo)是,通過模型將腳印還原回犀牛的世界,區(qū)分究竟是一只犀牛還是兩只完全不同的犀牛。

如何辨識出如動物性別這樣更深層次的需求?也就是說,除了辨識它是屬于不同的犀牛之外,還要能夠辨認(rèn)出它到底是屬于雌性犀牛還是雄性犀牛。

FIT中東北虎腳印對比分析圖

這其中,在底層分析系統(tǒng)中針對Jewell和Alibhai的需求進(jìn)行開發(fā)必不可少。當(dāng)Jewell和Alibhai希望技術(shù)開發(fā)人員能夠?qū)?ldquo;圖形、圖像引入數(shù)據(jù)分析的世界,通過我們提供的圖形來分析其中的元素,并找出圖形之間顯著、規(guī)律性的差別。”SAS軟件的聯(lián)合創(chuàng)始人,也是JMP的創(chuàng)始人John Sall幫了大忙。要知道,在統(tǒng)計(jì)分析軟件中,1980年就已存在的JMP在可視化方面很強(qiáng),因?yàn)槠湟婚_始的使命就是結(jié)合圖形化,使基于大型計(jì)算機(jī)、小型機(jī)的分析簡單而統(tǒng)一。John Sall同意將需求引入JMP,并進(jìn)行新的開發(fā),以幫助Jewell和Alibhai實(shí)現(xiàn)可視化目標(biāo)。

事實(shí)上,通過JMP中復(fù)雜的數(shù)學(xué)原理和方法開發(fā)FIT工具包,實(shí)現(xiàn)在辨別動物身份的同時,辨別性別、年齡等目標(biāo)都已經(jīng)實(shí)現(xiàn)。而通過對區(qū)域內(nèi)動物腳印分析,可以確認(rèn)動物數(shù)量和活動范圍,進(jìn)而為制定動物保護(hù)策劃提供依據(jù)。這些FIT已經(jīng)做到,是“非常了不起的突破”。

當(dāng)相關(guān)論文被發(fā)表之后,來自中國東北林業(yè)大學(xué)國家林業(yè)局貓科動物研究中心的姜廣順教授主動聯(lián)系了他們。姜教授面臨的最大挑戰(zhàn)是:中國大興安嶺、小興安嶺地區(qū)的野生老虎通?;顒拥姆秶谀睦??數(shù)量有多少?這些老虎性別的比例是什么樣的?他曾經(jīng)通過很多傳統(tǒng)方法,如看糞便、用自動野外的攝像機(jī)追蹤、DNA分析等,但都無法得到關(guān)鍵信息,所以希望能得到Jewell和Alibhai的幫助。“去年,東北野生動物調(diào)查員所收集的視覺信息、圖片信息交給我們后,通過FIT詳細(xì)的分析,我們得出了一個特定區(qū)域有七只野生老虎的結(jié)論,并將其中的性別、比例等分析結(jié)果都給到了姜教授。”

“不僅是東北虎,還有野生大熊貓,能夠參與到中國以及世界上兩個最重要的瀕危物種的保護(hù)當(dāng)中去,對我們來說,這是一件非常榮幸的事情。我們也驚喜地看到,中國政府在野生動物的保護(hù)方面正在投入越來越多的資源,在政府層面得到越來越多的重視,和我們打交道的中國政府機(jī)構(gòu)官員都非常熱情,并且非常主動地展現(xiàn)出極高的興趣來和我們合作。最近,在臥龍和雅安的大熊貓保護(hù)基地,本來以為需要好幾個月才能拿到腳印等資料,結(jié)果回答說,只要兩三周就可以把一切工作結(jié)束。這讓我們很驚訝。能夠和這樣重視動物保護(hù),并且愿意投入大量資源的政府合作去保護(hù)這些動物,使得我們的工作變得更加有效,也更加有意義。” Jewell對我說。

在動物保護(hù)領(lǐng)域,JMP和FIT是免費(fèi)的

對于像Jewell和Alibhai這樣的科學(xué)家而言(或者是工程師,數(shù)據(jù)分析員),他們的工作,更應(yīng)該是將這些工具集按照自己所需要的工作順序和邏輯管理好、整合好,形成簡單、易用的工具包,便于做現(xiàn)場分析和調(diào)查的時候,能夠直接調(diào)用。而實(shí)現(xiàn)這一目標(biāo),其中的技術(shù)路徑很有價值。

野生東北虎的腳印變成一組組的X坐標(biāo)和Y坐標(biāo)的數(shù)據(jù)

不同的物種,需要在FIT中調(diào)整各個不同的參數(shù)?還是開發(fā)不同的模塊來做分析?

Jewell:FIT在JMP軟件里附加的一個工具包,菜單中有不同生物種群的組合。每個物種都有很獨(dú)特腳印的模式和特征,有些物種有高度的相似性,比如貓科動物里的老虎、獅子、豹、山貓等等,它們的腳印模式都是四個腳趾頭在前,后面一個大的腳掌的印子,不僅長相一樣,模式也有高度的相似性。對于那些生物來說,只要調(diào)整里面一些關(guān)鍵的參數(shù)就可以。對于其他的一些物種來說,就要開發(fā)出一些完全不同的新的工具包或模塊來做,比如大熊貓,大熊貓和貓科動物不一樣的地方在于,大熊貓的前面有五個腳趾,在側(cè)面還有一個專門用于抓握東西的另外的小趾頭,在底下還有一塊類似于小腳掌的東西,所以它的模式、結(jié)構(gòu)長相和其他動物是不一樣的。而以大象來舉例,所有大象的腳印都是一樣,都是一個巨大的橢圓形,沒有太多的細(xì)節(jié)可以參考,所以它辨識的難度自然要增加一些。所以專門為大象這樣的物種,開發(fā)出完全全新的模塊,去適應(yīng)它的腳掌。

Alibhai:大熊貓的腳趾很特別,有五個腳趾。這個在功能上來講和人類的大拇指是一樣的,是類似于墊、腳掌一類的東西,非常獨(dú)特,是和所有的生物都完全不一樣的模式。所以對于大熊貓來說,我們開發(fā)出完全不同的新的模塊,去分析它們的這些特征。首先是找到它的腳掌的圖像,然后將腳掌信息拆分成很多小的信息,這些信息包括腳趾之間的距離,中心點(diǎn)之間的距離,各個中心點(diǎn)連線之后不同的角度、每一個腳趾邊緣的關(guān)鍵數(shù)據(jù)信息等,作為原始數(shù)據(jù)來分析。

需要的開發(fā)點(diǎn)在哪些方面?

Jewell:FIT都是用JMP的腳本語言開發(fā)出來的?,F(xiàn)在還在持續(xù)開發(fā),增加更多功能和特征,讓它變成對于野外工作的人來說更加容易使用和辨識,而不需要懂太多統(tǒng)計(jì)學(xué)原理和技術(shù)。舉個例子,從操作層面看,只要將圖片的信息拉入菜單,就可以自動計(jì)算圖形特征,并自由設(shè)置圖像點(diǎn),來對圖形圖像進(jìn)行旋轉(zhuǎn)和重新處理,確保與標(biāo)準(zhǔn)化樣本一致。這樣就不需要對野外取證人員有太苛刻的要求才可以拍照,因?yàn)闃?biāo)尺度已經(jīng)設(shè)置在系統(tǒng)中,只要簡單操作就可以完成。除此以外,還可以通過不同的參數(shù)設(shè)置,如雪的厚度會影響腳印,很深的雪和很淺的雪,出來的效果有可能是不一樣的。所以系統(tǒng)允許輸入不同參數(shù),即取照時雪的厚度是怎樣,系統(tǒng)就會自動調(diào)整圖形的關(guān)鍵位置的參考點(diǎn)?,F(xiàn)在,我們還在與北卡州立大學(xué)的工程系同事們一起做一項(xiàng)新的項(xiàng)目,將整個過程自動化,即完全自動的對這個圖像信息進(jìn)行處理。以后,還將有深度圖和3D圖的分析,以及通過反面信息看到正面信息,讓FIT更加完善和易用。

東北虎的腳印分析過程是怎么樣的?

Jewell:首先通過圈養(yǎng)或者捕獲的東北虎進(jìn)行樣本的對照,通過反復(fù)校驗(yàn)?zāi)P秃蛧?yán)密的測試,最終保證了近乎100%準(zhǔn)確度。而后,通過圖像分析和數(shù)據(jù)處理,將野生東北虎的腳印變成一組組的X坐標(biāo)和Y坐標(biāo)的數(shù)據(jù)。對一張腳印圖形而言,需要130個測量值。我們對比分析了600張腳印數(shù)據(jù),得出44頭東北虎的結(jié)論。并通過進(jìn)一步的設(shè)定,判斷這是哪種類型的東北虎(雄性或雌性),以及是年輕或年老的。而這些結(jié)論,都可以通過圖形分析展現(xiàn)出來。

FIT技術(shù)上很有特點(diǎn),是否會考慮開源,可以讓更多企業(yè)或組織來使用?

Jewell:在動物保護(hù)中,JMP很慷慨(John Sall做出承諾,任何野生動物保護(hù)的組織都可以免費(fèi)使用JMP),他不僅為我們,還為更多動物保護(hù)的組織和個人提供免費(fèi)的JMP。FIT現(xiàn)在也免費(fèi)提供給大家。這已經(jīng)相當(dāng)于開源了。所有的機(jī)構(gòu)、組織和個人都能免費(fèi)使用這項(xiàng)新的、好的技術(shù)。

有沒有考慮過FIT也可以在R語言中應(yīng)用?

Jewell:沒有選擇R的一個關(guān)鍵原因是R沒有辦法像JMP一樣對圖形進(jìn)行強(qiáng)大的量化和處理的能力。FIT還沒有百分之百的完全成型,我們還將不斷完善這個產(chǎn)品,比如界面更美觀、細(xì)節(jié)更完善、使用過程要更加平滑和易用。但無論它將來能夠成熟到什么樣的地步,我們都希望FIT是免費(fèi)提供給別人使用。

FIT對IT系統(tǒng)有要求么?

Alibhai:腳印一般都是一串一串的,要確保信息的完整性和準(zhǔn)確性,數(shù)據(jù)量就要大。對比兩個腳印和兩串腳印,計(jì)算量是幾何級數(shù)增加的。一般兩組數(shù)據(jù)對比時,需要調(diào)用數(shù)百次的模型對比分析。這樣對后臺運(yùn)算次數(shù)和數(shù)量要求較高。但隨著目前IT產(chǎn)品性能的提升,很容易滿足相關(guān)需求。

Alibhai:我們測試過JMP和其他統(tǒng)計(jì)軟件,也測試過R。從處理速度上看,數(shù)據(jù)量很小的時候,幾乎差不多。但是當(dāng)數(shù)據(jù)量很大時,就會出現(xiàn)百倍甚至千倍的差異。R的開源特征使得其在統(tǒng)計(jì)有效性驗(yàn)證方面有問題,而軟件工程中的穩(wěn)定性和可靠性也比較有挑戰(zhàn)。我們希望得到的是反復(fù)測試校驗(yàn)后,模型有效性得到明確的驗(yàn)證平臺。

是否會將攝像、無線電、監(jiān)控等其他技術(shù)也集合到FIT中?

Jewell:每一個技術(shù)都有它的優(yōu)點(diǎn)和缺陷,我們一定要整合技術(shù)的優(yōu)點(diǎn)。雖然無線電對某些種群有傷害,但對其他種群傷害較小。野外保護(hù)里現(xiàn)在有一個越來越流行、越來越新的邏輯,就是成本要盡可能低、有效,實(shí)施、落實(shí)要相對簡單。我們希望得到真實(shí)的、自然的野生動物的數(shù)據(jù),要確保整個數(shù)據(jù)獲取的過程對它們的影響要盡可能的小,就是非侵入性的理念。

在統(tǒng)計(jì)分析平臺上,應(yīng)用分析將會百花齊放

當(dāng)被問到分析和云計(jì)算是否能緊密結(jié)合時,JMP軟件大中華區(qū)總經(jīng)理嚴(yán)雪林的觀點(diǎn)很值得品味:“統(tǒng)計(jì)分析對于實(shí)時要求并不高,同樣的數(shù)據(jù),十個統(tǒng)計(jì)學(xué)家得出的結(jié)論可能會有十種。所以需要反復(fù)討論、模型訓(xùn)練,需要依照統(tǒng)計(jì)模型和數(shù)據(jù)原理來算出無限的接近和模擬的分析結(jié)論。這一過程有時候會很長,甚至?xí)?-2年。舉個例子,比如股票K線圖,可以每一秒都實(shí)時,但分析不會。 ”所以在他看來,“現(xiàn)在,分析和云結(jié)合并不緊密”。

SAS軟件旗下的JMP軟件大中華區(qū)總經(jīng)理 嚴(yán)雪林

雖然明顯與大數(shù)據(jù)浪潮下的數(shù)據(jù)分析的熱度背離,但這樣的觀點(diǎn)卻非?,F(xiàn)實(shí)。要知道,在銀行業(yè)、高科技、半導(dǎo)體、制藥、生物等對數(shù)據(jù)分析成熟度較高的行業(yè)中,已經(jīng)成為研發(fā)的黃金標(biāo)準(zhǔn)或公認(rèn)標(biāo)準(zhǔn)的JMP是很有發(fā)言權(quán)的。嚴(yán)雪林說:“數(shù)據(jù)分析不僅在中國,即使在全球也還沒有進(jìn)入一個主流應(yīng)用的領(lǐng)域。很多大型企業(yè)內(nèi)部報(bào)表還是Excel,商業(yè)智能軟件都還沒有。BI是數(shù)據(jù)展示,當(dāng)發(fā)現(xiàn)其中有些項(xiàng)目或者業(yè)績出現(xiàn)變化時,就需要進(jìn)行統(tǒng)計(jì)分析了。而目前現(xiàn)狀是,即使是行業(yè)領(lǐng)先企業(yè),數(shù)據(jù)分析也沒有落實(shí)到這些層面,比如銀行,對于風(fēng)險、市場營銷、運(yùn)營、財(cái)務(wù)、績效管理、網(wǎng)點(diǎn)設(shè)置等關(guān)鍵領(lǐng)域?qū)霐?shù)據(jù)進(jìn)行分析的意識還不足。”

“值得高興的是,現(xiàn)在很多大的廠商都構(gòu)建了獨(dú)立的數(shù)據(jù)分析團(tuán)隊(duì),嘗試性的做交叉銷售、提升銷售、交易關(guān)聯(lián)性分析。企業(yè)數(shù)據(jù)應(yīng)用深度、市場競爭力、整體環(huán)境的變化都使得這兩年數(shù)據(jù)分析熱了起來。相信未來,在統(tǒng)計(jì)分析的平臺上,應(yīng)用分析將會百花齊放。”

寫在最后:

嚴(yán)雪林、Jewell以及 Alibhai博士幽默且坦率的回答給我們留下了深刻的印象。而報(bào)以最熱烈掌聲的是,在FIT的開發(fā)和應(yīng)用中,沒有任何商業(yè)利益的存在,唯一的利益所在就是要保護(hù)動物、保護(hù)自然生態(tài)。就像Jewell和Alibhai所參加的中國野生動物保護(hù)項(xiàng)目,沒有任何商業(yè)利益在內(nèi),即使是差旅費(fèi)用,都是他們自己支付的。有一種追求,值得尊敬。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號