零售商Macy's五年前部署了Hadoop集群,在此之前,它面臨著一個嚴(yán)峻的問題,那就是如何有效處理各種系統(tǒng)生成的銷售和營銷數(shù)據(jù)。Macy's這些年一直在積極擴展在線業(yè)務(wù),數(shù)據(jù)處理的問題也變得越來越嚴(yán)重,因為需要進(jìn)行處理分析的數(shù)據(jù)量一直在增加。
該公司的傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)有著嚴(yán)格的處理限制,無法處理非結(jié)構(gòu)化的信息——如文本。歷史數(shù)據(jù)基本上也是無法自由訪問的,通常這些數(shù)據(jù)會被歸檔到磁帶上,運往異地存儲設(shè)備。“數(shù)據(jù)科學(xué)家和其他分析師只能在特定時間段的數(shù)據(jù)上進(jìn)行數(shù)據(jù)查詢”,Macy's負(fù)責(zé)市場分析和客戶關(guān)系管理(CRM)系統(tǒng)的主管Seetha Chakrapany說道,“他們受到了嚴(yán)重的束縛,無法很好地完成工作。”
Hadoop系統(tǒng)部署后,上述問題得到了一定的緩解,該系統(tǒng)提供了大數(shù)據(jù)分析架構(gòu),也支持基本的商業(yè)智能(BI)和報表流程。“Hadoop集群能夠真正成為Macy's企業(yè)數(shù)據(jù)分析平臺”,Chakrapany 說道?,F(xiàn)在,分析團隊一直在使用Hadoop平臺,市場營銷、銷售業(yè)務(wù),產(chǎn)品管理等部門的數(shù)千名用戶得以訪問上百個BI儀表板,這些儀表板的數(shù)據(jù)都來源于Hadoop平臺上的分析。
但Macy's的大數(shù)據(jù)環(huán)境可不僅僅只有Hadoop集群。例如在前端,Macy's已經(jīng)部署了多種分析工具來滿足不同的應(yīng)用需求。在統(tǒng)計分析層面,這家零售商則使用SAS和Microsoft R Server完成,后者基于R開源統(tǒng)計編程語言。
還有其他一些工具負(fù)責(zé)提供預(yù)測分析,數(shù)據(jù)挖掘和機器學(xué)習(xí)能力。包括H2O,Salford Predictive Modeler,Apache Mahout開源的機器學(xué)習(xí)平臺和KXEN——三年前由SAP收購,已經(jīng)集成到SAP BusinessObjects預(yù)測分析軟件中。數(shù)據(jù)展示上,Macy's使用Tableau提供的數(shù)據(jù)可視化工具以及AtScale提供的基于Hadoop技術(shù)的BI軟件。
更好地分析大數(shù)據(jù)
這些不同的工具是確保大數(shù)據(jù)分析架構(gòu)準(zhǔn)確有效的關(guān)鍵要素,Chakrapany 在2016年Hadoop峰會上的演講和隨后的采訪中說到,使用統(tǒng)計方法和機器學(xué)習(xí)來進(jìn)行高級分析過程自動化是大勢所趨,他強調(diào)。
Chakrapany說,“我們一直處于實驗狀態(tài)。由于數(shù)據(jù)量巨大,不可能采用人工的方式來分析這些數(shù)據(jù)。所以,我們使用大量的統(tǒng)計算法來幫助我們認(rèn)清業(yè)務(wù)情況。包括客戶分析、訂單分析、產(chǎn)品和市場的數(shù)據(jù)分析,此外還有從網(wǎng)站捕獲的客戶點擊行為記錄。”
類似的情況也越來越多地出現(xiàn)在其他企業(yè)中。作為大數(shù)據(jù)平臺,如Hadoop,NoSQL數(shù)據(jù)庫和Spark 處理引擎被企業(yè)廣泛采用。部署先進(jìn)的分析工具,幫助企業(yè)分析業(yè)務(wù)數(shù)據(jù)流,這類方式被越來越多的企業(yè)所接受。
2016年11月,TechTarget針對企業(yè)應(yīng)用BI和分析軟件進(jìn)行的一個調(diào)查顯示,7000的受訪者中,26.7%的人表示,他們的企業(yè)已經(jīng)部署了預(yù)測分析工具。接下來預(yù)測分析軟件在企業(yè)未來一年的計劃投資榜單中高居榜首。有39.5%的受訪者表示,預(yù)測分析軟件與數(shù)據(jù)可視化、自助服務(wù)BI和企業(yè)報表等所有更主流的BI技術(shù)對于企業(yè)來說不可或缺,甚至更為重要。
2015下半年進(jìn)行的一項TDWI調(diào)查還發(fā)現(xiàn),越來越多企業(yè)計劃使用預(yù)測分析軟件來支持業(yè)務(wù)。在這種情況下,309 名BI,分析和數(shù)據(jù)管理方面的專業(yè)人士受訪者中,有87%的人表示,他們的企業(yè)已經(jīng)是上述技術(shù)的活躍用戶,或預(yù)計在三年內(nèi)實施這些技術(shù)。其他高級的分析形式,例如模擬和指令性分析,用戶數(shù)量也在逐漸增長。
預(yù)測分析的使用增長情況
用算法找到數(shù)據(jù)隱含的意義
機器學(xué)習(xí)工具和其他類型的人工智能技術(shù)——深度學(xué)習(xí),認(rèn)知計算也越來越多地受到關(guān)注,這些關(guān)注主要來源于技術(shù)用戶和供應(yīng)商,他們的分析團隊期望使用自動化算法來幫助他們進(jìn)一步探索數(shù)據(jù)集的意義。
Progressive Casualty Insurance Co是已經(jīng)開始接觸這些技術(shù)的公司之一。這家保險公司使用 Hadoop集群來加速其Snapshot程序, 該程序主要負(fù)責(zé)受保人的保險費用折扣,折扣力度則基于駕駛員的安全駕駛情況,其駕駛數(shù)據(jù)采集于車載診斷設(shè)備。
集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60個計算節(jié)點用于提升 Snapshot程序的速度,Progressive的大數(shù)據(jù)分析架構(gòu)包括一系列的工具,如SAS,R和H2O,該公司的數(shù)據(jù)科學(xué)家使用這些工具,在Hadoop系統(tǒng)中進(jìn)行數(shù)據(jù)分析和處理。
數(shù)據(jù)可視化軟件會備份大量的數(shù)據(jù),數(shù)據(jù)科學(xué)家在這些數(shù)據(jù)上運行預(yù)測算法,以幫助參與該計劃的用戶評估其安全駕駛情況。他們還使用分析結(jié)果確定不良的駕駛習(xí)慣和可能的機械問題,如發(fā)電機的信號異常,該問題可以通過分析電壓異常波動數(shù)據(jù)來判定。
預(yù)測分析和機器學(xué)習(xí)的功能十分強大,Pawan Divakarla——Progressive負(fù)責(zé)數(shù)據(jù)分析業(yè)務(wù)的主管說道,“你有那么多的數(shù)據(jù),并且你具有很好的模型用于分析。你 需要一些東西來幫助你,讓工作變得更為有效。”
更深入的大數(shù)據(jù)分析
Yahoo在2006年成為第一個將Hadoop應(yīng)用于生產(chǎn)環(huán)境的用戶,當(dāng)時,Hadoop的開發(fā)者之一Doug Cutting正在這家網(wǎng)絡(luò)搜索和互聯(lián)網(wǎng)服務(wù)公司工作,Yahoo宣傳自己是當(dāng)今Hadoop平臺最大的用戶。Yahoo的大數(shù)據(jù)分析架構(gòu),包括40000多個節(jié)點,300多個應(yīng)用,40個集群,Yahoo將Hadoop與Apache HBase數(shù)據(jù)庫,Apache Storm 實時處理引擎和其他大數(shù)據(jù)技術(shù)結(jié)合使用。但這家公司并不滿足于現(xiàn)狀,它一直在努力將這些技術(shù)擴展到新的領(lǐng)域。
Yahoo負(fù)責(zé)大數(shù)據(jù)和機器學(xué)習(xí)架構(gòu)的副總裁Andy Feng說道,“即使在10年后,我們?nèi)匀粫l(fā)現(xiàn)這么做的好處,在過去的三年里,他花了大約95%的時間專注于機器學(xué)習(xí)工具和應(yīng)用上。在過去,可以構(gòu)建并運行現(xiàn)有機器學(xué)習(xí)技術(shù)上的自動算法不足以在Hadoop集群處理如此龐大的數(shù)據(jù)集,其準(zhǔn)確性無法令人滿意。”
“我們一直嘗試機器學(xué)習(xí),但我們的嘗試有著一定的約束,所以產(chǎn)生的結(jié)果是有限的,Yahoo負(fù)責(zé)云計算和大數(shù)據(jù)平臺產(chǎn)品開發(fā)的高級總監(jiān)Sumeet Singh補充說道。不過,他和Feng都表示,近年來,情況已經(jīng)大為好轉(zhuǎn)。“我們看到,人工智能和機器學(xué)習(xí)重回人們的視線,其中一個主要原因就是數(shù)據(jù)量的增長,”Singh指出。
例如,Yahoo現(xiàn)在正在運行一個機器學(xué)習(xí)算法,該算法使用語義分析過程,更好地將付費廣告搜索結(jié)果頁面與用戶輸入的搜索關(guān)鍵字進(jìn)行匹配,它將每個搜索的營收提升了9%。另一個使用機器學(xué)習(xí)的應(yīng)用可以讓Yahoo Flickr在線照片和視頻服務(wù)的用戶能夠按照視覺內(nèi)容來對圖像進(jìn)行組織,而在以前,他們只能按照拍照日期排序。該算法還可以標(biāo)記那些不適合在工作中查看的照片,以幫助用戶避免在辦公室看照片時產(chǎn)生的尷尬情況,F(xiàn)eng說。
Hadoop集群節(jié)點新增了圖形處理單元,讓這些應(yīng)用成為了可能。Feng表示,GPU可以進(jìn)行傳統(tǒng)CPU無法完成的圖像處理。Yahoo在大數(shù)據(jù)分析架構(gòu)中新增了Spark處理引擎,接管了一些處理工作。
此外,Yahoo還部署了MLlib,Spark的機器學(xué)習(xí)算法內(nèi)置庫。然而,這些算法太過于基礎(chǔ),Singh說。這促使大數(shù)據(jù)團隊開發(fā)了一個深度學(xué)習(xí)算法庫CaffeOnSpark, Yahoo已經(jīng)在GitHub網(wǎng)站上傳了該算法庫,使用者可以自由下載。