国产a级三级三级三级视频,777米奇在线影院鲁吧,100000部又湿又黄的视频

分析工具很難選? 看他們?nèi)绾瓮诰虼髷?shù)據(jù)價值

責(zé)任編輯：editor004

作者：Craig Stedman

2016-12-30 09:58:19

摘自：TechTarget中國

預(yù)測建模，機器學(xué)習(xí)和其他先進(jìn)的分析應(yīng)用程序，有助于挖掘大數(shù)據(jù)系統(tǒng)的商業(yè)價值，但對于許多用戶來說，這需要使用大量的工具，并付出一定努力才能達(dá)到預(yù)期。

零售商Macy's五年前部署了Hadoop集群，在此之前，它面臨著一個嚴(yán)峻的問題，那就是如何有效處理各種系統(tǒng)生成的銷售和營銷數(shù)據(jù)。Macy's這些年一直在積極擴展在線業(yè)務(wù)，數(shù)據(jù)處理的問題也變得越來越嚴(yán)重，因為需要進(jìn)行處理分析的數(shù)據(jù)量一直在增加。

該公司的傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)有著嚴(yán)格的處理限制，無法處理非結(jié)構(gòu)化的信息——如文本。歷史數(shù)據(jù)基本上也是無法自由訪問的，通常這些數(shù)據(jù)會被歸檔到磁帶上，運往異地存儲設(shè)備。“數(shù)據(jù)科學(xué)家和其他分析師只能在特定時間段的數(shù)據(jù)上進(jìn)行數(shù)據(jù)查詢”，Macy's負(fù)責(zé)市場分析和客戶關(guān)系管理(CRM)系統(tǒng)的主管Seetha Chakrapany說道，“他們受到了嚴(yán)重的束縛，無法很好地完成工作。”

Hadoop系統(tǒng)部署后，上述問題得到了一定的緩解，該系統(tǒng)提供了大數(shù)據(jù)分析架構(gòu)，也支持基本的商業(yè)智能(BI)和報表流程。“Hadoop集群能夠真正成為Macy's企業(yè)數(shù)據(jù)分析平臺”，Chakrapany 說道?，F(xiàn)在，分析團隊一直在使用Hadoop平臺，市場營銷、銷售業(yè)務(wù)，產(chǎn)品管理等部門的數(shù)千名用戶得以訪問上百個BI儀表板，這些儀表板的數(shù)據(jù)都來源于Hadoop平臺上的分析。

但Macy's的大數(shù)據(jù)環(huán)境可不僅僅只有Hadoop集群。例如在前端，Macy's已經(jīng)部署了多種分析工具來滿足不同的應(yīng)用需求。在統(tǒng)計分析層面，這家零售商則使用SAS和Microsoft R Server完成，后者基于R開源統(tǒng)計編程語言。

還有其他一些工具負(fù)責(zé)提供預(yù)測分析，數(shù)據(jù)挖掘和機器學(xué)習(xí)能力。包括H2O，Salford Predictive Modeler，Apache Mahout開源的機器學(xué)習(xí)平臺和KXEN——三年前由SAP收購，已經(jīng)集成到SAP BusinessObjects預(yù)測分析軟件中。數(shù)據(jù)展示上，Macy's使用Tableau提供的數(shù)據(jù)可視化工具以及AtScale提供的基于Hadoop技術(shù)的BI軟件。

更好地分析大數(shù)據(jù)

這些不同的工具是確保大數(shù)據(jù)分析架構(gòu)準(zhǔn)確有效的關(guān)鍵要素，Chakrapany 在2016年Hadoop峰會上的演講和隨后的采訪中說到，使用統(tǒng)計方法和機器學(xué)習(xí)來進(jìn)行高級分析過程自動化是大勢所趨，他強調(diào)。

Chakrapany說，“我們一直處于實驗狀態(tài)。由于數(shù)據(jù)量巨大，不可能采用人工的方式來分析這些數(shù)據(jù)。所以，我們使用大量的統(tǒng)計算法來幫助我們認(rèn)清業(yè)務(wù)情況。包括客戶分析、訂單分析、產(chǎn)品和市場的數(shù)據(jù)分析，此外還有從網(wǎng)站捕獲的客戶點擊行為記錄。”

類似的情況也越來越多地出現(xiàn)在其他企業(yè)中。作為大數(shù)據(jù)平臺，如Hadoop，NoSQL數(shù)據(jù)庫和Spark 處理引擎被企業(yè)廣泛采用。部署先進(jìn)的分析工具，幫助企業(yè)分析業(yè)務(wù)數(shù)據(jù)流，這類方式被越來越多的企業(yè)所接受。

2016年11月，TechTarget針對企業(yè)應(yīng)用BI和分析軟件進(jìn)行的一個調(diào)查顯示，7000的受訪者中，26.7%的人表示，他們的企業(yè)已經(jīng)部署了預(yù)測分析工具。接下來預(yù)測分析軟件在企業(yè)未來一年的計劃投資榜單中高居榜首。有39.5%的受訪者表示，預(yù)測分析軟件與數(shù)據(jù)可視化、自助服務(wù)BI和企業(yè)報表等所有更主流的BI技術(shù)對于企業(yè)來說不可或缺，甚至更為重要。

2015下半年進(jìn)行的一項TDWI調(diào)查還發(fā)現(xiàn)，越來越多企業(yè)計劃使用預(yù)測分析軟件來支持業(yè)務(wù)。在這種情況下，309 名BI，分析和數(shù)據(jù)管理方面的專業(yè)人士受訪者中，有87%的人表示，他們的企業(yè)已經(jīng)是上述技術(shù)的活躍用戶，或預(yù)計在三年內(nèi)實施這些技術(shù)。其他高級的分析形式，例如模擬和指令性分析，用戶數(shù)量也在逐漸增長。

預(yù)測分析的使用增長情況

用算法找到數(shù)據(jù)隱含的意義

機器學(xué)習(xí)工具和其他類型的人工智能技術(shù)——深度學(xué)習(xí)，認(rèn)知計算也越來越多地受到關(guān)注，這些關(guān)注主要來源于技術(shù)用戶和供應(yīng)商，他們的分析團隊期望使用自動化算法來幫助他們進(jìn)一步探索數(shù)據(jù)集的意義。

Progressive Casualty Insurance Co是已經(jīng)開始接觸這些技術(shù)的公司之一。這家保險公司使用 Hadoop集群來加速其Snapshot程序，該程序主要負(fù)責(zé)受保人的保險費用折扣，折扣力度則基于駕駛員的安全駕駛情況，其駕駛數(shù)據(jù)采集于車載診斷設(shè)備。

集群是基于Hadoop的 Hortonworks分布式框架的，它使用了60個計算節(jié)點用于提升 Snapshot程序的速度，Progressive的大數(shù)據(jù)分析架構(gòu)包括一系列的工具，如SAS，R和H2O，該公司的數(shù)據(jù)科學(xué)家使用這些工具，在Hadoop系統(tǒng)中進(jìn)行數(shù)據(jù)分析和處理。

數(shù)據(jù)可視化軟件會備份大量的數(shù)據(jù)，數(shù)據(jù)科學(xué)家在這些數(shù)據(jù)上運行預(yù)測算法，以幫助參與該計劃的用戶評估其安全駕駛情況。他們還使用分析結(jié)果確定不良的駕駛習(xí)慣和可能的機械問題，如發(fā)電機的信號異常，該問題可以通過分析電壓異常波動數(shù)據(jù)來判定。

預(yù)測分析和機器學(xué)習(xí)的功能十分強大，Pawan Divakarla——Progressive負(fù)責(zé)數(shù)據(jù)分析業(yè)務(wù)的主管說道，“你有那么多的數(shù)據(jù)，并且你具有很好的模型用于分析。你需要一些東西來幫助你，讓工作變得更為有效。”

更深入的大數(shù)據(jù)分析

Yahoo在2006年成為第一個將Hadoop應(yīng)用于生產(chǎn)環(huán)境的用戶，當(dāng)時，Hadoop的開發(fā)者之一Doug Cutting正在這家網(wǎng)絡(luò)搜索和互聯(lián)網(wǎng)服務(wù)公司工作，Yahoo宣傳自己是當(dāng)今Hadoop平臺最大的用戶。Yahoo的大數(shù)據(jù)分析架構(gòu)，包括40000多個節(jié)點，300多個應(yīng)用，40個集群，Yahoo將Hadoop與Apache HBase數(shù)據(jù)庫，Apache Storm 實時處理引擎和其他大數(shù)據(jù)技術(shù)結(jié)合使用。但這家公司并不滿足于現(xiàn)狀，它一直在努力將這些技術(shù)擴展到新的領(lǐng)域。

Yahoo負(fù)責(zé)大數(shù)據(jù)和機器學(xué)習(xí)架構(gòu)的副總裁Andy Feng說道，“即使在10年后，我們?nèi)匀粫l(fā)現(xiàn)這么做的好處，在過去的三年里，他花了大約95%的時間專注于機器學(xué)習(xí)工具和應(yīng)用上。在過去，可以構(gòu)建并運行現(xiàn)有機器學(xué)習(xí)技術(shù)上的自動算法不足以在Hadoop集群處理如此龐大的數(shù)據(jù)集，其準(zhǔn)確性無法令人滿意。”

“我們一直嘗試機器學(xué)習(xí)，但我們的嘗試有著一定的約束，所以產(chǎn)生的結(jié)果是有限的，Yahoo負(fù)責(zé)云計算和大數(shù)據(jù)平臺產(chǎn)品開發(fā)的高級總監(jiān)Sumeet Singh補充說道。不過，他和Feng都表示，近年來，情況已經(jīng)大為好轉(zhuǎn)。“我們看到，人工智能和機器學(xué)習(xí)重回人們的視線，其中一個主要原因就是數(shù)據(jù)量的增長，”Singh指出。

例如，Yahoo現(xiàn)在正在運行一個機器學(xué)習(xí)算法，該算法使用語義分析過程，更好地將付費廣告搜索結(jié)果頁面與用戶輸入的搜索關(guān)鍵字進(jìn)行匹配，它將每個搜索的營收提升了9%。另一個使用機器學(xué)習(xí)的應(yīng)用可以讓Yahoo Flickr在線照片和視頻服務(wù)的用戶能夠按照視覺內(nèi)容來對圖像進(jìn)行組織，而在以前，他們只能按照拍照日期排序。該算法還可以標(biāo)記那些不適合在工作中查看的照片，以幫助用戶避免在辦公室看照片時產(chǎn)生的尷尬情況，F(xiàn)eng說。

Hadoop集群節(jié)點新增了圖形處理單元，讓這些應(yīng)用成為了可能。Feng表示，GPU可以進(jìn)行傳統(tǒng)CPU無法完成的圖像處理。Yahoo在大數(shù)據(jù)分析架構(gòu)中新增了Spark處理引擎，接管了一些處理工作。

此外，Yahoo還部署了MLlib，Spark的機器學(xué)習(xí)算法內(nèi)置庫。然而，這些算法太過于基礎(chǔ)，Singh說。這促使大數(shù)據(jù)團隊開發(fā)了一個深度學(xué)習(xí)算法庫CaffeOnSpark， Yahoo已經(jīng)在GitHub網(wǎng)站上傳了該算法庫，使用者可以自由下載。

Hadoop 數(shù)據(jù)可視化