數(shù)據(jù)分析趨勢的十熱五冷

責任編輯:cres

作者:Martin Heller

2017-08-11 11:18:58

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

大數(shù)據(jù)、機器學習、數(shù)據(jù)科學——數(shù)據(jù)分析革命正在迅速發(fā)展。讓你的商業(yè)分析師 商業(yè)智能專業(yè)人士(BA BI pros)在數(shù)據(jù)分析的最新技術(shù)和策略上保持領(lǐng)先。

大數(shù)據(jù)、機器學習、數(shù)據(jù)科學——數(shù)據(jù)分析革命正在迅速發(fā)展。讓你的商業(yè)分析師/商業(yè)智能專業(yè)人士(BA/BI pros)在數(shù)據(jù)分析的最新技術(shù)和策略上保持領(lǐng)先。
 
數(shù)據(jù)分析正在迅速成為IT的命脈。大數(shù)據(jù)、機器學習、深度學習、數(shù)據(jù)科學——分析大量數(shù)據(jù)的方法和技術(shù)的范圍正在迅速擴大。為了深入了解客戶行為、系統(tǒng)性能和新的收益機會,你的數(shù)據(jù)分析策略將受益于最新的數(shù)據(jù)分析趨勢。
 
下面一起來看看數(shù)據(jù)分析技術(shù)、方法和策略,以及開始降溫的曾經(jīng)炙手可熱的數(shù)據(jù)分析趨勢。從業(yè)務(wù)分析師到數(shù)據(jù)科學家,每一個與數(shù)據(jù)打交道的人都受到數(shù)據(jù)分析革命的影響。如果你的組織希望利用數(shù)據(jù)分析實現(xiàn)可操作的智能,則數(shù)據(jù)分析趨勢的以下熱點指標應(yīng)成為你的向?qū)А?/div>
 
升溫:自助式商業(yè)智能(BI)
 
誰:商業(yè)分析師/商業(yè)智能(BI / BA)專業(yè)人士、管理者
 
通過Tableau、Qlik Sense、Power BI和Domo等自助式BI工具,管理人員可以按圖形形式獲取當前的業(yè)務(wù)信息。雖然IT一開始可能需要一定量的設(shè)置,但在添加數(shù)據(jù)源時,清理數(shù)據(jù)和創(chuàng)建分析的大部分工作都可以由商業(yè)分析師完成,并且分析可以隨時從他們打開的最新數(shù)據(jù)自動更新。
 
管理者可以用圖形化的方式與分析結(jié)果進行交互,以確定需要解決的問題。在商業(yè)智能生成的儀表板或有關(guān)銷售數(shù)字的“故事”中,這可能意味著要深入了解業(yè)績不佳的商店、銷售人員和產(chǎn)品,或發(fā)現(xiàn)同比的同店比較。這些發(fā)現(xiàn)可能會反過來指導(dǎo)未來的存貨水平、產(chǎn)品銷售和促銷活動決策、甚至在服務(wù)不足的地區(qū)建立額外的商店。
 
升溫:移動儀表板
 
誰:商業(yè)分析師/商業(yè)智能專業(yè)人士、管理者、開發(fā)者
 
在管理人員很少在辦公桌的世界里,管理工具需要對移動設(shè)備友好的儀表板提供有用和及時的幫助。大多數(shù)自助式商業(yè)智能工具已經(jīng)具備這一功能,但并不是每一個關(guān)鍵的業(yè)務(wù)量度都必須通過商業(yè)智能工具。
 
例如,制造工廠可能會有一個專門的質(zhì)量保證(QA)體系來監(jiān)控所有生產(chǎn)線。所有工廠管理者都需要知道任何線路是否在事件發(fā)生的幾分鐘內(nèi)已經(jīng)偏離公差;這一切都可輕以松完地成,只需每分鐘查詢質(zhì)量保證數(shù)據(jù)庫的應(yīng)用程序,更新并顯示Shewhart控制圖,并在生產(chǎn)線不符合規(guī)格時可選擇性地發(fā)出警報。
 
降溫:Hadoop
 
誰:數(shù)據(jù)科學家
 
Hadoop似乎是“我應(yīng)該如何存儲和處理真正的大數(shù)據(jù)”這個問題的答案?,F(xiàn)在看起來更像是在“在變得不可能維護之前,你可以將多少個移動部件塞進系統(tǒng)里”的問題。
 
Apache Hadoop項目包括四個模塊:Hadoop Common(實用程序)、Hadoop分布式文件系統(tǒng)(HDFS)、Hadoop YARN(調(diào)度程序)和HadoopMapReduce(并行處理)。人們通常使用一個或多個相關(guān)項目:Ambari(集群管理)、Avro(數(shù)據(jù)序列化)、Cassandra(多主機數(shù)據(jù)庫)、Chukwa(數(shù)據(jù)收集)、HBase(分布式數(shù)據(jù)庫)、Hive(數(shù)據(jù)倉庫)、Mahout(機器學習和數(shù)據(jù)挖掘)、Pig(執(zhí)行框架)、Spark(計算引擎),Tez(用于替換MapReduce的數(shù)據(jù)流編程框架)和ZooKeeper(協(xié)調(diào)服務(wù))。
 
如果這還不夠復(fù)雜,還可以把Apache Storm(流處理)和Kafka(消息傳輸)算進來?,F(xiàn)在考慮供應(yīng)商的增值:亞馬遜(Elastic Map Reduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR和SAP Altiscale。感到困惑了嗎?
 
升溫:R語言
 
誰:有強大的統(tǒng)計數(shù)據(jù)的數(shù)據(jù)科學家
 
數(shù)據(jù)科學家有很多使用統(tǒng)計方法分析數(shù)據(jù)的選擇。最方便和最強大的方法之一是使用免費的R編程語言。R是創(chuàng)建可重復(fù),高質(zhì)量分析的最佳方法之一,因為與電子表格不同,R腳本可以被輕松審核并重新運行。R語言及其包存儲庫(package repositories)提供了廣泛的統(tǒng)計技術(shù)、數(shù)據(jù)處理和繪圖,以至于如果有技術(shù)存在的話,它就可能在R包中實現(xiàn)。R對機器學習的支持幾乎一樣強大,盡管它可能不是深層神經(jīng)網(wǎng)絡(luò)的首選,因為這需要比R目前所提供的計算性能更高。
 
R以免費的開源形式提供,它被嵌入到數(shù)十種商業(yè)產(chǎn)品,包括Microsoft Azure Machine Learning Studio和SQL Server 2016。
 
升溫:深層神經(jīng)網(wǎng)絡(luò)
 
誰:數(shù)據(jù)科學家
 
最強大的深度學習算法是某些深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),它們是由多層交替的線性和非線性處理單元(因此稱為“深”)構(gòu)建的神經(jīng)網(wǎng)絡(luò),并且使用大規(guī)模算法和大量的訓練數(shù)據(jù)進行訓練。深層神經(jīng)網(wǎng)絡(luò)可能有10到20個隱藏層,而典型的神經(jīng)網(wǎng)絡(luò)可能只有少數(shù)幾個。
 
網(wǎng)絡(luò)中的層數(shù)越多,它可以識別的特征就越多。不幸的是,網(wǎng)絡(luò)中的層數(shù)越多,則所需的計算時間越長,訓練的難度越大??捎糜趧?chuàng)建深層神經(jīng)網(wǎng)絡(luò)的軟件包包括Caffe,微軟認知工具包(Microsoft Cognitive Toolkit)、MXNet、Neon、TensorFlow、Theano和Torch。
 
降溫:物聯(lián)網(wǎng)(IoT)
 
誰:商業(yè)分析師/商業(yè)智能專業(yè)人士、數(shù)據(jù)科學家
 
物聯(lián)網(wǎng)(IoT)可能是炒得最熱的一套技術(shù)。也可能是有史以來互聯(lián)網(wǎng)安全發(fā)生的最糟糕的事情。
 
物聯(lián)網(wǎng)已經(jīng)被推崇為智能家居、可穿戴設(shè)備、智能城市、智能電網(wǎng)、工業(yè)互聯(lián)網(wǎng)、聯(lián)網(wǎng)車輛,聯(lián)網(wǎng)健康、智能零售、農(nóng)業(yè)和其它一系列應(yīng)用場景。如果實施是安全的,則其中很多應(yīng)用程序?qū)⑹怯幸饬x的,但是大體上沒有發(fā)生。
 
事實上,制造商經(jīng)常犯基本的設(shè)計錯誤。在某些情況下,智能設(shè)備只有在連接到互聯(lián)網(wǎng)并通達制造商的服務(wù)器時才工作。就像Sony Dash和早期的Nest溫度計一樣,當制造商終止產(chǎn)品支持時,這就成為一個顯著的故障點(point of failure)。將接入遠程互聯(lián)網(wǎng)的服務(wù)器包含在控制回路中也會在控制回路中帶來顯著的、可變的延遲,這可能會引入不穩(wěn)定性。
 
更糟糕的是,制造商在急于將他們的“物”連接到互聯(lián)網(wǎng)時暴露出被黑客利用的漏洞。汽車已被遠程接管,家用路由器已經(jīng)被用在僵尸網(wǎng)絡(luò)進行DDoS(分布式拒絕服務(wù))攻擊,公共電網(wǎng)在一些地區(qū)被關(guān)停……
 
使物聯(lián)網(wǎng)設(shè)備安全需要付出什么代價嗎?為什么廠商不注意?
 
在解決安全問題之前,物聯(lián)網(wǎng)的數(shù)據(jù)分析前途是風險大于回報的。
 
升溫:TensorFlow
 
誰:數(shù)據(jù)科學家
 
TensorFlow是谷歌的開源機器學習和神經(jīng)網(wǎng)絡(luò)庫,它支撐著大部分(即便不是全部)谷歌的應(yīng)用機器學習服務(wù)。(谷歌)翻譯,(谷歌)地圖和谷歌應(yīng)用程序都使用運行在我們的智能手機上運行的基于TensorFlow的神經(jīng)網(wǎng)絡(luò)。TensorFlow是谷歌云自然語言(Google Cloud Natural Language)、谷歌語音(Speech)、谷歌翻譯(Translate)和Vision的應(yīng)用機器學習API的幕后支持者。
 
數(shù)據(jù)科學家一旦克服了學習框架的巨大障礙,他們就可以使用TensorFlow。TensorFlow具有強大的靈活性、真正的可移植性、結(jié)合研究和生產(chǎn)的能力、自動分化變量以及通過優(yōu)先使用GPU而不是GPU的能力。向你的數(shù)據(jù)科學家推薦我的教程,或者讓他們查看簡化的Tensor2Tensor庫以開始使用。
 
升溫:MXNet
 
誰:數(shù)據(jù)科學家
 
MXNet(讀作“mix-net”)是類似于TensorFlow的深度學習框架。它缺乏對TensorFlow的可視化調(diào)試,但為TensorFlow所缺少的張量計算提供了一種必要的語言。MXNet平臺能立即將符號和命令式操作并行化,并且其調(diào)度程序之上的圖形優(yōu)化層使得符號執(zhí)行速度更快,內(nèi)存更高效。
 
MXNet目前支持在Python、R、Scala、Julia和C ++中構(gòu)建和訓練模型;經(jīng)過訓練的MXNet模型也可用于Matlab和JavaScript中的預(yù)測。不管你用什么語言來構(gòu)建你的模型,MXNet都會調(diào)用優(yōu)化的C ++后端引擎。
 
降溫:批量分析
 
誰:商業(yè)分析師/商業(yè)智能專業(yè)人士、數(shù)據(jù)科學家
 
通宵運行批處理作業(yè)是我們在20世紀70年代所做的事情,當數(shù)據(jù)存在于9軌磁帶上時,“主機”則切換到批量模式進行第三次轉(zhuǎn)換時。在2017年,沒有理由將就于一天的數(shù)據(jù)。
 
在某些情況下,一個或多個舊系統(tǒng)(在某些情況下可能追溯到20世紀60年代)只能在夜晚不被使用時運行分析或備份數(shù)據(jù)。在其它情況下則沒有技術(shù)理由來運行批量分析,但是“我們一直這樣做”。
 
你比那要更好,你的管理層理應(yīng)得到最新的數(shù)據(jù)分析。
 
升溫:微軟認知工具包2.0(Microsoft Cognitive Toolkit 2.0)
 
誰:數(shù)據(jù)科學家
 
微軟認知工具包(Microsoft Cognitive Toolkit,亦稱CNTK 2.0)是一個統(tǒng)一的深度學習工具包,通過有向圖(directed graph)將神經(jīng)網(wǎng)絡(luò)描述為一系列計算步驟。它與TensorFlow和MXNet有很多相似之處,盡管微軟聲稱CNTK比TensorFlow更適用于循環(huán)網(wǎng)絡(luò),它有更容易集成到應(yīng)用程序的推理支持,并且還具有高效的內(nèi)置數(shù)據(jù)讀取器,同時也支持分布式學習。
 
模型集(Model Gallery)目前有大約60個樣品,其中包括過去十年贏得比賽的多數(shù)模型。認知工具包(Cognitive Toolkit)是微軟小娜(Microsoft Cortana)、Skype實時翻譯、必應(yīng)(Bing)和一些Xbox功能的基礎(chǔ)技術(shù)。
 
升溫:Scikit-learn
 
誰:數(shù)據(jù)科學家
 
Scikits是以SciPy為基礎(chǔ)構(gòu)建的基于Python的科學工具箱,它是用于科學計算的Python庫。Scikit-learn是一個專注于機器學習的開源項目,這一開源項目對范圍蔓延(scope creep)和草率地使用未驗證的算法十分小心。另一方面,它有很多可靠的算法供選擇,它將Cython(Python到C編譯器)用在需要速度的函數(shù)(如內(nèi)部循環(huán))。
 
Scikit-learn并不涵蓋深度學習、強化學習、圖形模型和序列預(yù)測的領(lǐng)域。它被定義為存在于Python中,因此它沒有其它語言的API。Scikit-learn不支持PyPy,即快速即時編譯Python實施,它也不支持GPU加速,除了神經(jīng)網(wǎng)絡(luò),Scikit-learn幾乎用不著它。
 
在我測試過的所有機器學習框架中,Scikit-learn在易開發(fā)性上得分最高。這些算法就像它所宣稱的那樣有效,API是一致和精心設(shè)計的,數(shù)據(jù)結(jié)構(gòu)之間幾乎沒有“阻抗不匹配”。使用這樣的庫是一件樂事,其中功能已被徹底具體化,錯誤被徹底沖刷掉。
 
降溫:Caffe
 
誰:數(shù)據(jù)科學家
 
曾經(jīng)一度被看好的Caffe深度學習項目,原本是一個強大的圖像分類框架,似乎要宣告停止。雖然該框架具有強大的圖像識別卷積網(wǎng)絡(luò),對CUDA GPU的良好支持并有相當好的可移植性,但其模型通常需要過多的GPU內(nèi)存,該軟件有長達一年仍未修復(fù)的錯誤,其文檔在最好的情況下也是有問題的。
 
Caffe在一年多以來一直在奮力完成仍有很多錯誤的候選版,于2017年4月終于達到1.0版。而到2017年7月,已有500多個公開的問題。局外人可能會得到這樣一個印象:當深度學習社區(qū)轉(zhuǎn)移到TensorFlow、CNTK和MXNet時,項目就停滯不前。
 
升溫:Jupyter Notebooks
 
誰:數(shù)據(jù)科學家
 
Jupyter Notebook,最初叫做IPython Notebook,是一個開源的Web應(yīng)用程序,它允許數(shù)據(jù)科學家創(chuàng)建和共享包含實時代碼、方程式、可視化和說明文本的文檔。用途包括數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計建模、機器學習等等。
 
Jupyter Notebook已經(jīng)成為很多數(shù)據(jù)科學家和機器學習(ML)研究人員的首選開發(fā)環(huán)境。它們是Azure,Databricks和其它在線服務(wù)(包括機器學習和大數(shù)據(jù))的標準組件,也可以在本地運行。“Jupyter”是一個松散的首字母縮略詞,意思是Julia、Python和R,三種流行的數(shù)據(jù)分析語言和Notebook內(nèi)核的第一個目標,但是現(xiàn)在有大約80種語言的Jupyter內(nèi)核。
 
升溫:云存儲和分析
 
誰:商業(yè)分析師/商業(yè)智能專業(yè)人士、數(shù)據(jù)科學家
 
有效分析的其中一句老話是“在數(shù)據(jù)所在的地方做計算”。如果你不遵守或不遵循此規(guī)則,如果數(shù)據(jù)跨越本地網(wǎng)絡(luò),你的分析可能會有很大的延遲,甚至,如果它通過互聯(lián)網(wǎng)移動,延遲會更大。舉例來說這就是為什么微軟最近對SQL服務(wù)器(SQL Server)添加了R支持。
 
隨著貴公司生成的數(shù)據(jù)量呈指數(shù)級增長,數(shù)據(jù)中心的容量可能不足,你將不得不添加云存儲。一旦你的數(shù)據(jù)在云中,你的分析也應(yīng)該在云中。最終,大多數(shù)新項目將在云中實施,現(xiàn)有項目將遷移到云端,將你的公司從資本性支出(CapEx)轉(zhuǎn)移到運營成本(OpEx)世界。
 
降溫:月度商業(yè)智能報告
 
誰:商業(yè)分析師/商業(yè)智能專業(yè)人士、數(shù)據(jù)科學家
 
在自助式商業(yè)智能變得流行之前,商業(yè)智能是IT的領(lǐng)域。管理人員描述了他們想要看到的內(nèi)容,業(yè)務(wù)分析師將其轉(zhuǎn)化為規(guī)范,商業(yè)智能專家創(chuàng)建報告以滿足規(guī)范——鑒于積壓的工作。一旦定義了報告,它就一直按月運行,所有可能的報告的打印輸出都會在當月的第一天出現(xiàn)在管理層的收件箱,被瀏覽,在會議上進行討論,并最終采取行動或忽視。
 
有時,行動將定義一個新的報告來回答現(xiàn)有報告提出的問題。整個周期將重新開始,一兩個月后,新的報告將被添加到每月的打印輸出。
 
不幸地,想要敏捷的企業(yè)無法在幾個月內(nèi)對環(huán)境和市場變化做出反應(yīng):提出問題和得到答案的時間應(yīng)該是以秒或分而不是幾周或幾個月為單位。
CIO

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號