如今的數(shù)據(jù)科學(xué)家,距離深度學(xué)習(xí)有多遠?

責任編輯:editor006

作者: 謝濤

2018-01-23 16:11:39

摘自:it168網(wǎng)站

數(shù)據(jù)科學(xué)家,指采用科學(xué)方法,運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師??梢哉f,BigDL很好地填補了大數(shù)據(jù)與深度學(xué)習(xí)間的斷層,也能幫助數(shù)據(jù)科學(xué)家更快地邁向深度學(xué)習(xí)。

數(shù)據(jù)科學(xué)家,指采用科學(xué)方法,運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。這個概念比較廣泛,在不同的行業(yè)、不同的公司里,數(shù)據(jù)科學(xué)家的工作可能都是不同的。如我們所見,數(shù)據(jù)科學(xué)家需要掌握的能力一般有:數(shù)學(xué)、計算機科學(xué)、SQL、統(tǒng)計、建模和編程、Hadoop、可視化……當然,這并不是全部。而且隨著更多新技術(shù)的出現(xiàn),數(shù)據(jù)科學(xué)家所需要掌握的能力也將更多。

深度學(xué)習(xí)也可以說是數(shù)據(jù)科學(xué)家需要掌握的技能之一。深度學(xué)習(xí)是基于數(shù)據(jù)的,任何一種深度學(xué)習(xí)模型都需要大量的數(shù)據(jù)進行訓(xùn)練,才能達到我們想要的推理、分析、預(yù)測等一系列結(jié)果。某種程度上講,深度學(xué)習(xí)也是數(shù)據(jù)科學(xué)的一部分。

如今的數(shù)據(jù)科學(xué)家,距離深度學(xué)習(xí)有多遠?

  大數(shù)據(jù)與深度學(xué)習(xí)間存在斷層

業(yè)界對深度學(xué)習(xí)的推崇自然不用多說,我們幾乎每周都會看到深度學(xué)習(xí)在某個領(lǐng)域的突破性成果,也有很多亮點新聞。不過這些成果,大多來自于深度學(xué)習(xí)社區(qū)中的頂尖研究人員,如大學(xué)教授、博士等,也就是我們所說的“學(xué)術(shù)派”。他們的研究使深度學(xué)習(xí)得到了長足的發(fā)展,使深度學(xué)習(xí)的價值能夠被更多人接受。

現(xiàn)在有越來越多的企業(yè)希望將深度學(xué)習(xí)嵌入到實際生產(chǎn)應(yīng)用中,希望提高自己的競爭力。這其中,很多企業(yè)自身都擁有海量的、多樣化的數(shù)據(jù),也就是我們常說的大數(shù)據(jù),這些與大數(shù)據(jù)打了很長時間交道的用戶、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師,在以Hadoop、Spark等為中心的平臺幫助下,可以很好地管理數(shù)據(jù)、對數(shù)據(jù)進行SQL處理、流分析,甚至進行數(shù)據(jù)挖掘。但他們往往對深度學(xué)習(xí)的掌握不如“學(xué)術(shù)派”一般透徹——當然,作為處于應(yīng)用層的“工程派”,他們或許根本無需理解得那么透徹,但想用好深度學(xué)習(xí)仍有困難。在英特爾高級首席工程師、大數(shù)據(jù)技術(shù)全球CTO戴金權(quán)先生看來,關(guān)于大數(shù)據(jù)的這一整套工具和架構(gòu),與深度學(xué)習(xí)的架構(gòu)之間是存在斷層的。

如今的數(shù)據(jù)科學(xué)家,距離深度學(xué)習(xí)有多遠?


▲英特爾高級首席工程師、大數(shù)據(jù)技術(shù)全球CTO戴金權(quán)

“在與許多客戶和用戶的合作中,我們發(fā)現(xiàn)了這一現(xiàn)象。” 戴金權(quán)說,“我們希望能夠幫助我們的用戶,特別是普通用戶跨越這個斷層,讓他們能夠使用比較熟悉,對他們來說更加友好的框架和軟硬件架構(gòu),幫助他們在現(xiàn)有的應(yīng)用環(huán)境當中使用新的深度學(xué)習(xí)技術(shù)。因此,我們構(gòu)建了BigDL項目,并將其開源。”

關(guān)于BigDL

BigDL是一個將深度學(xué)習(xí)和大數(shù)據(jù)平臺結(jié)合,面向Apache Spark的開源、分布式深度學(xué)習(xí)框架。正如戴金權(quán)先生所說,其目的是使深度學(xué)習(xí)更易于大數(shù)據(jù)和數(shù)據(jù)科學(xué)社區(qū)的使用。BigDL可以幫助用戶直接在已有的Hadoop/Spark集群上運行深度學(xué)習(xí)工作負載,無需特意將數(shù)據(jù)從大數(shù)據(jù)集群上拷貝到獨立的深度學(xué)習(xí)集群上進行訓(xùn)練,充分了利用現(xiàn)有資源。也可在存儲數(shù)據(jù)的同一個集群上使用深度學(xué)習(xí)來進行分析,重用現(xiàn)有的大數(shù)據(jù)工具(如Spark工作流)構(gòu)建大規(guī)模深度學(xué)習(xí)應(yīng)用。除了對大數(shù)據(jù)生態(tài)系統(tǒng)的無縫集成外,它的功能亮點還包括:

極高的性能與擴展能力。為了實現(xiàn)極高的性能,BigDL使用硬件指令(如AVX-512)、MKL數(shù)學(xué)庫以及多線程編程等。因此BigDL比其他開源框架如Caffe、Torch和TensorFlow有明顯的性能提升。充分利用Spark架構(gòu),支持高效橫向擴展、大規(guī)模分布式訓(xùn)練和推理,為BigDL提供了超高的擴展能力。

如今的數(shù)據(jù)科學(xué)家,距離深度學(xué)習(xí)有多遠?

豐富的深度學(xué)習(xí)支持。用戶可以在BigDL中直接使用現(xiàn)有的TensorFlow、Keras、Caffe、Torch模型,將現(xiàn)有單節(jié)點訓(xùn)練的模型無縫部署與大規(guī)模、分布式應(yīng)用中,幫助研究人員和生產(chǎn)環(huán)境中的工程師共享模型。BigDL內(nèi)置了大量開箱即用的高級算法和模型,可以透明、無縫地運行在大規(guī)模、分布式環(huán)境中。

BigDL于2016年12月30日開源,目前共發(fā)布了4個版本。該項目自開源以來收到了眾多英特爾以外的社區(qū)用戶如阿里巴巴、Cloudera等的代碼貢獻,在社區(qū)用戶與英特爾開發(fā)人員的共同努力下得到了長足的發(fā)展。以京東、MasterCard、MLSListings等為代表的眾多用戶,借助BigDL構(gòu)建應(yīng)用,獲得了更高的資源利用率、更低的成本、更高效的開發(fā)部署效率及性能提升。

總結(jié)

深度學(xué)習(xí)已成為企業(yè)創(chuàng)新、提高自身競爭力的有力工具,也是深入挖掘大數(shù)據(jù)商業(yè)價值的一大助力。但是,誠如戴金權(quán)先生所說,普通大數(shù)據(jù)用戶、數(shù)據(jù)科學(xué)家與深度學(xué)習(xí)之間的鴻溝是存在的。目前業(yè)內(nèi)也有很多類似的框架或工具,通過集成相關(guān)框架,預(yù)置算法與模型,幫助用戶更簡單地構(gòu)建深度學(xué)習(xí)應(yīng)用,提高深度學(xué)習(xí)易用性。BigDL的獨到之處在于幫助深度學(xué)習(xí)完成對大數(shù)據(jù)生態(tài)的無縫銜接,直接在現(xiàn)有大數(shù)據(jù)集群上運行深度學(xué)習(xí)工作負載,在充分利用現(xiàn)有資源的同時,擁有更高的效率。可以說,BigDL很好地填補了大數(shù)據(jù)與深度學(xué)習(xí)間的斷層,也能幫助數(shù)據(jù)科學(xué)家更快地邁向深度學(xué)習(xí)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號