大數(shù)據(jù)是不是數(shù)據(jù)挖掘的延伸?

責(zé)任編輯:editor005

2015-01-06 14:27:25

摘自:36大數(shù)據(jù)

數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論,機(jī)器學(xué)習(xí),人工智能,現(xiàn)代統(tǒng)計學(xué)的迅速發(fā)展的交叉學(xué)科,在很多領(lǐng)域中都有應(yīng)用。所謂的大數(shù)據(jù),大約就是說現(xiàn)在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論,機(jī)器學(xué)習(xí),人工智能,現(xiàn)代統(tǒng)計學(xué)的迅速發(fā)展的交叉學(xué)科,在很多領(lǐng)域中都有應(yīng)用。涉及到很多的算法,源于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),決策樹,也有基于統(tǒng)計學(xué)習(xí)理論的支持向量機(jī),分類回歸樹,和關(guān)聯(lián)分析的諸多算法。數(shù)據(jù)挖掘的定義是從海量數(shù)據(jù)中找到有意義的模式或知識。

數(shù)據(jù)挖掘

大數(shù)據(jù)是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數(shù)據(jù)量大,結(jié)構(gòu)復(fù)雜,數(shù)據(jù)更新速度很快。由于Web技術(shù)的發(fā)展,web用戶產(chǎn)生的數(shù)據(jù)自動保存、傳感器也在不斷收集數(shù)據(jù),以及移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)自動收集、存儲的速度在加快,全世界的數(shù)據(jù)量在不斷膨脹,數(shù)據(jù)的存儲和計算超出了單個計算機(jī)(小型機(jī)和大型機(jī))的能力,這給數(shù)據(jù)挖掘技術(shù)的實(shí)施提出了挑戰(zhàn)(一般而言,數(shù)據(jù)挖掘的實(shí)施基于一臺小型機(jī)或大型機(jī),也可以進(jìn)行并行計算)。Google提出了分布式存儲文件系統(tǒng),發(fā)展出后來的云存儲和云計算的概念。

大數(shù)據(jù)需要映射為小的單元進(jìn)行計算,再對所有的結(jié)果進(jìn)行整合,就是所謂的map-reduce算法框架。在單個計算機(jī)上進(jìn)行的計算仍然需要采用一些數(shù)據(jù)挖掘技術(shù),區(qū)別是原先的一些數(shù)據(jù)挖掘技術(shù)不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調(diào)整。

此外,大數(shù)據(jù)處理能力的提升也對統(tǒng)計學(xué)提出了新的挑戰(zhàn)。統(tǒng)計學(xué)理論往往建立在樣本上,而在大數(shù)據(jù)時代,可能得到的是總體,而不再是總體的不放回抽樣。

以山西開礦的煤老板為例:

開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

之后是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機(jī),運(yùn)輸機(jī)。

之后是加工,洗煤,煉丹,等等。

最后才是轉(zhuǎn)化為銀子。

數(shù)據(jù)行業(yè)十分類似:

挖掘數(shù)據(jù)的前提是有數(shù)據(jù),包括數(shù)據(jù)的儲藏量,儲藏深度,數(shù)據(jù)的成色。

之后是數(shù)據(jù)挖掘,要把這些埋藏的數(shù)據(jù)挖掘出來。

之后是數(shù)據(jù)分析輸出,要把這些數(shù)據(jù)可視化輸出,指導(dǎo)分析、商業(yè)實(shí)踐。

直到這一步,才創(chuàng)造了價值。

所謂的大數(shù)據(jù),大約就是說現(xiàn)在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

接下來好好說。如果說硬要說相似度的話,那么重合度的確是有很高。因?yàn)榇髷?shù)據(jù)干的事情其實(shí)就是數(shù)據(jù)挖掘做的事情。

數(shù)據(jù)挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中發(fā)現(xiàn)隱含的知識和規(guī)律。那么說,這個東西是啥時候提出來的?上個世紀(jì)。大數(shù)據(jù)啥時候提出來的?也就這幾年的事情吧。所以說,大數(shù)據(jù)很大程度上是數(shù)據(jù)挖掘的一個好聽的名字。

其實(shí)也不能一概否定“大數(shù)據(jù)”,至少通過媒體的熱炒,讓很多人知道了“數(shù)據(jù)”的重要性。只是很多人都不知道怎么做大數(shù)據(jù),因?yàn)檫@個東西本來就是虛的嘛。如果想了解大數(shù)據(jù),那么踏踏實(shí)實(shí)的做法是學(xué)習(xí)一下“數(shù)據(jù)挖掘”和“機(jī)器學(xué)習(xí)”相關(guān)的知識。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號