大數(shù)據(jù)到底是什么?我們?yōu)槭裁葱枰髷?shù)據(jù)技術(shù)?
Mike Jude:從本質(zhì)上來說,大數(shù)據(jù)就是曾經(jīng)被稱為數(shù)據(jù)倉庫的邏輯延伸。顧名思義,大數(shù)據(jù)就是一個(gè)大型的數(shù)據(jù)倉庫,一般有一個(gè)能支持業(yè)務(wù)決策的業(yè)務(wù)重點(diǎn)。但是,它和傳統(tǒng)數(shù)據(jù)庫不同的是,大數(shù)據(jù)不用構(gòu)建。
在典型的數(shù)據(jù)庫中,數(shù)據(jù)會(huì)被組織成標(biāo)準(zhǔn)的字段,并使用特定的密鑰索引。如果你熟悉Microsoft Access應(yīng)用程序,那么你就能完全理解這個(gè)概念。比如,一個(gè)顧客記錄可以由姓氏、名字、地址和其它信息組成有通用標(biāo)簽的字段。每個(gè)顧客記錄樣式都是相同的,這樣可以通過使用搜索關(guān)鍵詞來檢索,比如搜索姓氏。
現(xiàn)在,如果你想鏈接到這些客戶記錄需要怎么做?鏈接到客戶的圖片或者視頻呢?如果是鏈接到客戶的所有記錄呢?
將這么多不同的數(shù)據(jù)源互相映射,一般的數(shù)據(jù)庫還做不到。另外,需要鏈接的數(shù)據(jù)量是非常巨大的。這就產(chǎn)生了“大數(shù)據(jù)”的概念。大數(shù)據(jù)使用特殊的數(shù)據(jù)結(jié)構(gòu)來組織和訪問巨大數(shù)量的數(shù)據(jù),可能達(dá)到多個(gè)艾字節(jié)的范圍。一般情況下,這需要跨多個(gè)服務(wù)器和離散數(shù)據(jù)存儲(chǔ)進(jìn)行并行計(jì)算,而小企業(yè)往往難以維持這種大數(shù)據(jù)的存儲(chǔ)庫。但是,大數(shù)據(jù)正逐漸成為云服務(wù)提供商能提供的一種服務(wù),從而把大數(shù)據(jù)應(yīng)用推向更多的公司。
但是,還有一個(gè)“大”問題,就是我們?yōu)槭裁葱枰髷?shù)據(jù)?答案就是相關(guān)性的價(jià)值。如果你能看到乍一看似乎沒什么關(guān)系的數(shù)據(jù)設(shè)置之間的關(guān)系,你會(huì)獲取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多個(gè)應(yīng)用程序和數(shù)據(jù)中心檢查無數(shù)條交易。這時(shí)如果沒有大數(shù)據(jù)技術(shù)和相關(guān)的分析技術(shù),這幾乎是不可能完成的。
最終,隨著數(shù)據(jù)量的增長(zhǎng)、業(yè)務(wù)的可用性和重要性的增加,大數(shù)據(jù)的定義可能會(huì)用來描述大多數(shù)數(shù)據(jù)庫應(yīng)用。IT專業(yè)人士應(yīng)該掌握大數(shù)據(jù)相關(guān)概念和術(shù)語,以免遇到困難。