第五屆云計(jì)算大會(huì)第二天各種分論壇也紛紛響鑼,云計(jì)算與大數(shù)據(jù)專題論壇很好的為我們闡釋了大數(shù)據(jù)如何與云計(jì)算相輔相成,為什么沒(méi)有大數(shù)據(jù)的需求,云計(jì)算的功用也不能完全發(fā)揮。
據(jù)介紹,業(yè)界正在逐步開(kāi)始區(qū)分大數(shù)據(jù)和云計(jì)算兩個(gè)概念,對(duì)大數(shù)據(jù)的需求主要集中在分析和應(yīng)用當(dāng)面,關(guān)注數(shù)據(jù)架構(gòu),并面向業(yè)務(wù)問(wèn)題解決。對(duì)云計(jì)算的需求主要在資源的服務(wù)模式方面,主要指資源動(dòng)態(tài)分配和按需付費(fèi)的商業(yè)模式。
我們?cè)诳椿卮髷?shù)據(jù)本身,中國(guó)工程院院士倪光南這樣認(rèn)為“大數(shù)據(jù)從數(shù)據(jù)挖掘、商業(yè)智能(BI)發(fā)展而來(lái)。”我們從數(shù)據(jù)量、數(shù)據(jù)特性、數(shù)據(jù)來(lái)源、應(yīng)用領(lǐng)域四個(gè)方面給商業(yè)智能和大數(shù)據(jù)做個(gè)比較,兩者還是有著明顯區(qū)別。
據(jù)悉,大數(shù)據(jù)有著“實(shí)時(shí)”性的特征但并不意味著真正的實(shí)時(shí),而往往是近似的實(shí)時(shí),并且其還具有新的數(shù)字?jǐn)?shù)據(jù)源特點(diǎn)。
我們現(xiàn)在看到的大數(shù)據(jù)分別包括了個(gè)人、公共部門、私人部門三種,這些數(shù)據(jù)共享后,進(jìn)行數(shù)據(jù)挖掘和分析,可以對(duì)突發(fā)事件更快的跟蹤和響應(yīng)、對(duì)違紀(jì)性質(zhì)和變化的更好了解、對(duì)需要服務(wù)地區(qū)的準(zhǔn)確定位、對(duì)于供求關(guān)系的預(yù)測(cè)能力。這一流程組成了我們大數(shù)據(jù)的生態(tài)系統(tǒng)。
倪光南為我們講述了大數(shù)據(jù)的典型處理流程包括數(shù)據(jù)獲取和記錄、數(shù)據(jù)清潔/抽取/標(biāo)注、數(shù)據(jù)的整合/聚類/表達(dá)、數(shù)據(jù)分析/建模、以及數(shù)據(jù)解釋等5個(gè)階段。而在處理過(guò)程中,異構(gòu)行、規(guī)模、及時(shí)性、復(fù)雜性和隱私權(quán)等問(wèn)題是大數(shù)據(jù)想要?jiǎng)?chuàng)造價(jià)價(jià)值所需解決的困難。
而在分析過(guò)程中我們要從數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)性,從而正確提供更快速近似的預(yù)測(cè)。但是許多新數(shù)據(jù)源的價(jià)值不在于規(guī)模和速度,而在于包含的信息豐富性。姜欣也認(rèn)同相關(guān)性分析是大數(shù)據(jù)分析中的主要方法。