《企業(yè)網(wǎng)D1Net》8月30日訊
企業(yè)IT專(zhuān)業(yè)人士,包括公共CIO,早就認(rèn)識(shí)到數(shù)據(jù)的力量,而大數(shù)據(jù)方法令人興奮的新的意義建構(gòu)能力更是引發(fā)大量興奮及討論。但是若以史為鑒,我們將會(huì)看到這個(gè)字眼失去它的意義。以下是我的看法:
你還記得服務(wù)導(dǎo)向型體系架構(gòu)(SOA)嗎?這個(gè)概念引導(dǎo)了大量的新能力、以及高效且聚焦于任務(wù)的設(shè)計(jì)。企業(yè)建立的架構(gòu)使得應(yīng)用接口、邏輯、數(shù)據(jù)各自分開(kāi)并可巧妙重復(fù)利用。在這個(gè)概念走向主流之后,IT生態(tài)系統(tǒng)里的每個(gè)公司便都抓住了它,而且開(kāi)始使用縮略詞SOA來(lái)代表任何他們想要的東西。盡管它仍舊是一個(gè)對(duì)IT專(zhuān)業(yè)人士十分有用的構(gòu)想,但涉及到與行業(yè)的互動(dòng)時(shí),這個(gè)詞現(xiàn)在已經(jīng)失去了很多意義。
然后是云計(jì)算。當(dāng)企業(yè)IT專(zhuān)業(yè)人士業(yè)內(nèi)使用這個(gè)名詞時(shí),這個(gè)概念有著巨大的價(jià)值。考慮到改變業(yè)務(wù)流程以最大化利用現(xiàn)代IT及其產(chǎn)品的需求,這個(gè)概念傳達(dá)了大量的含義。但是現(xiàn)在,大多IT 供應(yīng)商都把他們做的事描述為云計(jì)算。正如SOA,當(dāng)云計(jì)算這個(gè)名詞涉及到與行業(yè)的互動(dòng)時(shí),卻失去了許多意義。
現(xiàn)在來(lái)談大數(shù)據(jù)。今天大數(shù)據(jù)一直是個(gè)非常有益的概念。從業(yè)者,包括IT架構(gòu)師、系統(tǒng)工程師、CIO、CTO、以及數(shù)據(jù)科學(xué)家們,都在對(duì)話(huà)中以各種方式使用這個(gè)名詞來(lái)提高數(shù)據(jù)的意義建構(gòu)。這個(gè)名詞成為介紹其他名詞的一種有效方式,包括非技術(shù)人員在內(nèi)的人士在內(nèi),還用它實(shí)現(xiàn)諸如Apache Hadoop框架這樣的新方案。我們有著持續(xù)的討論這些話(huà)題的需要,且“大數(shù)據(jù)”這個(gè)名詞和可能將會(huì)陪伴我們很久。
但是正如SOA和云計(jì)算一樣,大數(shù)據(jù)現(xiàn)在在供應(yīng)商圈子中也是一個(gè)熱門(mén)話(huà)題。所有跡象表明,大多數(shù)供應(yīng)商已經(jīng)意識(shí)到關(guān)于這個(gè)概念正在進(jìn)行著激動(dòng)人心的對(duì)話(huà)。他們都已經(jīng)或是轉(zhuǎn)移了他們的市場(chǎng)策略來(lái)涵蓋這個(gè)概念,或是馬上就將涵蓋。奇怪的是IT行業(yè)里的大多數(shù)公司都很快將要宣布自己是一個(gè)大數(shù)據(jù)公司。
我已經(jīng)看過(guò)許多證據(jù)證明品牌重塑正在進(jìn)行。我已經(jīng)聽(tīng)說(shuō)過(guò)許多網(wǎng)絡(luò)交換機(jī)和路由器制造商聲稱(chēng)他們是大數(shù)據(jù)公司,因?yàn)樗麄冝D(zhuǎn)移著大量的數(shù)據(jù)。我見(jiàn)過(guò)一些因?yàn)樗麄儾邉潝?shù)據(jù)就想被稱(chēng)為大數(shù)據(jù)公司的映射公司。我知道一種老派的存儲(chǔ)公司,由于存儲(chǔ)許多信息而希望作為大數(shù)據(jù)公司被人認(rèn)識(shí)。一家了解且喜愛(ài)的很棒的信息集成公司告訴過(guò)我,它是大數(shù)據(jù)解決方案,因?yàn)樗蓴?shù)據(jù)。領(lǐng)先的晶片制造商將要啟動(dòng)一個(gè)大數(shù)據(jù)運(yùn)動(dòng),因?yàn)樗枰幚砥鱽?lái)處理大量數(shù)據(jù)。
在各種情況中,廠商都在創(chuàng)建他們自己的大數(shù)據(jù)定義。歷史將會(huì)重復(fù)。很快,你接觸的每個(gè)供應(yīng)商都將想要讓你使用它的大數(shù)據(jù)定義。
那么,公共部門(mén)的技術(shù)人員在這樣的環(huán)境中需要做些什么呢?我建議,去做企業(yè)技術(shù)人員們做的最好的:聚焦于你的使命需要;別讓任何人說(shuō)服你去聽(tīng)從他們的對(duì)于你的使命需要應(yīng)怎么樣滿(mǎn)足的概念。
說(shuō)到定義,你應(yīng)該知道怎樣闡釋最能滿(mǎn)足你的組織需要的一種。作為一個(gè)起點(diǎn),我推薦維基百科上的定義,因?yàn)檫@個(gè)社區(qū)編輯站點(diǎn)獲得了許多輸入信息。維基上的定義如下:“大數(shù)據(jù)意味著需要一個(gè)策略來(lái)處理大量的數(shù)據(jù)。這個(gè)詞也用來(lái)描述成功處理大量數(shù)據(jù)意義生成所需工具的新平臺(tái),正如阿帕奇分布式計(jì)算(Apache Hadoop)大數(shù)據(jù)平臺(tái)那樣。”
我喜歡這個(gè)定義是因?yàn)樗劢褂跀?shù)據(jù)意義生成,這正為什么我們最初有數(shù)據(jù)的目的。我也喜歡阿帕奇分布式計(jì)算的引用,因?yàn)槲抑赖拿總€(gè)大數(shù)據(jù)解決方案都使用該框架。大數(shù)據(jù)的關(guān)鍵通常是分布式計(jì)算(Hadoop)而非這個(gè)框架中包括的分布式文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(HBase)、蜂房(Hive)、Cassandra和Mahout在內(nèi)的其他能力。
如果你選擇一個(gè)對(duì)于意義生成并不關(guān)鍵的定義,你同意任何IT生產(chǎn)商說(shuō)自己是大數(shù)據(jù)公司。而且如果你在自己的定義中不提到Apache 分布計(jì)算框架,你就相當(dāng)于允許每個(gè)傳奇軟件制造商說(shuō)自己是大數(shù)據(jù)公司,即使它有的只是舊模式?,F(xiàn)在關(guān)于大數(shù)據(jù)設(shè)計(jì)有了新東西,那就是為Apache 框架所實(shí)現(xiàn)的在集群計(jì)算機(jī)中分布式處理大型數(shù)據(jù)集。
不論你決定使用什么定義,我都建議你深入學(xué)習(xí)Apache 軟件的能力。這個(gè)框架使海量數(shù)據(jù)的分布式平行處理能夠通過(guò)價(jià)格不高的商品服務(wù)器來(lái)進(jìn)行——沒(méi)有廠商應(yīng)該帶給你一個(gè)大數(shù)據(jù)的解決方案,除非它已經(jīng)利用了這個(gè)框架的強(qiáng)大的功能。
大數(shù)據(jù)以及圈子里怎樣使用這個(gè)名詞,是一個(gè)需要更多討論的話(huà)題,而我的希望是來(lái)公共部門(mén)、地方、州、聯(lián)邦級(jí)別的技術(shù)人員們能夠進(jìn)行更大的對(duì)話(huà)來(lái)探討這個(gè)名詞對(duì)公共部門(mén)的使命到底意味著什么。討論這個(gè)話(huà)題可被證明對(duì)組織使命是非常積極的,且會(huì)幫助IT供應(yīng)商更好地理解公共部門(mén)的需要。