越來越多的企業(yè)已經(jīng)開始摸索Hadoop技術(shù),目的就是為處理博客、點(diǎn)擊所帶來的數(shù)據(jù)流和社交媒體所帶來的數(shù)據(jù)。Hadoop可以供存儲(chǔ)和分析的能力,以便在大數(shù)據(jù)中為客戶提升業(yè)務(wù)洞察力。
大數(shù)據(jù)在企業(yè)中迅速擴(kuò)張 相關(guān)人才短缺
目前相關(guān)人才短缺的問題相當(dāng)嚴(yán)重。來自JP摩根大通公司以及eBay的IT高管們在本月于紐約舉行的Hadoop全球大會(huì)都表達(dá)了同樣的觀點(diǎn)。eBay公司搜索與平臺(tái)部門副總裁Hugh Williams就在大會(huì)上表示目前他們正在誠招Hadoop專業(yè)人員。而JP摩根大通公司總經(jīng)理Larry Feinsmith則半開玩笑的表示,他們不僅愿意聘用合格的專業(yè)人士,還會(huì)提供比eBay高出10%的優(yōu)厚待遇。
Larry Feinsmith表示現(xiàn)今JP摩根大通仍然嚴(yán)重的依賴傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)進(jìn)行事務(wù)處理。但隨著越來越多的欺詐檢測以及IT風(fēng)險(xiǎn)管理和自我服務(wù)等,過去的系統(tǒng)已經(jīng)不能滿足現(xiàn)有的需求,而Hadoop技術(shù)的特性恰好能夠適應(yīng)當(dāng)今企業(yè)的業(yè)務(wù)。
JP摩根大通現(xiàn)在擁有150PB在線存儲(chǔ)的數(shù)據(jù),30000個(gè)數(shù)據(jù)庫。用戶帳戶記錄的總金額達(dá)到350億美元。這些數(shù)據(jù)充分說明了數(shù)據(jù)是JP摩根大通的命脈。Hadoop的優(yōu)勢就是適合存儲(chǔ)海量的非結(jié)構(gòu)數(shù)據(jù),這使得企業(yè)能夠有效收集和存儲(chǔ)網(wǎng)絡(luò)日志,以及交易數(shù)據(jù)和社交媒體的數(shù)據(jù)。Larry Feinsmith說到。
而eBay搜索和平臺(tái)副總裁Hugh Williams表示eBay現(xiàn)在正在使用Hadoop技術(shù)和HBase數(shù)據(jù)庫。以便進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析。同時(shí)還利用Hadoop技術(shù)為其網(wǎng)站構(gòu)建了新的搜索引擎。據(jù)他透露eBay活躍買家和賣家超過了9700萬,網(wǎng)站每天有接近20億次的頁面瀏覽量,同時(shí)帶來每天2.5億次的搜索或查詢和數(shù)百億的數(shù)據(jù)庫調(diào)用。他還表示eBay現(xiàn)在有9PB的數(shù)據(jù)存儲(chǔ)在Hadoop和Teradata集群之中,并且數(shù)據(jù)量還在迅速的增長。
Hadoop存在硬性標(biāo)準(zhǔn) 數(shù)據(jù)挖掘等領(lǐng)域人才為潛在對象
Forrester研究公司分析師James Kobielus認(rèn)為在當(dāng)今的企業(yè)中,Hadoop就是新一代的數(shù)據(jù)倉庫,并應(yīng)被看作是新的數(shù)據(jù)源。比起當(dāng)今傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng),Hadoop使企業(yè)具有存儲(chǔ)、管理海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)卷的能力。
James Kobielus表示越來越多的企業(yè)對諸如Hadoop分析技術(shù)需求的增加導(dǎo)致Hadoop相關(guān)從業(yè)人員炙手可熱。能夠駕馭Hadoop的人對企業(yè)貢獻(xiàn)極大,他們理應(yīng)獲取相應(yīng)的薪酬。Hadoop需要從業(yè)者具備高級(jí)分析領(lǐng)域的相關(guān)工作經(jīng)驗(yàn),例如像具備使用MapReduce及R語言等新一代技術(shù)解決方案處理預(yù)測及統(tǒng)計(jì)建模的能力。而具備多元統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、預(yù)測建模、自然語言處理、內(nèi)容分析、文本分析及社交領(lǐng)域分析等領(lǐng)域技術(shù)背景的相關(guān)人員都是從事Hadoop的潛在對象。
Hadoop受到企業(yè)廣泛關(guān)注的同時(shí)也帶來了對Hadoop平臺(tái)專業(yè)管理人員的硬性需求。他們的工作職責(zé)包括Hadoop集群、安全及管理,并對其進(jìn)行優(yōu)化以確保集群對企業(yè)的可用性。之前負(fù)責(zé)管理Teradata及Oracle Exadata的數(shù)據(jù)庫管理員現(xiàn)在正試圖向Hadoop集群管理的角色轉(zhuǎn)變。他們會(huì)意識(shí)到這是一個(gè)全新的天地。同時(shí),存儲(chǔ)管理專業(yè)人員也是不可或缺,他們現(xiàn)在要做的就是幫助Hadoop環(huán)境與現(xiàn)有傳統(tǒng)數(shù)據(jù)庫技術(shù)相結(jié)合。
Hadoop專業(yè)人員主要分三類
Karmasphere公司總裁 Martin Hall表示目前對Hadoop專業(yè)人員的需求主要分三大類:數(shù)據(jù)分析師(又稱數(shù)據(jù)科學(xué)家)、數(shù)據(jù)工程師以及IT數(shù)據(jù)管理專家。Karmasphere現(xiàn)主要經(jīng)營項(xiàng)目正是為Hadoop環(huán)境開發(fā)軟件產(chǎn)品。
Martin Hall認(rèn)為,數(shù)據(jù)管理專家的職責(zé)在于選擇、安裝、管理、規(guī)范以及擴(kuò)展大規(guī)模的Hadoop集群。這些專業(yè)人員決定了Hadoop是否應(yīng)立足于云還是采取預(yù)置模式,包括供應(yīng)商該如何選擇以及使用那款Hadoop分布方案、集群規(guī)模以及被用于運(yùn)行生產(chǎn)應(yīng)用程序還是用于進(jìn)行質(zhì)量測試等。此職位應(yīng)具備的技能與以往負(fù)責(zé)傳統(tǒng)關(guān)系數(shù)據(jù)庫與數(shù)據(jù)庫環(huán)境類的任務(wù)頗為相似。
同時(shí),Hadoop數(shù)據(jù)工程師還要負(fù)責(zé)創(chuàng)建數(shù)據(jù)處理工作以及建立分布式MapReduce算法,以便數(shù)據(jù)分析師使用。從事Java和C++等領(lǐng)域技能水平能力較為突出的專業(yè)人士更便于在企業(yè)大規(guī)模部署Hadoop的浪潮中得到更多的機(jī)會(huì)。
而第三類專業(yè)需求則是在SAS、SPSS以及以R語言為代表的編程語言等方面具備豐富經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家。這些專業(yè)人士能夠?qū)⒔?、分析、共享以及智能整合加以集中,并存?chǔ)于Hadoop環(huán)境中。
就目前來看,Hadoop領(lǐng)域的人才短缺意味著企業(yè)會(huì)更加依賴于服務(wù)供應(yīng)商提供的部署技術(shù)。支撐這一論點(diǎn)的一大跡象是在專業(yè)的咨詢及系統(tǒng)集成行業(yè)內(nèi),專攻Hadoop實(shí)際應(yīng)用帶來的收入要遠(yuǎn)遠(yuǎn)大于Hadoop產(chǎn)品銷售所帶來的收入。
如今Cloudera、MapR、Hortonworks以及IBM這樣的企業(yè)如今已經(jīng)在提供Hadoop的相關(guān)培訓(xùn)課程,人們應(yīng)該充分利用這些資源,通過建立Hadoop卓越中心使自己的企業(yè)獲得最大收益。