Hadoop有多火?從業(yè)界的一系列舉動(dòng)就可以看出來(lái)。包括甲骨文、微軟、Sybase在內(nèi)的主流數(shù)據(jù)庫(kù)廠商都紛紛發(fā)布了Hadoop連接器產(chǎn)品,為的就是讓用戶可以在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)與開源分布式處理系統(tǒng)之間更輕松地傳輸信息。
這些廠商將Hadoop連接器軟件視為“大數(shù)據(jù)管理”戰(zhàn)略的重要一環(huán),但是并不是只有主流的數(shù)據(jù)庫(kù)廠商在做這件事。像數(shù)據(jù)倉(cāng)庫(kù)提供商Teradata以及惠普公司的Vertica都推出了類似的Hadoop產(chǎn)品,也不乏Informatica、Talend這樣的數(shù)據(jù)集成軟件廠商。而像Hortonworks、Cloudera以及MapR這樣的創(chuàng)業(yè)公司也在這一生態(tài)系統(tǒng)中扮演了非常重要的角色。
OpenLogic公司的技術(shù)總監(jiān)Rod Cope在使用Hadoop方面有著非常豐富的經(jīng)驗(yàn),他告誡用戶在使用Hadoop連接器之前,需要考慮應(yīng)用到場(chǎng)景以及對(duì)數(shù)據(jù)的需求。Cope介紹他的公司使用了Hadoop、Hbase和一個(gè)列式的NoSQL數(shù)據(jù)庫(kù)組合,它們作為OpenLogic主營(yíng)業(yè)務(wù)的一部分,能夠幫助其客戶審計(jì)軟件應(yīng)用,以核查所使用的嵌入式開源代碼是否符合相關(guān)的許可。OpenLogic目前尚未部署任何連接器軟件,但是Cope表現(xiàn)出對(duì)這一技術(shù)的幾大好奇,他認(rèn)為可以使用這樣的軟件來(lái)將頻繁訪問的數(shù)據(jù)從一個(gè)關(guān)系型數(shù)據(jù)庫(kù)轉(zhuǎn)移到Hbase上面做歸檔。
但是Cope認(rèn)為,Hadoop連接器軟件也并不能解決所有問題,感興趣的用戶需要注意加載數(shù)據(jù)的速度。在處理大數(shù)據(jù)的時(shí)候,人們往往對(duì)性能的標(biāo)準(zhǔn)并不如之前那么關(guān)注,如果加載數(shù)據(jù)到Hadoop用戶的時(shí)間超長(zhǎng),那么使用連接器的意義就不大了。問題其實(shí)并不出在Hadoop上,而是你加載的數(shù)據(jù)源。
Ventana研究機(jī)構(gòu)的分析師David Menninger表示,Hadoop分布式文件系統(tǒng)(HDFS)以及在其基礎(chǔ)之上構(gòu)建的數(shù)據(jù)庫(kù)產(chǎn)品能夠?yàn)橛脩籼峁┓浅:玫臄?shù)據(jù)管理與分析解決方案,這是相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)而言。這些數(shù)據(jù)可能是機(jī)器生成的大數(shù)據(jù),比如Web搜素日志、社交媒體信息、手機(jī)通話記錄以及其他一些非結(jié)構(gòu)化的數(shù)據(jù)。
Menninger指出,Hadoop連接器軟件使用的一個(gè)典型場(chǎng)景,就是企業(yè)使用Hadoop系統(tǒng)從大量的非結(jié)構(gòu)化數(shù)據(jù)源中抽取少量結(jié)構(gòu)化分析信息,然后再將其傳輸?shù)疥P(guān)系型數(shù)據(jù)庫(kù)當(dāng)中以便使用BI工具進(jìn)行進(jìn)一步的分析。
Hadoop連接器座右銘:各得其所
Menninger表示:“目前用戶將信息放到關(guān)系型數(shù)據(jù)庫(kù)中,主要是因?yàn)橛肏adoop數(shù)據(jù)源還不能輕松地制作報(bào)表。業(yè)界中有一套成熟的報(bào)表和分析系統(tǒng),當(dāng)然這都是針對(duì)關(guān)系型數(shù)據(jù)而言。”
這樣的數(shù)據(jù)傳輸并不一定是一錘子買賣,也許你正在計(jì)算某一事件的發(fā)生次數(shù),然后又想要計(jì)算兩件事一起發(fā)生的次數(shù)。你可以返回到數(shù)據(jù)源,然后再處理一遍信息,這就是為什么人們不會(huì)把非結(jié)構(gòu)化的數(shù)據(jù)刪除,它們可以存放在Hadoop中。
此外,同SQL數(shù)據(jù)庫(kù)相比,Hadoop為高級(jí)分析和數(shù)據(jù)挖掘應(yīng)用提供了更好的環(huán)境。比如分析客服電話日志以及社交媒體上的信息,找出客戶的興趣點(diǎn)以及對(duì)某一產(chǎn)品的口碑。這對(duì)于SQL來(lái)說(shuō)是非常困難的一件事,但是它可以通過Hadoop連接器來(lái)把信息傳輸?shù)疥P(guān)系型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中。
Tynt多媒體公司的副總裁Cameron Befus表示,他們使用了Hadoop來(lái)為超過50萬(wàn)的用戶提供分析服務(wù)。此外,Tynt還使用了開源的MySQL數(shù)據(jù)庫(kù)來(lái)作為后端的支持。到目前為止,Befus還沒有看到部署Hadoop連接器的必要,他說(shuō):“我們的確會(huì)把數(shù)據(jù)進(jìn)行轉(zhuǎn)移,但這通常是很直接的。我們會(huì)把文件從Hadoop直接導(dǎo)入MySQL中,如果使用連接器的話也許會(huì)輕松一些,但是這對(duì)我們來(lái)說(shuō)并不是什么難題。”
但I(xiàn)T分析師認(rèn)為隨著Hadoop的普及,這樣的連接器軟件使用頻率將逐漸多起來(lái)。像Menninger這樣的分析師認(rèn)為,公司希望能夠把基于Hadoop的分析結(jié)果導(dǎo)入更大的業(yè)務(wù)環(huán)境中去,這也是連接器技術(shù)發(fā)展的推動(dòng)力。當(dāng)我們看大數(shù)據(jù)的時(shí)候什么最重要?那就是這些數(shù)據(jù)能夠告訴我關(guān)鍵的問題是什么。用戶希望能夠在非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、有意義的數(shù)據(jù)以及高度結(jié)構(gòu)化的數(shù)據(jù)之間構(gòu)建一座橋梁,以便能夠通過分析來(lái)找到問題根源所在。