国产成年女人免费视频,欧美三级网在线,亚洲人妻

大數(shù)據(jù)處理一定需要Hadoop嗎？

責(zé)任編輯：editor005

2015-03-26 13:58:53

摘自：中國大數(shù)據(jù)

Google強(qiáng)大的搜尋引擎每天處理龐大的搜尋數(shù)據(jù)，靠的是數(shù)十萬的伺服器同時(shí)作工。一般企業(yè)并無法使用Google所用的內(nèi)部搜尋引擎工具，所以，擁有處理大數(shù)據(jù)工具的分散式運(yùn)算平臺Hadoop應(yīng)運(yùn)而生。

處理海量資料一定要用Hadoop？開放原始碼專家想出更簡單的解決方案！

Google強(qiáng)大的搜尋引擎每天處理龐大的搜尋數(shù)據(jù)，靠的是數(shù)十萬的伺服器同時(shí)作工。然而一般企業(yè)并無法使用Google所用的內(nèi)部搜尋引擎工具，所以，擁有處理大數(shù)據(jù)工具的分散式運(yùn)算平臺Hadoop應(yīng)運(yùn)而生。

　　但問題是Hadoop使用上有難度，數(shù)據(jù)處理公司Cloudera決心要解決這個問題。

　　過去的公司企業(yè)仰賴傳統(tǒng)的關(guān)聯(lián)式資料庫和數(shù)據(jù)倉儲就可應(yīng)付所需，然而，今日電子商務(wù)、社交媒體和行動運(yùn)算不斷成長使得資料量暴增，許多企業(yè)便開始使用Hadoop等的工具處理數(shù)據(jù)?，F(xiàn)在，Cloudera現(xiàn)在更針對Hadoop平臺推出類Google的搜尋引擎：Cloudera Search。

　　搜尋引擎讓Hadoop更平易近人

　　Cloudera希望客戶能在Hadoop壯大之前就將資料儲存進(jìn)去，并將之整合入平臺。但使用Hadoop平臺與資料互動必須要懂得MapReduce運(yùn)算技術(shù)，也就是說你得會寫Java語言，這對許多使用者來說并不方便。

　　雖然Hadoop已經(jīng)推出許多工具讓使用上更便利，但Cloudera希望更進(jìn)一步建立一個Hadoop的搜尋引擎。產(chǎn)品經(jīng)理澤德勒維斯基（Charles Zedlewski）說：「數(shù)萬開發(fā)者可能知道怎么用MapReduce，執(zhí)行SQL指令，但會使用搜尋引擎的人有數(shù)十億人?！?br />
　　Cloudera Search能夠與Hadoop分散式檔案系統(tǒng)（HDFS）或資料庫系統(tǒng)Hbase整合，使用者可以輸入搜尋字串后就找到一串搜尋結(jié)果。這項(xiàng)搜尋工具是以Apache Solr搜尋器為基礎(chǔ)。

　　市場研究公司RedMonk分析師歐葛瑞迪（Stephen O’Grady）表示：「每多一項(xiàng)數(shù)據(jù)處理工具對Hadoop都有好處……從寫MapReduce程式到支援SQL語法的Hive或Pig等套件，每項(xiàng)工具都讓數(shù)據(jù)處理更有效率?！?br />
　　所有大數(shù)據(jù)都該放入Hadoop嗎？

　　這對改善Hadoop可用性的確幫助不少，但問題是：客戶是否真的有需要將它們所有的數(shù)據(jù)都放入Hadoop？微軟今年稍早發(fā)表一份報(bào)告，主張大多數(shù)的公司只需要增加叢集伺服器的使用數(shù)量，不須嘗試用單臺伺服器處理數(shù)據(jù)，報(bào)告指出，甚至雅虎和臉書兩家最需要數(shù)據(jù)處理效能的公司，也是透過增加伺服器叢集解決效能問題。

　　但許多公司正面臨數(shù)據(jù)不斷增長的問題，一開始就加入Hadoop是不錯的選擇，RedMonk過去也是Hadoop的使用者，但最近轉(zhuǎn)用BigQuery等其他的Google資料庫工具，原因是他們的數(shù)據(jù)在量上本質(zhì)就比較小，而且成長的速度也沒有分析師原本預(yù)測得快。

　　但歐葛瑞迪說：「如果我們能夠更快速地獲得數(shù)據(jù)，就一定會使用Hadoop！

原文鏈接：http://www.thebigdata.cn/YeJieDongTai/13818.html