大數(shù)據(jù)(Big data)近年來快速成長,根據(jù)麥肯錫全球研究中心在2011年5月發(fā)表的全球大數(shù)據(jù)研究報告指出,全球資料量光是在2010年就增加了70億GB,相當(dāng)于4千座美國國會圖書館典藏數(shù)據(jù)的總和。
如何產(chǎn)生、消費和儲存大數(shù)據(jù),已經(jīng)成為近年來企業(yè)IT應(yīng)用的重要趨勢。如在eBay上,平均每天有將近1億名用戶查詢商品數(shù)百萬次,更有上百萬件商品在在線交易,導(dǎo)致eBay數(shù)據(jù)庫每天新增的數(shù)據(jù),超過1.5兆筆,每天增加的數(shù)據(jù)量超過50TB,這些大數(shù)據(jù)如果沒有作進(jìn)一步的分析應(yīng)用,勢必會影響eBay的企業(yè)營運。
應(yīng)用大數(shù)據(jù) 提高企業(yè)競爭力
至于制造業(yè),其實也會產(chǎn)生許多大數(shù)據(jù),但宇清數(shù)字智能總經(jīng)理郭仲仁指出,許多企業(yè)卻不見得會重新檢視這些信息,其實只要經(jīng)過大數(shù)據(jù)技術(shù)分析,透過細(xì)微的觀察分析及萃取,就可能從中找到提高生產(chǎn)力及縮短產(chǎn)品交期的信息。
如晶圓代工、面板等產(chǎn)業(yè),都會碰到等待時間不能超過特定時間的壓力,偏偏有30~40%的機(jī)器,會有這方面的問題。如果有任何一種等待因素需要有三個共同部門負(fù)責(zé),結(jié)果其實就可能不會有人負(fù)責(zé),唯有讓每一種等待因素都能被該負(fù)責(zé)的部門看到,才會有人愿意進(jìn)一步的去分析每一種因素的相關(guān)數(shù)據(jù)。
郭仲仁認(rèn)為,如果能找到一種大數(shù)據(jù)的分析方法,能夠混和資料采礦過程,搜集相關(guān)資料掌握下游如何影響上游,進(jìn)行相關(guān)分析,讓客戶找到重點,并找到真正可以操作的KPI,才會有很大的機(jī)會,找到改善的重點及方法,而這也才是大數(shù)據(jù)分析應(yīng)用的價值所在。
擴(kuò)展企業(yè)IT架構(gòu) 駕馭大數(shù)據(jù)
企業(yè)如果能夠駕馭大數(shù)據(jù),自然能夠提升競爭力,但戴爾企業(yè)解決方案市場開發(fā)經(jīng)理陳毅達(dá)指出,目前的資料,卻已經(jīng)超越傳統(tǒng)數(shù)據(jù)庫或現(xiàn)有數(shù)據(jù)管理工具能夠處里的范圍。因為在爆炸性的數(shù)據(jù)增長過程中,結(jié)構(gòu)性數(shù)據(jù)的成長相當(dāng)緩慢,反觀非結(jié)構(gòu)性的數(shù)據(jù),包括視訊、網(wǎng)頁、智能型手機(jī)、消費數(shù)據(jù)、位置數(shù)據(jù)、財務(wù)服務(wù)數(shù)據(jù),以及社會媒體數(shù)據(jù)等,陳毅達(dá)指出,至少有80%的數(shù)據(jù),屬于非結(jié)構(gòu)化數(shù)據(jù),大約500萬億個文文件,而且數(shù)據(jù)量每兩年增加一倍。
但目前的數(shù)據(jù)庫解決方案,卻主要是用來設(shè)計儲存結(jié)構(gòu)化數(shù)據(jù),除了只能針對已知問題的回答速度進(jìn)行優(yōu)化外,架構(gòu)本身往往就決定了內(nèi)容形式,對于新數(shù)據(jù)型態(tài)與新問題,都有適應(yīng)上的困難,加上擴(kuò)展成本高昂,企業(yè)勢必得尋求不同以往的數(shù)據(jù)處理解決方案,才能面對爆炸性的資料增長。
優(yōu)化大數(shù)據(jù) 創(chuàng)造數(shù)據(jù)價值
事實上,數(shù)據(jù)成長的速度,確實相當(dāng)驚人。根據(jù)IDC統(tǒng)計,數(shù)字世界的信息容量將會從2009年的0.8ZB,在2020年成長到35ZB,等于每15秒就成長1PB,年復(fù)合成長率高達(dá)40%,而且這些數(shù)據(jù)數(shù)據(jù)不僅巨大而且不同,如何優(yōu)化數(shù)據(jù),方便且容易的搜尋到所需要的信息,也變得更加困難。
麗臺科技新事業(yè)處軟件產(chǎn)品部業(yè)務(wù)副總經(jīng)理萬蕙如指出,前各產(chǎn)業(yè)平均數(shù)據(jù)儲存量,以證券投資、銀行居首,其次則是制造業(yè)、通訊媒體、國營事業(yè)、政府機(jī)構(gòu)等,整個產(chǎn)業(yè)生態(tài),需要更快速實時獲取針對特定商業(yè)工作項目或流程的綜合細(xì)部信息。
因為在信息暴增的時代,企業(yè)營運所面對的挑戰(zhàn),包括一直在更新的大量數(shù)據(jù)、更快速響應(yīng)大量終端用戶的需求,多數(shù)工作者都需要迅速且有效率地查詢正確信息,如何能更實時正確地傳遞關(guān)鍵信息,以加強(qiáng)特定作業(yè)流程的產(chǎn)出與績效,已是當(dāng)前企業(yè)IT部門必須面對的問題。
萬蕙如認(rèn)為,企業(yè)想要優(yōu)化大數(shù)據(jù),應(yīng)該要考慮信息搜尋技術(shù)的新世代應(yīng)用。如Search-Based Applicatioin(SBA),是一種使用最新進(jìn)的搜索暨索引(Search and Index)技術(shù)作為結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)信息,匯整分析功能開發(fā)之基底平臺的應(yīng)用軟件,這種信息分析的新方法,可同時提供支持特定工作或流程,而量身訂做的定量和定性數(shù)據(jù)圖表分析,可全面強(qiáng)化企業(yè)日常業(yè)務(wù)實時決策的準(zhǔn)確性。
應(yīng)用虛擬化技術(shù) 提升大數(shù)據(jù)處理效能
除了信息搜索技術(shù)外,虛擬化技術(shù)在大數(shù)據(jù)時代,也變得更加重要。事實上,虛擬化環(huán)境目前面對的最主要挑戰(zhàn)之一,其實就是大數(shù)據(jù)時代的來臨,讓數(shù)據(jù)的儲存及備份,變得更加困難。但群暉科技軟件開發(fā)部經(jīng)理張成鈺指出,大數(shù)據(jù)對虛擬化儲存,是挑戰(zhàn)也是機(jī)會,只要能克服數(shù)據(jù)保護(hù)效率,做好多重復(fù)制的環(huán)境布署操作,仍能提供非常完整的數(shù)據(jù)保護(hù)虛擬環(huán)境。
張成鈺表示,虛擬化的好處之一,就是IT資源的處理效能可以更好,因為再強(qiáng)的實體主機(jī),運作效能還是有上限,其實儲存設(shè)置也有強(qiáng)大的運算能力,可以分散運算工作,用來解決虛擬化環(huán)境的效能瓶頸。
要強(qiáng)化虛擬環(huán)境操作的效能,張成鈺指出,除了產(chǎn)品應(yīng)該專為虛擬環(huán)境量身打造,完整支持主流的虛擬化解決方案外,主要的虛擬儲存進(jìn)階功能,也相當(dāng)重要,如儲存設(shè)備就需要面對傳輸效能的問題。張成鈺指出,固態(tài)硬盤(SSD)可讓虛擬化儲存在面對大數(shù)據(jù)的挑戰(zhàn)時,提供效能提升的重要幫助。如藉由安裝SSD進(jìn)行快取,可大幅提升讀取效能,關(guān)鍵在于系統(tǒng)是否無須在成本與效能上妥協(xié),使用少量的SSD,即可達(dá)到效能升級。
善用云端服務(wù) 處理大數(shù)據(jù)
事實上,在大數(shù)據(jù)時代,企業(yè)不僅要考慮數(shù)據(jù)的儲存及應(yīng)用,傳輸技術(shù)也非常重要,尤其在云端運算時代,許多企業(yè)會將數(shù)據(jù)存放在云端,如果云端端服務(wù)業(yè)者,無法提供高質(zhì)量的數(shù)據(jù)傳輸服務(wù),企業(yè)就很難實時存取資料,用來作進(jìn)一步的規(guī)劃。
恩悌悌業(yè)務(wù)部資深副理林志鴻指出,如果企業(yè)選擇將數(shù)據(jù)儲存在各地分公司或企業(yè)總部機(jī)房,勢必會有人力、物力及金錢方面的投資成本,但如果將數(shù)據(jù)放在云端,在大數(shù)據(jù)時代,就需要大帶寬,才能縮短傳輸時間,如NTT在2012年正式啟用的ASE海纜,配合這幾年在香港、東京、新加坡及馬來西亞投資的機(jī)房建設(shè),才能提供亞太地區(qū)所需要的高速數(shù)據(jù)傳輸服務(wù)。
此外,云端服務(wù)業(yè)者在數(shù)據(jù)派送服務(wù)的優(yōu)化技術(shù),也會影響大數(shù)據(jù)的應(yīng)用。林志鴻表示,類似Youtube、PPS的串流技術(shù),許多云端服務(wù)業(yè)者已經(jīng)開始提供,可以提高傳輸效率,縮短數(shù)據(jù)傳輸?shù)臅r間,可以減輕對帶寬的壓力。
駕馭大數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù)
大數(shù)據(jù)不只是需要儲存及傳輸,也需要做更深入的分析,才能讓大數(shù)據(jù)更多的價值。淡江大學(xué)統(tǒng)計系副教授陳景祥指出,有沒有必要使用全部資料,是許多企業(yè)可以思考的問題。思考的方向首先就是成本,而且除了有形的金錢成本外,時間及人力資源等無形成本,也都需要一并考慮;其次是精確度會受到多少影響,造成的決策風(fēng)險會有多高,最后則是軟硬件方面的限制,是否真的有足夠的能力使用全部數(shù)據(jù),進(jìn)行統(tǒng)計分析。
陳景祥強(qiáng)調(diào),企業(yè)若要進(jìn)行數(shù)據(jù)探勘,一定要先有目標(biāo)設(shè)定,光是只有數(shù)據(jù),是無法透過數(shù)據(jù)探勘獲得所需要的信息。其他還要考慮的重點,還包括目前的科技限制,軟硬件及人力時間成本等。值得注意的是,企業(yè)得到資料探勘結(jié)果后,并不是到此為止。陳景祥強(qiáng)調(diào),數(shù)據(jù)探勘只是輔助,并非全部自動化,后續(xù)還是需要人力來執(zhí)行歸納分析,才能真正發(fā)揮大數(shù)據(jù)的價值。