大數(shù)據(jù)(Big Data)近年來已成為業(yè)界最炙手可熱的話題之一,在大數(shù)據(jù)時(shí)代,企業(yè)不僅需要提升儲(chǔ)存容量與數(shù)據(jù)管理能力,更重要的是,要設(shè)法從龐大、多元格式的數(shù)據(jù)海洋中,挖掘出數(shù)據(jù)的極致價(jià)值,進(jìn)而創(chuàng)造新的商業(yè)機(jī)會(huì)與營(yíng)運(yùn)決策。
國(guó)立臺(tái)北商業(yè)技術(shù)學(xué)院教授鄒慶士指出,大數(shù)據(jù)是個(gè)大議題,大家其實(shí)都還在學(xué)習(xí)階段,但可以確定的是,對(duì)電腦而言,最有價(jià)值的東西已經(jīng)不再是硬體,而是數(shù)據(jù),許多產(chǎn)品及應(yīng)用也都是以數(shù)據(jù)為基礎(chǔ),才能進(jìn)一步產(chǎn)生重大價(jià)值。
鄒慶士指出,大數(shù)據(jù)的主要應(yīng)用,仍是以數(shù)據(jù)探勘為主,但跟過去相比,特點(diǎn)在於數(shù)據(jù)量變得非常大,但大數(shù)據(jù)不見得數(shù)大就是美,容量大小還可以靠技術(shù)來解決,整理的時(shí)間則因?yàn)樽兊梅浅iL(zhǎng),已經(jīng)成為數(shù)據(jù)分析的困擾。鄒慶士認(rèn)為,唯有從數(shù)據(jù)分析的本質(zhì)開始思考,才能真正深入大數(shù)據(jù)這個(gè)議題。
鄒慶士甚至認(rèn)為,就像Web 1.0是建立網(wǎng)站,Web 2.0則是經(jīng)營(yíng)網(wǎng)站,現(xiàn)在的大數(shù)據(jù)應(yīng)用,應(yīng)該要進(jìn)入「大數(shù)據(jù)2.0」的時(shí)代。在「大數(shù)據(jù)1.0」的時(shí)代,數(shù)據(jù)是靠IT科技來建立,後來則是透過統(tǒng)計(jì)領(lǐng)域或機(jī)器學(xué)習(xí)模式,來建立模式,但現(xiàn)在需要的是達(dá)到視覺化及詮釋數(shù)據(jù)的能力。鄒慶士認(rèn)為,在大數(shù)據(jù)1.0,需要的是掌握新技術(shù)與系統(tǒng),但在大數(shù)據(jù)2.0,需要培育新型數(shù)據(jù)分析人才。
若從數(shù)據(jù)探勘角度來思考,為了要讓大數(shù)據(jù)發(fā)揮價(jià)值,以數(shù)據(jù)為基礎(chǔ)來做決策,首先要注意的是,數(shù)據(jù)探勘是一個(gè)跨領(lǐng)域的科學(xué),涉及統(tǒng)計(jì)、AI、Machine Learning等,必須將來自於不同領(lǐng)域的數(shù)據(jù)收集起來後,才能整合調(diào)理得出結(jié)論。
鄒慶士將跨產(chǎn)業(yè)的數(shù)據(jù)探勘過程,簡(jiǎn)化成三個(gè)步驟,分別是數(shù)據(jù)預(yù)先處理(Data Preprocessing)、數(shù)據(jù)探勘(Data Mining)及後處理(Postprocessing),其中又以第一個(gè)階段花最多的時(shí)間,鄒慶士表示,前置處理非常重要,才不會(huì)在後面產(chǎn)生問題,導(dǎo)致「垃圾進(jìn)、垃圾出」的數(shù)據(jù)輸出結(jié)果。
至於第二階段的主要工作,分別是預(yù)測(cè)(Predictive)、群集(Cluster)、關(guān)聯(lián)、異常等管理為主。但回到數(shù)據(jù)分析的根本,鄒慶士認(rèn)為,第一步要先做到數(shù)據(jù)有感(Data sensitive),才知道該怎麼對(duì)待數(shù)據(jù);第二步是數(shù)據(jù)混搭(Data mashups),要懂很多不同的模式,知道每一個(gè)模式建模的特性,最後才能落實(shí)想法,先後完成模型混搭(Models mashups)及雛型化工具(Prototyping tools),再一步步放大,但一定要建立在商業(yè)理解上。
鄒慶士還將大數(shù)據(jù)的屬性分成四類,第一類是名目尺度(nominal),如身分證號(hào)碼、眼色、郵遞區(qū)號(hào),特徵是僅能比較異同;第二類是順序尺度(ordinal),如排名、年級(jí)、高度等,特稱是能夠分別順訊;第三類是區(qū)間指度(interval),如日期、溫度等,特徵為有絕對(duì)零點(diǎn),差異或距離都有其意義;第四類為比例尺度(ratio),如長(zhǎng)度、時(shí)間、次數(shù)等,特徵為有自然零點(diǎn),比率有其意義。
鄒慶士強(qiáng)調(diào),每一類的處理方式都不同,運(yùn)算的方式也因此會(huì)有適用的領(lǐng)域,不能隨便亂用。數(shù)據(jù)集類型則分為三種,分別是記錄數(shù)據(jù)(如數(shù)據(jù)矩陣、文件或交易數(shù)據(jù))、圖形數(shù)據(jù)(如全球資訊網(wǎng)或分子結(jié)構(gòu))及有序數(shù)據(jù)(如時(shí)間、次序、間或基因序列數(shù)據(jù)等),鄒慶士指出,大數(shù)據(jù)時(shí)代要面對(duì)的數(shù)據(jù)不只一種,而是多元的數(shù)據(jù)來源。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)來源,其實(shí)是充斥在每個(gè)領(lǐng)域,包括推文串流、網(wǎng)頁伺服器記錄等。鄒慶士指出,其實(shí)重點(diǎn)不在找數(shù)據(jù),而是如何混搭各方來源數(shù)據(jù),進(jìn)行混模加值。
因此,鄒慶士建議,面對(duì)大數(shù)據(jù)時(shí)代,企業(yè)要練就數(shù)據(jù)柔術(shù)(Data Jiujtsu),好的數(shù)據(jù)人才,不能只是懂科技,而是要涉獵許多領(lǐng)域,才有辦法將大問題分解成小問題,不用立即處理海量數(shù)據(jù),做到小處著眼,反覆加值,以機(jī)敏彈性的流程,逐步邁向目標(biāo)。
鄒慶士指出,R工具的出現(xiàn),就是要因應(yīng)前述的需求,目前已有5,000多個(gè)套件,而且支持開放源,所有的演算邏輯都是公開的,可以藉此了解其他工程師的思維。
但在使用工具解決大數(shù)據(jù)的問題時(shí),鄒慶士認(rèn)為要注意三個(gè)議題,分別是撰寫有效率的程式,提高執(zhí)行速度;將數(shù)據(jù)儲(chǔ)存在外部,以避免記憶體受限的問題;運(yùn)用專門的統(tǒng)計(jì)程序,以有效率的方式分析大量數(shù)據(jù)。
但不管是什麼工具,都會(huì)一直不斷地在演化,鄒慶士指出,要特別注意工具的發(fā)展,工作才會(huì)有效率。此外,大數(shù)據(jù)分析要能伸縮自如,可大可小,數(shù)據(jù)分析的思維,一定要回到數(shù)據(jù)本身的屬性,如紛絲團(tuán)經(jīng)營(yíng)指標(biāo)最佳權(quán)重,數(shù)據(jù)欄位超過90個(gè),所以在開始進(jìn)行大數(shù)據(jù)分析時(shí),第一個(gè)步驟反而是刪除不必要的欄位。
鄒慶士指出,活化大數(shù)據(jù)應(yīng)用價(jià)值的關(guān)鍵,主要是加強(qiáng)個(gè)人與組織的數(shù)據(jù)分析思考能力,唯有將數(shù)據(jù)、程式及人的智慧加以整合,才會(huì)產(chǎn)生價(jià)值。企業(yè)還必須要能活化顧客留下的數(shù)據(jù)軌跡,因?yàn)閮r(jià)值的關(guān)鍵在於應(yīng)用。