亚洲中文无韩国r级电影,久久综合加勒比金八天国

活用大數(shù)據(jù) 創(chuàng)造應(yīng)用價(jià)值

責(zé)任編輯：editor007

2015-07-30 17:27:09

摘自：中國(guó)大數(shù)據(jù)

鄒慶士甚至認(rèn)為，就像Web 1 0是建立網(wǎng)站，Web 2 0則是經(jīng)營(yíng)網(wǎng)站，現(xiàn)在的大數(shù)據(jù)應(yīng)用，應(yīng)該要進(jìn)入「大數(shù)據(jù)2 0」的時(shí)代。鄒慶士指出，活化大數(shù)據(jù)應(yīng)用價(jià)值的關(guān)鍵

大數(shù)據(jù)

大數(shù)據(jù)(Big Data)近年來已成為業(yè)界最炙手可熱的話題之一，在大數(shù)據(jù)時(shí)代，企業(yè)不僅需要提升儲(chǔ)存容量與數(shù)據(jù)管理能力，更重要的是，要設(shè)法從龐大、多元格式的數(shù)據(jù)海洋中，挖掘出數(shù)據(jù)的極致價(jià)值，進(jìn)而創(chuàng)造新的商業(yè)機(jī)會(huì)與營(yíng)運(yùn)決策。

國(guó)立臺(tái)北商業(yè)技術(shù)學(xué)院教授鄒慶士指出，大數(shù)據(jù)是個(gè)大議題，大家其實(shí)都還在學(xué)習(xí)階段，但可以確定的是，對(duì)電腦而言，最有價(jià)值的東西已經(jīng)不再是硬體，而是數(shù)據(jù)，許多產(chǎn)品及應(yīng)用也都是以數(shù)據(jù)為基礎(chǔ)，才能進(jìn)一步產(chǎn)生重大價(jià)值。

鄒慶士指出，大數(shù)據(jù)的主要應(yīng)用，仍是以數(shù)據(jù)探勘為主，但跟過去相比，特點(diǎn)在於數(shù)據(jù)量變得非常大，但大數(shù)據(jù)不見得數(shù)大就是美，容量大小還可以靠技術(shù)來解決，整理的時(shí)間則因?yàn)樽兊梅浅ｉL(zhǎng)，已經(jīng)成為數(shù)據(jù)分析的困擾。鄒慶士認(rèn)為，唯有從數(shù)據(jù)分析的本質(zhì)開始思考，才能真正深入大數(shù)據(jù)這個(gè)議題。

鄒慶士甚至認(rèn)為，就像Web 1.0是建立網(wǎng)站，Web 2.0則是經(jīng)營(yíng)網(wǎng)站，現(xiàn)在的大數(shù)據(jù)應(yīng)用，應(yīng)該要進(jìn)入「大數(shù)據(jù)2.0」的時(shí)代。在「大數(shù)據(jù)1.0」的時(shí)代，數(shù)據(jù)是靠IT科技來建立，後來則是透過統(tǒng)計(jì)領(lǐng)域或機(jī)器學(xué)習(xí)模式，來建立模式，但現(xiàn)在需要的是達(dá)到視覺化及詮釋數(shù)據(jù)的能力。鄒慶士認(rèn)為，在大數(shù)據(jù)1.0，需要的是掌握新技術(shù)與系統(tǒng)，但在大數(shù)據(jù)2.0，需要培育新型數(shù)據(jù)分析人才。

若從數(shù)據(jù)探勘角度來思考，為了要讓大數(shù)據(jù)發(fā)揮價(jià)值，以數(shù)據(jù)為基礎(chǔ)來做決策，首先要注意的是，數(shù)據(jù)探勘是一個(gè)跨領(lǐng)域的科學(xué)，涉及統(tǒng)計(jì)、AI、Machine Learning等，必須將來自於不同領(lǐng)域的數(shù)據(jù)收集起來後，才能整合調(diào)理得出結(jié)論。

鄒慶士將跨產(chǎn)業(yè)的數(shù)據(jù)探勘過程，簡(jiǎn)化成三個(gè)步驟，分別是數(shù)據(jù)預(yù)先處理(Data Preprocessing)、數(shù)據(jù)探勘(Data Mining)及後處理(Postprocessing)，其中又以第一個(gè)階段花最多的時(shí)間，鄒慶士表示，前置處理非常重要，才不會(huì)在後面產(chǎn)生問題，導(dǎo)致「垃圾進(jìn)、垃圾出」的數(shù)據(jù)輸出結(jié)果。

至於第二階段的主要工作，分別是預(yù)測(cè)(Predictive)、群集(Cluster)、關(guān)聯(lián)、異常等管理為主。但回到數(shù)據(jù)分析的根本，鄒慶士認(rèn)為，第一步要先做到數(shù)據(jù)有感(Data sensitive)，才知道該怎麼對(duì)待數(shù)據(jù);第二步是數(shù)據(jù)混搭(Data mashups)，要懂很多不同的模式，知道每一個(gè)模式建模的特性，最後才能落實(shí)想法，先後完成模型混搭(Models mashups)及雛型化工具(Prototyping tools)，再一步步放大，但一定要建立在商業(yè)理解上。

鄒慶士還將大數(shù)據(jù)的屬性分成四類，第一類是名目尺度(nominal)，如身分證號(hào)碼、眼色、郵遞區(qū)號(hào)，特徵是僅能比較異同;第二類是順序尺度(ordinal)，如排名、年級(jí)、高度等，特稱是能夠分別順訊;第三類是區(qū)間指度(interval)，如日期、溫度等，特徵為有絕對(duì)零點(diǎn)，差異或距離都有其意義;第四類為比例尺度(ratio)，如長(zhǎng)度、時(shí)間、次數(shù)等，特徵為有自然零點(diǎn)，比率有其意義。

鄒慶士強(qiáng)調(diào)，每一類的處理方式都不同，運(yùn)算的方式也因此會(huì)有適用的領(lǐng)域，不能隨便亂用。數(shù)據(jù)集類型則分為三種，分別是記錄數(shù)據(jù)(如數(shù)據(jù)矩陣、文件或交易數(shù)據(jù))、圖形數(shù)據(jù)(如全球資訊網(wǎng)或分子結(jié)構(gòu))及有序數(shù)據(jù)(如時(shí)間、次序、間或基因序列數(shù)據(jù)等)，鄒慶士指出，大數(shù)據(jù)時(shí)代要面對(duì)的數(shù)據(jù)不只一種，而是多元的數(shù)據(jù)來源。

大數(shù)據(jù)時(shí)代的數(shù)據(jù)來源，其實(shí)是充斥在每個(gè)領(lǐng)域，包括推文串流、網(wǎng)頁伺服器記錄等。鄒慶士指出，其實(shí)重點(diǎn)不在找數(shù)據(jù)，而是如何混搭各方來源數(shù)據(jù)，進(jìn)行混模加值。

因此，鄒慶士建議，面對(duì)大數(shù)據(jù)時(shí)代，企業(yè)要練就數(shù)據(jù)柔術(shù)(Data Jiujtsu)，好的數(shù)據(jù)人才，不能只是懂科技，而是要涉獵許多領(lǐng)域，才有辦法將大問題分解成小問題，不用立即處理海量數(shù)據(jù)，做到小處著眼，反覆加值，以機(jī)敏彈性的流程，逐步邁向目標(biāo)。

鄒慶士指出，R工具的出現(xiàn)，就是要因應(yīng)前述的需求，目前已有5,000多個(gè)套件，而且支持開放源，所有的演算邏輯都是公開的，可以藉此了解其他工程師的思維。

但在使用工具解決大數(shù)據(jù)的問題時(shí)，鄒慶士認(rèn)為要注意三個(gè)議題，分別是撰寫有效率的程式，提高執(zhí)行速度;將數(shù)據(jù)儲(chǔ)存在外部，以避免記憶體受限的問題;運(yùn)用專門的統(tǒng)計(jì)程序，以有效率的方式分析大量數(shù)據(jù)。

但不管是什麼工具，都會(huì)一直不斷地在演化，鄒慶士指出，要特別注意工具的發(fā)展，工作才會(huì)有效率。此外，大數(shù)據(jù)分析要能伸縮自如，可大可小，數(shù)據(jù)分析的思維，一定要回到數(shù)據(jù)本身的屬性，如紛絲團(tuán)經(jīng)營(yíng)指標(biāo)最佳權(quán)重，數(shù)據(jù)欄位超過90個(gè)，所以在開始進(jìn)行大數(shù)據(jù)分析時(shí)，第一個(gè)步驟反而是刪除不必要的欄位。

鄒慶士指出，活化大數(shù)據(jù)應(yīng)用價(jià)值的關(guān)鍵，主要是加強(qiáng)個(gè)人與組織的數(shù)據(jù)分析思考能力，唯有將數(shù)據(jù)、程式及人的智慧加以整合，才會(huì)產(chǎn)生價(jià)值。企業(yè)還必須要能活化顧客留下的數(shù)據(jù)軌跡，因?yàn)閮r(jià)值的關(guān)鍵在於應(yīng)用。

應(yīng)用價(jià)值混搭數(shù)據(jù)輸出