迎接大數(shù)據(jù)時(shí)代的來(lái)臨,要如何運(yùn)用既有優(yōu)勢(shì),同時(shí)克服將到來(lái)的挑戰(zhàn)呢?大學(xué)副教授洪士灝指出,硬軟件整合是的機(jī)會(huì),但業(yè)界的思維必須轉(zhuǎn)型,要從純硬件的代工制造業(yè),轉(zhuǎn)為有能力針對(duì)特定應(yīng)用,產(chǎn)生最佳的硬軟件整合方案,而這也正是面對(duì)大數(shù)據(jù)時(shí)代的主要挑戰(zhàn)。
以云計(jì)算為例指出,要做出成績(jī),但這幾年在并沒(méi)有明顯成果,其中一個(gè)原因就是因?yàn)橛门f思維做高科技,包括不懂軟件,以至於只會(huì)做硬件,軟件賺不了錢;太依賴代工、賣硬件,不會(huì)做服務(wù);只會(huì)人云亦云、依樣畫(huà)大餅,要靠政府補(bǔ)貼才有競(jìng)爭(zhēng)力。
云計(jì)算雖然已經(jīng)幫大數(shù)據(jù)鋪好路,但要應(yīng)用大數(shù)據(jù),需要三種人才,分別是能夠解決具件問(wèn)題的領(lǐng)域?qū)<?、理解大?shù)據(jù)方法論的數(shù)據(jù)科學(xué)家,以及開(kāi)發(fā)系統(tǒng)和應(yīng)用程式的電腦專家。此外,還需要兩種技術(shù),分別是能夠大數(shù)據(jù)分析及大數(shù)據(jù)系統(tǒng)。
參考國(guó)外案例,為了在大數(shù)據(jù)時(shí)代搶得先機(jī),有的是比數(shù)據(jù)量大,如Google、Facebook、Amazon等,但多半以數(shù)字、文字、圖片為主,如何蒐集與運(yùn)用聲音、影像、專業(yè)知識(shí),便成為其中的關(guān)鍵;另一種方式,則是設(shè)立大數(shù)據(jù)研究機(jī)構(gòu),培養(yǎng)設(shè)計(jì)學(xué)程、整合跨領(lǐng)域人才等;也有企業(yè)透過(guò)設(shè)置比武擂臺(tái)的方式,提供數(shù)據(jù)或問(wèn)題,用獎(jiǎng)金為誘因,吸引專家投入;或是研發(fā)與販?zhǔn)鄞髷?shù)據(jù)技術(shù)。
至於面對(duì)大數(shù)據(jù)時(shí)代的機(jī)會(huì)與挑戰(zhàn),目前還有很多尚未利用大數(shù)據(jù)解決的問(wèn)題,業(yè)界不要好高騖遠(yuǎn),應(yīng)該要找尋適合耕耘的題目,但業(yè)界必須要由OEM/ODM,轉(zhuǎn)型為附加價(jià)值更高的解決方案提供業(yè)者,利用硬件設(shè)計(jì)的優(yōu)勢(shì),優(yōu)化大數(shù)據(jù)的的軟件及應(yīng)用。
但目前的大數(shù)據(jù)高級(jí)人才相當(dāng)短缺,各先進(jìn)國(guó)家都在加強(qiáng)訓(xùn)練人才,因此一定要提供高薪機(jī)會(huì),才能吸引人才;而因?yàn)榇髷?shù)據(jù)的技術(shù)層次高,必須讓大學(xué)發(fā)揮創(chuàng)新與整合的功能,尋求跨領(lǐng)域團(tuán)隊(duì)合作的可能。
值得注意的是,由於應(yīng)用和數(shù)據(jù)的價(jià)值日益提高,想要取得并不容易,反觀系統(tǒng)軟件很多都已開(kāi)放原始碼,很大方的提供給識(shí)貨的人來(lái)用。洪士灝認(rèn)為,需要組一個(gè)團(tuán)隊(duì)來(lái)創(chuàng)造擴(kuò)大價(jià)值,善用人家的技術(shù)和軟件,學(xué)會(huì)如何建構(gòu)系統(tǒng),并找尋高價(jià)值的應(yīng)用,把這些進(jìn)階的系統(tǒng)軟件和硬件整合在一起,將應(yīng)用好好做出來(lái),就是的機(jī)會(huì)。
整合難度非常高,因?yàn)樾芎脡牟詈芏?,一看就明白,必須了解?yīng)用的特性,如數(shù)據(jù)量及存取模式,或是解決關(guān)鍵的效能瓶頸,如磁碟機(jī)、網(wǎng)路及處理機(jī)等。
了解大數(shù)據(jù)的應(yīng)用特性更是重要。洪士灝指出,要提高處理效率,必須善用分散式處理與 computation-data co-location。由多臺(tái)機(jī)器組成叢集,提高運(yùn)算量和儲(chǔ)存數(shù)據(jù)量;裝置分散式檔案系統(tǒng)如HDFS;盡可能在同一節(jié)點(diǎn)讀取數(shù)據(jù)、計(jì)算、儲(chǔ)存結(jié)果;在每個(gè)節(jié)點(diǎn)提供足夠的運(yùn)算能量;利用高速網(wǎng)路進(jìn)行不同節(jié)點(diǎn)間必要的數(shù)據(jù)交換等。
值得注意的是,大數(shù)據(jù)的每個(gè)應(yīng)用都有其特性,必須全系統(tǒng)面進(jìn)行效能分析,才能達(dá)到預(yù)期目標(biāo)。儲(chǔ)存及網(wǎng)路都可能是瓶頸,但微軟卻在2012年創(chuàng)下1分鐘內(nèi)完成1.47TB的世界記錄,而且使用的機(jī)器是之前的記錄保持人雅虎的四分之一,卻只要三分之一的搜尋時(shí)間。
大數(shù)據(jù)的讀寫(xiě)常常都是瓶頸,過(guò)去都是用更多的磁碟、更多的交換器來(lái)解決,但也導(dǎo)致耗電等問(wèn)題。如果能把數(shù)據(jù)放在記憶件,不但性價(jià)比要比放到磁碟上省很多,而且可以省不少時(shí)間,尤其是數(shù)據(jù)如果是在TB等級(jí),放在記憶件會(huì)比放在磁碟上,來(lái)得更有意義。此外,異質(zhì)運(yùn)算值得重視,甚至連GPU也可拿來(lái)做大數(shù)據(jù)分析。
其實(shí)目前仍有許多大數(shù)據(jù)分析的需求,如醫(yī)學(xué)影像分析、異質(zhì)運(yùn)算系統(tǒng)軟件與效能工具、建構(gòu)臺(tái)大計(jì)資中心高效能大數(shù)據(jù)叢集、國(guó)科會(huì)大數(shù)據(jù)先導(dǎo)計(jì)畫(huà)、植物工廠及資安監(jiān)控與數(shù)據(jù)分析,都是大數(shù)據(jù)分析可以發(fā)揮的空間。
大數(shù)據(jù)的應(yīng)用或計(jì)算其實(shí)并不復(fù)雜,主要的挑戰(zhàn)是數(shù)據(jù)量太大,如果能設(shè)計(jì)出加速的方法,就會(huì)很有價(jià)值。產(chǎn)業(yè)其實(shí)對(duì)軟硬件整合并不陌生,在終端設(shè)備上也有表現(xiàn)不錯(cuò)的業(yè)者,但對(duì)於大數(shù)據(jù)的應(yīng)用與研究方才起步,缺乏跨領(lǐng)域的團(tuán)隊(duì)與經(jīng)驗(yàn),唯有改變想法,用軟件研發(fā)的思維,才能掌握先機(jī),迎接大數(shù)據(jù)的挑戰(zhàn)。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13967.html