大數(shù)據(jù)熱中的冷思考

責(zé)任編輯:editor004

2016-08-23 10:41:17

摘自:中國(guó)信息產(chǎn)業(yè)網(wǎng)

摘要:時(shí)下,大數(shù)據(jù)熱持續(xù)升溫,大數(shù)據(jù)一詞已成為各種公開(kāi)場(chǎng)合中最為炙手可熱的關(guān)鍵詞。這個(gè)笑話不但反映了使用片面的數(shù)據(jù)造成的危害,而且揭露出一部分人過(guò)于迷信數(shù)據(jù)的心理。

時(shí)下,大數(shù)據(jù)熱持續(xù)升溫,大數(shù)據(jù)一詞已成為各種公開(kāi)場(chǎng)合中最為炙手可熱的關(guān)鍵詞。大數(shù)據(jù)熱已成為一股洶涌澎湃的潮流,于是乎,各種大數(shù)據(jù)概念滿天飛,人人都在談?wù)摯髷?shù)據(jù),仿佛你的發(fā)言中沒(méi)有提到大數(shù)據(jù),你的成果中沒(méi)有應(yīng)用到大數(shù)據(jù),那你就徹底OUT了。

歷史反復(fù)告訴我們:當(dāng)一件事情持續(xù)過(guò)熱,承受了名過(guò)其實(shí)的追捧,就必然會(huì)產(chǎn)生泡沫。是泡沫就會(huì)有破裂的一天,事實(shí)必然會(huì)隨著泡沫的破裂而恢復(fù)到本來(lái)面目。總的來(lái)說(shuō),近年來(lái)涌現(xiàn)的一些新的大數(shù)據(jù)技術(shù)的確促進(jìn)了數(shù)據(jù)處理能力的大幅提高,但也應(yīng)該注意的是,伴生著大數(shù)據(jù)的發(fā)展也產(chǎn)生了一些不良現(xiàn)象,比如:炒作概念,無(wú)中生有;似懂非懂,濫用數(shù)據(jù);盲目跟風(fēng),浪費(fèi)資源等。這些不良現(xiàn)象應(yīng)引起我們足夠的重視。

現(xiàn)象本質(zhì)

大數(shù)據(jù)概念的提出是在2008年,數(shù)據(jù)科學(xué)家維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶在《大數(shù)據(jù)時(shí)代》一書(shū)中提出:大數(shù)據(jù)不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而使用所有數(shù)據(jù)進(jìn)行分析處理。2012年,IBM商業(yè)價(jià)值研究院與牛津著名的賽德商學(xué)院聯(lián)合發(fā)布了一份題為《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》的報(bào)告,報(bào)告中用四個(gè)V來(lái)確定大數(shù)據(jù),即:數(shù)量(volume)、多樣性(variety)、速度(velocity)和精確性(veracity)。

從專(zhuān)業(yè)的角度看,大數(shù)據(jù)這個(gè)概念是一個(gè)很不科學(xué)嚴(yán)謹(jǐn)?shù)母拍?,具有很大的模糊性,但正因如此,給外界留下了很大的想象空間。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,數(shù)據(jù)的形態(tài)越來(lái)越復(fù)雜,對(duì)數(shù)據(jù)的使用要求更是五花八門(mén)。在不同的場(chǎng)景下,大數(shù)據(jù)這個(gè)詞匯似乎成了一個(gè)筐,什么都可以往里裝。這一概念不但看起來(lái)“高大上”,而且科技感十足,想象空間足夠大,因此備受推崇。政府部門(mén)出于拉動(dòng)GDP等因素考慮,覺(jué)得大的項(xiàng)目往往更容易得到重視和青睞,因此力推大數(shù)據(jù)。與此同時(shí),一些商業(yè)組織出于商業(yè)利益考慮,也樂(lè)于炒作大數(shù)據(jù)概念。比如在資本市場(chǎng)上,有哪只股票要是成為大數(shù)據(jù)概念股,市值很容易就會(huì)大幅提升;哪家創(chuàng)業(yè)公司如果跟大數(shù)據(jù)貼上邊,就會(huì)受到風(fēng)投公司的追捧。而上下游產(chǎn)業(yè)的IT公司更是樂(lè)見(jiàn)大數(shù)據(jù)熱現(xiàn)象持續(xù)蔓延,因?yàn)榇髷?shù)據(jù)往往意味著大投資、大生意、大客戶,相關(guān)軟件和硬件的銷(xiāo)量自然急劇增加,毫不費(fèi)力賺得盆滿缽滿。于是,一場(chǎng)以大數(shù)據(jù)為名的運(yùn)動(dòng)在全社會(huì)轟轟烈烈地開(kāi)展起來(lái)。

對(duì)企業(yè)的危害

大數(shù)據(jù)是一柄雙刃劍,用得好會(huì)給企業(yè)創(chuàng)造價(jià)值,用不好不但會(huì)成為企業(yè)的負(fù)擔(dān),反而還可能會(huì)成為誤導(dǎo)。具體說(shuō)來(lái),濫用大數(shù)據(jù)的危害性有以下幾點(diǎn)。

——導(dǎo)致錯(cuò)誤的評(píng)價(jià)

有這樣一個(gè)笑話,某大學(xué)年度調(diào)查統(tǒng)計(jì)顯示,本校計(jì)算機(jī)系的女同學(xué)中,50%都嫁給了該校的男性老師。該消息一經(jīng)公布,立即引起校內(nèi)外的巨大反響,人們對(duì)師生戀、校園戀議論紛紛,很多人說(shuō)是某校的炒作。經(jīng)幾次調(diào)查核實(shí),該消息確實(shí)是真實(shí)有效的。原來(lái)該大學(xué)計(jì)算機(jī)系只有兩名女生,其中一名女生和計(jì)算機(jī)系老師相戀結(jié)婚,由此得來(lái)的50%是真實(shí)數(shù)據(jù)。

這個(gè)笑話不但反映了使用片面的數(shù)據(jù)造成的危害,而且揭露出一部分人過(guò)于迷信數(shù)據(jù)的心理。數(shù)據(jù)雖然是客觀和科學(xué)的,但怎么使用和看待數(shù)據(jù)卻是人的問(wèn)題。如果有些別有用心的人利用大眾對(duì)于大數(shù)據(jù)盲目迷信的心理來(lái)誤導(dǎo)大家,那么這種披著權(quán)威外衣的欺騙甚至要比不用大數(shù)據(jù)更能導(dǎo)致嚴(yán)重后果。

——導(dǎo)致錯(cuò)誤的決策

數(shù)據(jù)的最大商業(yè)價(jià)值在于預(yù)測(cè),現(xiàn)在的企業(yè)越來(lái)越傾向于使用大數(shù)據(jù)得出的結(jié)論作為未來(lái)的決策依據(jù)。盡管如此,仍有不少數(shù)據(jù)分析專(zhuān)家認(rèn)為,當(dāng)企業(yè)開(kāi)始搞大數(shù)據(jù)的時(shí)候,他們就走上了一條不歸路,數(shù)據(jù)越大,其中枝節(jié)越多,錯(cuò)誤也就越多。數(shù)據(jù)科學(xué)家Vincent Granville在《大數(shù)據(jù)的詛咒》里寫(xiě)道:“這并不難解釋。例如即使數(shù)據(jù)集之中只包括1000個(gè)因子,那這些因子之間的相關(guān)關(guān)系數(shù)量就高達(dá)百萬(wàn)級(jí)別。這也就意味著一些因子之間的關(guān)系可能完全是隨機(jī)的,以此來(lái)建預(yù)測(cè)模型,你會(huì)輸?shù)煤軕K。”

——投資與收益嚴(yán)重倒掛

大數(shù)據(jù)既然“大”字當(dāng)頭,自然投資成本不會(huì)小。在硬件層面上,要投入比以往系統(tǒng)多得多的主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備以及相關(guān)配件,由于設(shè)備數(shù)量的增加還會(huì)造成大量的用電負(fù)荷以及占用大量機(jī)房場(chǎng)地空間,對(duì)布線、空調(diào)等相關(guān)配套的需求也急劇增加;在軟件層面上,雖然操作系統(tǒng)和數(shù)據(jù)庫(kù)等底層可以找到越來(lái)越多的開(kāi)源軟件可替代,但那些針對(duì)數(shù)據(jù)挖掘和數(shù)據(jù)分析以及分布式存儲(chǔ)的軟件是永遠(yuǎn)也不可能免費(fèi)的,而且普遍價(jià)格高昂;在維護(hù)成本方面,由于大量使用開(kāi)源軟件,大數(shù)據(jù)所帶來(lái)的大集群以及低穩(wěn)定性需要付出更多的人力成本。

可見(jiàn),大數(shù)據(jù)必然是大手筆的投入,然而這種大投入能不能帶來(lái)大產(chǎn)出就是另一回事了。對(duì)于分析系統(tǒng)而言,其分析的結(jié)果能否抵得上投資收益是一件不太確定的事,并且有效數(shù)據(jù)的產(chǎn)生可能需要一個(gè)長(zhǎng)期的過(guò)程。對(duì)大數(shù)據(jù)的挖掘有點(diǎn)像在一座據(jù)說(shuō)藏有黃金的礦山中挖掘,但要挖多深、挖多久才能有結(jié)果,其實(shí)并不確定。

——加重核心系統(tǒng)的負(fù)擔(dān)

最重要和最有價(jià)值的數(shù)據(jù)必然是從核心系統(tǒng)產(chǎn)生出來(lái)的,大數(shù)據(jù)分析的過(guò)程就是一個(gè)先大量占有、再慢慢分析的過(guò)程,在這個(gè)過(guò)程中,必然不能缺少核心數(shù)據(jù)的參與。這意味著核心系統(tǒng)需要開(kāi)放更多的接口,犧牲一定的性能來(lái)配合分析。不僅如此,在爭(zhēng)搶系統(tǒng)資源方面,大數(shù)據(jù)系統(tǒng)當(dāng)然比資源池內(nèi)的其他系統(tǒng)更有“威力”。即使是主機(jī)環(huán)境互相隔離開(kāi),但只要是在一個(gè)機(jī)房?jī)?nèi),存儲(chǔ)、網(wǎng)絡(luò)帶寬、機(jī)架空間、用電負(fù)荷等資源也會(huì)被迅速增長(zhǎng)的大數(shù)據(jù)系統(tǒng)搶得一干二凈。長(zhǎng)此以往,核心系統(tǒng)的業(yè)務(wù)資源必然緊張,系統(tǒng)運(yùn)行風(fēng)險(xiǎn)也隨之上升。

建言獻(xiàn)策

大數(shù)據(jù)是信息化系統(tǒng)發(fā)展到一定階段以后的必然產(chǎn)物,更大更全面的數(shù)據(jù)處理能力必將成為企業(yè)未來(lái)重要的生產(chǎn)力來(lái)源。然而,對(duì)于大數(shù)據(jù),我們不能只抱著一片癡心,還要像認(rèn)識(shí)硬幣的正反兩面一樣,對(duì)大數(shù)據(jù)的負(fù)面問(wèn)題有所防范。

首先,不迷信不盲從大數(shù)據(jù)。大數(shù)據(jù)不是萬(wàn)能的,更不是完美的,數(shù)據(jù)僅僅是一種參考資料,如何看待和使用數(shù)據(jù)還要靠人。因此要用審慎的心態(tài)看待數(shù)據(jù),避免因使用片面的數(shù)據(jù)而產(chǎn)生決策偏差,甚至是步入陷阱。如果我們不能合理使用大數(shù)據(jù),那么大數(shù)據(jù)就真的成了“大忽悠”。

其次,要根據(jù)企業(yè)實(shí)際選擇合適的大數(shù)據(jù)方案。在大數(shù)據(jù)系統(tǒng)立項(xiàng)和建設(shè)之初,就要充分考慮投入和產(chǎn)出的比率,對(duì)于產(chǎn)出價(jià)值不大的系統(tǒng)應(yīng)采取審慎的態(tài)度建設(shè),并且嚴(yán)格控制規(guī)模,避免“大而全”的建設(shè)思路。只有在建設(shè)前期就嚴(yán)格把關(guān),才能防止大數(shù)據(jù)成為“大負(fù)擔(dān)”。

最后,做好數(shù)據(jù)信息安全防范。在使用大數(shù)據(jù)的同時(shí),也一定要做好數(shù)據(jù)信息可能泄露的安全防范。數(shù)據(jù)如果沉淀下去一直不用當(dāng)然不會(huì)創(chuàng)造價(jià)值,但如果不注意數(shù)據(jù)信息的安全防范就可能造成信息泄露、篡改、盜用、刪除等嚴(yán)重后果。極端情況下,甚至?xí)o企業(yè)造成致命的打擊。因此一定要限定數(shù)據(jù)使用的范圍、流程,避免大數(shù)據(jù)演變成為“大災(zāi)難”。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)