大數(shù)據(jù)的問題和缺陷

責(zé)任編輯:jackye

作者:Harris編譯

2017-12-26 09:39:51

摘自:機(jī)房360

摘要:多虧了大數(shù)據(jù)和云計算,可以讓企業(yè)使用超級計算機(jī)的力量。由于企業(yè)的大數(shù)據(jù)項目的早期階段可以制定或顛覆整個事情,這就是聽從大數(shù)據(jù)咨詢公司的建議可以獲得真正回報的地方。

多虧了大數(shù)據(jù)和云計算,可以讓企業(yè)使用超級計算機(jī)的力量。而人們面臨的問題是用來分析和應(yīng)用大數(shù)據(jù)的工具通常有一個致命的缺陷。人們進(jìn)行的大部分?jǐn)?shù)據(jù)分析都是基于錯誤的模型,這意味著錯誤是不可避免的。當(dāng)人們夸大的期望超過其能力時,后果可能是可怕的。

如果大數(shù)據(jù)不是如此巨大,這不會是一個問題??紤]到人們擁有的數(shù)據(jù)量,有時甚至可以使用有缺陷的模型來產(chǎn)生有用的結(jié)果。這里的問題是人們經(jīng)常把結(jié)果與全知混淆起來。人們對自己的技術(shù)非常迷戀,但是當(dāng)模型出現(xiàn)故障時,它會變得非常難看,尤其是當(dāng)數(shù)據(jù)產(chǎn)生的錯誤是相當(dāng)大的時候。

大數(shù)據(jù)失敗的例子

也許最大的和最知名的大數(shù)據(jù)失敗案例是在谷歌公司的2013年流感趨勢。谷歌于2008推出這項服務(wù),目的是預(yù)測25個國家的流感疫情。邏輯很簡單:在特定區(qū)域分析谷歌關(guān)于流感的搜索查詢。下一步是將搜索結(jié)果與該地區(qū)流感活動的歷史記錄進(jìn)行比較?;谶@些結(jié)果,活動水平被分為低,中,高或極端。

盡管乍一看,這似乎是一個很酷的想法,但實際上并不是這樣。在2013年流感高峰期,谷歌預(yù)測的流感的趨勢悲慘地失敗了。事實上,這個數(shù)字是驚人的140%。原因是算法有缺陷,沒有考慮到幾個因素。例如,如果人們搜索“冷”或“發(fā)燒”這樣的詞,這并不一定意味著他們正在尋找流感樣癥狀。他們可能一直在尋找季節(jié)性的疾病。對于谷歌流感趨勢不幸的是,它無法從這場災(zāi)難中恢復(fù)過來,最終導(dǎo)致了2013年的崩潰。

大數(shù)據(jù)失敗的原因

谷歌流感趨勢的失敗并不是唯一的災(zāi)難。人們不可能列出這些年來所有大數(shù)據(jù)的錯誤,然而,分析失敗是很重要的,因為可以吸取教訓(xùn),不要在功能上重復(fù)錯誤。大數(shù)據(jù)失敗的一些原因如下:

(1)缺乏數(shù)據(jù)管理和數(shù)據(jù)管理

組織往往不完全了解他們已有的數(shù)據(jù),但他們?nèi)匀粵Q定在此基礎(chǔ)上開展新的項目。缺乏關(guān)于數(shù)據(jù)處理的文檔、存儲、策略和其他程序。采用大數(shù)據(jù)咨詢公司的服務(wù)是一個好主意,這樣企業(yè)就可以為自己提供一個清晰的路線圖和指導(dǎo),說明如何處理已經(jīng)擁有的數(shù)據(jù),然后才能克服大數(shù)據(jù)的挑戰(zhàn)。

(2)未定目標(biāo)和戰(zhàn)略

這里有很多IT術(shù)語和營銷術(shù)語,而且在白噪聲中難以理解。此外,市場上還有很多大數(shù)據(jù)產(chǎn)品,選擇合適的產(chǎn)品真的很困難。企業(yè)在決定任何事情之前,找出實現(xiàn)目標(biāo)所需的服務(wù)和技術(shù)非常重要。“做大數(shù)據(jù)的小數(shù)據(jù)”,這意味著企業(yè)應(yīng)該在少量數(shù)據(jù)上評估其大數(shù)據(jù)架構(gòu),以確保選擇正確的產(chǎn)品。

(3)完全不了解

數(shù)據(jù)科學(xué)和大數(shù)據(jù)是領(lǐng)域知識,數(shù)學(xué),統(tǒng)計專業(yè)知識和編程技能的復(fù)雜組合。然而,同時它也必須具有商業(yè)意義。通常,IT部門會做出管理層不能理解的變更,反之亦然。為了確保企業(yè)了解大數(shù)據(jù)行為對IT和業(yè)務(wù)領(lǐng)導(dǎo)者都有意義,應(yīng)該在大數(shù)據(jù)項目中構(gòu)建IT與業(yè)務(wù)之間的橋梁。業(yè)務(wù)人員應(yīng)該深入?yún)⑴c大數(shù)據(jù)項目的任何階段。

(4)項目太大太快

當(dāng)企業(yè)第一次開始實施大數(shù)據(jù)項目時,有很多未定義的因素,比如預(yù)算、技術(shù)、行動方式等等。當(dāng)企業(yè)很早就開展一個大項目時,那么注定要失敗。相反,應(yīng)該選擇一個小項目進(jìn)行,并衡量成功(或缺乏)增量。這樣如果出現(xiàn)問題,將能夠立即注意到它,并在項目結(jié)束之前進(jìn)行必要的調(diào)整。衡量企業(yè)的進(jìn)步的好方法是創(chuàng)建概念的原型或證明來驗證其所完成的工作。如果項目早期存在缺陷,推進(jìn)項目的下一階段就沒有意義了。

(5)缺乏IT人才

企業(yè)找到和雇用所需要的人才來成功完成一個項目是一項艱巨的任務(wù),但處理企業(yè)數(shù)據(jù)的工作人員是整個項目的重要組成部分。而且,他們必須精通新技術(shù),這對于快節(jié)奏的IT環(huán)境來說是一個挑戰(zhàn)。

從上面的列表中,人們注意到的一個共同的主題是,無論想要關(guān)注數(shù)據(jù)多少,人們總是受到阻礙。即使人們想要數(shù)據(jù)來決定決策過程,人們最終還是要管理大數(shù)據(jù)流程。這包括做出基本決定,例如收集和保存哪些數(shù)據(jù),以及從大數(shù)據(jù)中尋找哪些答案。

通過迭代創(chuàng)新

當(dāng)決定進(jìn)行大數(shù)據(jù)項目時,許多組織感到束手無策,這就是為什么采用迭代方法處理大數(shù)據(jù)至關(guān)重要。組織應(yīng)該嘗試設(shè)法讓員工自由地嘗試數(shù)據(jù)。事實上,最重要的大數(shù)據(jù)技術(shù)是開源的,這個“開始小,失敗快”的方法得到了加強(qiáng)。而且,很多平臺可以立即以經(jīng)濟(jì)實惠的方式訪問云服務(wù),從而進(jìn)一步降低了試用和錯誤的方法。

大數(shù)據(jù)就是要問正確的問題,所以依靠現(xiàn)有的員工是至關(guān)重要的。但是,即使擁有較高的領(lǐng)域知識,組織也不會糾正必要的數(shù)據(jù),從一開始就不會提出正確的問題。這種失敗應(yīng)該被接受和期待。

由于企業(yè)的大數(shù)據(jù)項目的早期階段可以制定或顛覆整個事情,這就是聽從大數(shù)據(jù)咨詢公司的建議可以獲得真正回報的地方。他們可以為企業(yè)建議如何創(chuàng)建概念的原型和驗證,進(jìn)行基準(zhǔn)測試,幫助創(chuàng)建微服務(wù)架構(gòu),并幫助企業(yè)遷移到新技術(shù)。采用靈活的開放式數(shù)據(jù)基礎(chǔ)設(shè)施是非常重要的,這種基礎(chǔ)設(shè)施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以迭代有效地利用大數(shù)據(jù)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號