數(shù)據(jù)管理的11個(gè)秘密

責(zé)任編輯:cres

作者:Peter Wayner

2022-07-07 10:22:00

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

可靠的數(shù)據(jù)管理策略可以為任何尋求數(shù)據(jù)利用價(jià)值的企業(yè)帶來(lái)回報(bào)。盡管如此,數(shù)據(jù)驅(qū)動(dòng)決策的道路仍然充滿挑戰(zhàn)和難題。

有人稱數(shù)據(jù)為“新石油”,也有人稱其為“新黃金”。拋去這些比喻的合理性不論,毫無(wú)疑問(wèn),對(duì)于任何希望兌現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策承諾的企業(yè)來(lái)說(shuō),組織和分析數(shù)據(jù)都是一項(xiàng)至關(guān)重要的工作。
 
為此,可靠的數(shù)據(jù)管理策略便成為關(guān)鍵所在。這包括數(shù)據(jù)治理、數(shù)據(jù)運(yùn)營(yíng)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)工程、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等,數(shù)據(jù)管理如果做得好,可以為每個(gè)行業(yè)的企業(yè)提供競(jìng)爭(zhēng)優(yōu)勢(shì)。
 
好消息是,基于幾十年來(lái)發(fā)展的合理原則,數(shù)據(jù)管理的許多方面都得到了很好的理解。例如,它們可能不易應(yīng)用或理解,但多虧了基準(zhǔn)科學(xué)家和數(shù)學(xué)家,公司現(xiàn)在擁有一系列用于分析數(shù)據(jù)和得出結(jié)論的回歸框架(logistical frameworks)。更重要的是,我們還有統(tǒng)計(jì)模型,可以繪制誤差線來(lái)描述我們的分析范圍。
 
不過(guò),盡管研究和推動(dòng)數(shù)據(jù)科學(xué)的各類學(xué)科帶來(lái)了諸多好處,但有時(shí)我們?nèi)匀幻恢^腦。企業(yè)經(jīng)常會(huì)遇到各種難題:一些悖論與收集和組織如此多數(shù)據(jù)的實(shí)際挑戰(zhàn)有關(guān);一些涉及哲學(xué)問(wèn)題,測(cè)試我們推理抽象性質(zhì)的能力;更有甚者圍繞收集大量數(shù)據(jù)的隱私問(wèn)題正日益加劇。
 
以下是數(shù)據(jù)管理的11個(gè)秘密:
 
1. 非結(jié)構(gòu)化數(shù)據(jù)難以分析
 
企業(yè)中有80%-90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),隨著數(shù)字化轉(zhuǎn)型逐漸步入深水區(qū),非結(jié)構(gòu)化數(shù)據(jù)量正在飛速增長(zhǎng)。這些數(shù)據(jù)以文檔、圖片、音視頻等形式散落在企業(yè)內(nèi)部,由于部門、應(yīng)用、架構(gòu)、多云環(huán)境等原因形成非結(jié)構(gòu)化數(shù)據(jù)孤島,難以進(jìn)行共享和利用,挖掘出內(nèi)容價(jià)值,嚴(yán)重阻礙企業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程。
 
舉個(gè)例子,我有一個(gè)朋友渴望使用人工智能來(lái)搜索其銀行呼叫中心工作人員記錄的文字,因?yàn)檫@些文字可能包含有助于改善銀行貸款和服務(wù)的見解。但是,這些筆記是由數(shù)百名不同的人記錄的,他們對(duì)于如何寫下給定電話的內(nèi)容有不同的想法。此外,每個(gè)工作人員也有不同的寫作風(fēng)格和能力。有些人根本沒(méi)有記錄下太多信息;有些人則記錄了太多自己解讀的內(nèi)容。這些文本本身就沒(méi)有太多結(jié)構(gòu)可言,當(dāng)你有成百上千名員工幾十年來(lái)記錄的一堆文字時(shí),任何結(jié)構(gòu)都可能變得更弱。
 
2. 即便是結(jié)構(gòu)化數(shù)據(jù)也常常是非結(jié)構(gòu)化的
 
優(yōu)秀的科學(xué)家和數(shù)據(jù)庫(kù)管理員通過(guò)指定每個(gè)字段的類型和結(jié)構(gòu)來(lái)指導(dǎo)數(shù)據(jù)庫(kù)。有時(shí),以更多結(jié)構(gòu)的名義,他們將給定字段中的值限制為特定范圍內(nèi)的整數(shù)或預(yù)定義的選擇。即便如此,填寫數(shù)據(jù)庫(kù)存儲(chǔ)表格的人還是會(huì)想方設(shè)法地增加難度。當(dāng)他們認(rèn)為某個(gè)問(wèn)題不適用時(shí),有時(shí)以字段為空表示;其他人則會(huì)輸入破折號(hào)或首字母“n.a.”來(lái)表示。優(yōu)秀的開發(fā)人員可以通過(guò)驗(yàn)證發(fā)現(xiàn)其中一些問(wèn)題。優(yōu)秀的數(shù)據(jù)科學(xué)家還可以通過(guò)清理來(lái)減少這種不確定性。但令人抓狂的是,即使是最結(jié)構(gòu)化的表格也有可疑條目——這些可疑條目可能會(huì)在分析中引入未知數(shù)甚至錯(cuò)誤。
 
3. 數(shù)據(jù)模式(schema)要么太嚴(yán)格要么太寬松
 
無(wú)論數(shù)據(jù)團(tuán)隊(duì)如何努力闡明模式約束(schema constraint),用于定義各種數(shù)據(jù)字段中值的最終模式還是要么太嚴(yán)格,要么太寬松。如果數(shù)據(jù)團(tuán)隊(duì)添加了嚴(yán)格的約束,用戶會(huì)抱怨他們的答案在有限的可接受值列表中找不到。如果數(shù)據(jù)模式過(guò)于寬松,用戶可以添加幾乎沒(méi)有一致性的奇怪值。
 
4. 數(shù)據(jù)法非常嚴(yán)格
 
關(guān)于隱私和數(shù)據(jù)保護(hù)的法律很強(qiáng)大,而且只會(huì)越來(lái)越強(qiáng)大。在GDPR、HIPPA等十多個(gè)法規(guī)的約束下,收集數(shù)據(jù)可能非常困難,而且一旦遭遇黑客入侵將會(huì)更加危險(xiǎn)。在許多情況下,請(qǐng)律師的錢會(huì)比雇傭程序員或數(shù)據(jù)科學(xué)家的錢多得多。這些令人頭疼的問(wèn)題就是一些公司會(huì)在處理完數(shù)據(jù)后立即將其處理掉的原因所在。
 
5. 數(shù)據(jù)清洗成本巨大
 
數(shù)據(jù)清洗也叫數(shù)據(jù)清理,是指從數(shù)據(jù)庫(kù)或數(shù)據(jù)表中更正和刪除不準(zhǔn)確數(shù)據(jù)記錄的過(guò)程。廣義地說(shuō),數(shù)據(jù)清洗包括識(shí)別和替換不完整、不準(zhǔn)確、不相關(guān)或有問(wèn)題的數(shù)據(jù)和記錄。
 
許多數(shù)據(jù)科學(xué)家承認(rèn),90%的工作只是收集數(shù)據(jù),將其以一致的形式呈現(xiàn),并處理無(wú)窮無(wú)盡的漏洞或錯(cuò)誤。擁有數(shù)據(jù)的人總是會(huì)說(shuō),“一切都在CSV(逗號(hào)分隔值,一種通用的、相對(duì)簡(jiǎn)單的文件格式)中,可以隨時(shí)使用。”但他們沒(méi)有提到空白字段或錯(cuò)誤描述。相較于在R或Python中啟動(dòng)例程以實(shí)際執(zhí)行統(tǒng)計(jì)分析,清洗用于數(shù)據(jù)科學(xué)項(xiàng)目的數(shù)據(jù)所需的時(shí)間要高達(dá)10倍之多。
 
6. 用戶越來(lái)越懷疑你的數(shù)據(jù)實(shí)踐
 
最終用戶和客戶對(duì)公司的數(shù)據(jù)管理實(shí)踐越來(lái)越懷疑,人工智能算法及其使用只會(huì)加劇恐懼,讓越來(lái)越多的人對(duì)捕獲其數(shù)據(jù)的行為深感不安。這些擔(dān)憂正在推動(dòng)監(jiān)管進(jìn)程,并經(jīng)常使公司陷入公共關(guān)系危機(jī)。不僅如此,人們還故意用虛假值或錯(cuò)誤答案干擾數(shù)據(jù)收集。有時(shí)一半的工作是與惡意合作伙伴和客戶打交道。
 
7. 整合外部數(shù)據(jù)可以獲得回報(bào),也會(huì)帶來(lái)災(zāi)難
 
公司擁有所收集數(shù)據(jù)的所有權(quán)是一回事,但是他們想要將自己的本地信息與第三方數(shù)據(jù)以及互聯(lián)網(wǎng)上存在的海量個(gè)性化信息整合起來(lái)又是另一回事。一些工具公開承諾會(huì)收集每個(gè)客戶的數(shù)據(jù),以便在每次購(gòu)買時(shí)建立個(gè)性化檔案。沒(méi)錯(cuò),它們正在使用與追蹤恐怖分子的間諜機(jī)構(gòu)相同的詞來(lái)跟蹤你的快餐購(gòu)買和信用評(píng)分。難怪人們會(huì)感到擔(dān)心和恐慌!
 
8. 監(jiān)管機(jī)構(gòu)正在打擊數(shù)據(jù)使用
 
沒(méi)人知道精明的數(shù)據(jù)分析何時(shí)會(huì)越界,但一旦越界,監(jiān)管機(jī)構(gòu)就會(huì)出動(dòng)。在最近發(fā)生在加拿大的一個(gè)案例中,政府調(diào)查發(fā)現(xiàn)一些甜甜圈店會(huì)跟蹤也在競(jìng)爭(zhēng)對(duì)手那里購(gòu)物的顧客。據(jù)最新發(fā)布的一份新聞稿稱,“調(diào)查發(fā)現(xiàn),Tim Hortons與一家美國(guó)第三方定位服務(wù)供應(yīng)商的合同包含的語(yǔ)言非常模糊和寬容,以至于允許該公司為自己的目的出售‘去識(shí)別化’的定位數(shù)據(jù)。”為了什么?賣更多的甜甜圈?無(wú)論如何,事實(shí)證明監(jiān)管機(jī)構(gòu)正越來(lái)越關(guān)注涉及個(gè)人信息的任何事情。
 
9. 你的數(shù)據(jù)方案可能不值得
 
我們想象一個(gè)出色的算法可以讓一切變得更加高效和有利可圖。有時(shí)這樣的算法實(shí)際上是可能的,但價(jià)格也可能太高。例如,消費(fèi)者(甚至公司)正越來(lái)越多地質(zhì)疑來(lái)自精心設(shè)計(jì)的數(shù)據(jù)管理方案的定向營(yíng)銷的價(jià)值。有些人指出,我們經(jīng)常看到已購(gòu)買的東西的廣告,因?yàn)閺V告跟蹤器還沒(méi)有發(fā)現(xiàn)我們已經(jīng)不需要它了。同樣的命運(yùn)經(jīng)常會(huì)降臨到其他計(jì)劃上。有時(shí),嚴(yán)格的數(shù)據(jù)分析會(huì)確定表現(xiàn)最差的工廠,但這無(wú)所謂,因?yàn)樵摴竞炇鹆艘环轂槠?0年的大樓租約。公司需要為這種可能性做好準(zhǔn)備,即所有數(shù)據(jù)科學(xué)天才可能會(huì)產(chǎn)生一個(gè)不可接受的答案。
 
10. 最后,數(shù)據(jù)決策通常只是主觀判斷
 
數(shù)字可以提供足夠的精確度,但人類如何解釋它們往往是最重要的。在所有的數(shù)據(jù)分析和人工智能操作后,大多數(shù)算法都需要決定某個(gè)值是超過(guò)還是低于閾值。有時(shí),科學(xué)家希望p值低于0.05;有時(shí),警察會(huì)為超速20%的汽車開出罰單。這些閾值通常只是任意值。對(duì)于可以應(yīng)用于數(shù)據(jù)的所有科學(xué)和數(shù)學(xué),許多“數(shù)據(jù)驅(qū)動(dòng)”流程中的灰色區(qū)域比我們想象的要多,盡管公司可能在其數(shù)據(jù)管理實(shí)踐中投入了所有資源,但決策更多的還是取決于直覺(jué)和主觀判斷。
 
11. 數(shù)據(jù)存儲(chǔ)成本呈爆炸式增長(zhǎng)
 
磁盤驅(qū)動(dòng)器的容量越來(lái)越大,且每TB的價(jià)格不斷下降,但程序員收集數(shù)據(jù)的速度明顯快于價(jià)格下降的速度。來(lái)自物聯(lián)網(wǎng)(IoT)的設(shè)備不斷上傳數(shù)據(jù),用戶希望能夠永遠(yuǎn)瀏覽這些字節(jié)的豐富集合。與此同時(shí),合規(guī)官員和監(jiān)管機(jī)構(gòu)不斷要求提供越來(lái)越多的數(shù)據(jù),以防將來(lái)進(jìn)行審計(jì)。如果有人真的看過(guò)其中的一些數(shù)據(jù),那將是一回事,但我們一天只有這么多時(shí)間。實(shí)際再次訪問(wèn)的數(shù)據(jù)百分比越來(lái)越低。然而,存儲(chǔ)擴(kuò)展包的價(jià)格一直在上漲。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)