摘要 : 數(shù)據(jù)是非常有價值的,它有助于創(chuàng)造優(yōu)品、形成一個進(jìn)入壁壘,甚至可以直接貨幣化。
數(shù)據(jù)是非常有價值的,它有助于創(chuàng)造優(yōu)品、形成一個進(jìn)入壁壘,甚至可以直接貨幣化。本篇文章將想分析「公司利用數(shù)據(jù)的價值」,將有三部分組成。
在上一篇文章中,已經(jīng)談了關(guān)于「如何把數(shù)據(jù)轉(zhuǎn)化成競爭優(yōu)勢?」,而在這篇文章中,我將討論建立有價值數(shù)據(jù)庫的技巧和策略。
一個有價值的數(shù)據(jù)庫的屬性
你應(yīng)該怎么努力才能讓你積累的大數(shù)據(jù)具有優(yōu)勢?下面是寶貴的數(shù)據(jù)庫的關(guān)鍵屬性:
一個理想的數(shù)據(jù)庫是很難讓別人從頭開始構(gòu)建。
一個理想的數(shù)據(jù)庫包括全面,準(zhǔn)確,最新的數(shù)據(jù)。
一個理想的數(shù)據(jù)庫理應(yīng)是有價值的。例如,餐館菜單的數(shù)據(jù)庫,將是非常有價值的,同時鞋碼的數(shù)據(jù)庫會不值錢。
一個理想的數(shù)據(jù)庫的增長的越多價值也就越多,也就是說,該數(shù)據(jù)需要有正網(wǎng)絡(luò)效應(yīng)。
數(shù)據(jù)源
好吧,你讀了第一篇文章在這個系列,你就相信數(shù)據(jù)是偉大的,你想多了吧。但是你怎么弄的?下面是一些經(jīng)過驗證的方法:
直接收集。傳感器網(wǎng)絡(luò)的形式,調(diào)查,訪談等都是很好的方式,直接收集數(shù)據(jù)。
眾包。公司如Glassdoor,Yelp和Waze主要通過用戶貢獻(xiàn)獲取數(shù)據(jù)。眾包是直接收集的子集,但有一個值得注意的點(diǎn),因為用戶通常不知道他們正在幫助公司建立一個數(shù)據(jù)資產(chǎn)。例如,Yelp的用戶寫評語,因為他們想表達(dá)他們的意見,但這些評論還幫助建立了Yelp的的數(shù)據(jù)集。
付費(fèi)眾包。您可以支付員工(通常這些都是外包員工)或機(jī)器人進(jìn)行數(shù)據(jù)收集,可能很難收集沒有人類的幫助。
使用工具產(chǎn)生的「數(shù)據(jù)廢氣」。一切與眾包技術(shù)密切相關(guān)的都可以說是在利用「數(shù)據(jù)廢氣」。雖然眾包往往是一個商業(yè)模式的核心部分(Yelp必須要依賴用戶寫評語),「數(shù)據(jù)廢氣」是正常使用工具時產(chǎn)生的數(shù)據(jù)副產(chǎn)品。
例如,亞馬遜的主要目的是銷售產(chǎn)品,但它收集了大量的用戶行為和商店數(shù)據(jù)。用戶搜索什么?結(jié)果他們點(diǎn)擊了什么?他們最終購買了什么?所有這些數(shù)據(jù)都有助于亞馬遜建立價格彈性的內(nèi)部模型,其中可以促成一些產(chǎn)品組合購買,并針對每個用戶提供個性化的建議。
需要注意的是,幾乎任何工具可以產(chǎn)生有價值的「數(shù)據(jù)廢氣」。一個購物網(wǎng)站積累的數(shù)據(jù)來自搜索和購買,制藥公司的銷售數(shù)據(jù)很多都是來自藥師的工具。所有這些數(shù)據(jù)可以用來為用戶做出更好的產(chǎn)品,有時這些數(shù)據(jù)甚至可以直接賣給第三方,。
當(dāng)懷疑一些數(shù)據(jù)塊它是否值得保存的,盡量選擇繼續(xù)和保存。因為你以后可以隨時刪除它,如果它不能證明是有用的,但你會驚奇地發(fā)現(xiàn),大量的數(shù)據(jù)最終被有價值的,如果你只是得到足夠它。
捆綁許多現(xiàn)有的數(shù)據(jù)集在一起。公司如事實(shí),Vurb和DataFox都結(jié)合多個數(shù)據(jù)源在一個地方。事實(shí)上,谷歌搜索可以被認(rèn)為是一個巨大的數(shù)據(jù)集線器,由于谷歌收集數(shù)據(jù)(內(nèi)容)從許多來源(網(wǎng)站),并使其通過一個統(tǒng)一的搜索接口訪問。
數(shù)據(jù)積累,這種模式往往涉及大量爬蟲行為、數(shù)據(jù)清理和實(shí)體解析。盡管以上列出的其他數(shù)據(jù)收集方法包括創(chuàng)建原始數(shù)據(jù),這種方法就是找出現(xiàn)有數(shù)據(jù)源之間的連接。
這個模型的數(shù)據(jù)積累往往涉及大量web爬行,數(shù)據(jù)清洗、和實(shí)體解析。雖然上面列出的其他數(shù)據(jù)收集方法包括創(chuàng)建原始數(shù)據(jù),這種方法就是找出現(xiàn)有數(shù)據(jù)源之間的連接。
提示積累數(shù)據(jù)
收集盡可能多的數(shù)據(jù),幾乎任何數(shù)據(jù)都有價值,如果你的創(chuàng)意,你可以隨時刪除數(shù)據(jù),在未來,如果你決定這是不是有價值的不夠。
盡早開始收集數(shù)據(jù),數(shù)據(jù)分析可以推遲到你的公司比較成熟時,但數(shù)據(jù)的收集不能被推遲。你不能回到過去來檢索未保存的數(shù)據(jù)。
更喜歡原始數(shù)據(jù)得出的數(shù)據(jù)。原始數(shù)據(jù)(例如,每個用戶給一本書的評論)比處理過的數(shù)據(jù)(例如一本書的平均評分)更有價值。處理過的數(shù)據(jù)的主要問題是,將讓你喪失掉部分的可能性。
例如,如果你只跟蹤平均收視率,那么你將無法弄清楚,當(dāng)你添加一些用戶標(biāo)記為垃圾郵件的能力調(diào)整時的一個評級。那么你將無法弄清楚,如何調(diào)整這些評級當(dāng)您添加一些用戶標(biāo)記為垃圾時。
軟件缺陷也可以嚴(yán)重破壞處理的數(shù)據(jù)。例如,如果你永遠(yuǎn)不會保存?zhèn)€人用戶評級,然后引入了一個錯誤,得到平均收視率全部是錯的,那么所有等級的數(shù)據(jù)將變得一文不值的。由于這些原因,每當(dāng)存儲成本不是高昂時,盡量存儲原始數(shù)據(jù)。
與外部連接的數(shù)據(jù)集的數(shù)據(jù)可以訪問,更獨(dú)立數(shù)據(jù)源源將會使得你的見解會越好。例如,如果你知道Bob的郵件地址,那么你知道如何與他聯(lián)系。如果你可以電子郵件鏈接到Bob的Facebook和LinkedIn檔案,那么你將有一個更好地了解他的個人和職業(yè)興趣。如果你能讓OAuth訪問電子郵件帳戶,你就會知道鮑勃會買什么產(chǎn)品,你將知道如何與他進(jìn)行談判。
如果配合Bob的位置歷史記錄,以企業(yè)名單,那么你就會知道,如果他是一個健身房或藝術(shù)愛好者,更甚者家庭至上。你可以連接你的數(shù)據(jù)到其它專有的數(shù)據(jù)集(例如,你可以從Factual或者社會網(wǎng)絡(luò)中購買企業(yè)名單)或公關(guān)數(shù)據(jù)集(如氣象數(shù)據(jù)或美國人口普查數(shù)據(jù))。
注意事項和陷阱
建立一個龐大的數(shù)據(jù)集可以是偉大的,但有些事情是會減少你的數(shù)據(jù)價值。這里有一些問題要問自己:
收益遞減規(guī)律對數(shù)據(jù)集來說非常嚴(yán)重。對于一些數(shù)據(jù)集,如汽車價格,10倍的數(shù)據(jù)點(diǎn)可能是比3倍或4倍更有價值。每輛車有許多可能的配置,數(shù)據(jù)點(diǎn)越多越準(zhǔn)確,你就可以更準(zhǔn)確的為一個特定的配置預(yù)測一個公平的價格。其他數(shù)據(jù)集,如汽車燃油效率,十幾倍的數(shù)據(jù)可能只有1.01倍的價值。100數(shù)據(jù)點(diǎn)會讓你估計普銳斯的MPG非常準(zhǔn)確,當(dāng)增加到1000或10000數(shù)據(jù)點(diǎn)時幫助也只有一點(diǎn)點(diǎn)。最有價值的數(shù)據(jù)集將不遭受迅速邊際收益遞減因素
還有沒有其他的更簡單的方式來積累數(shù)據(jù)?如果你是一個信用卡公司,你可能會認(rèn)為有在線交易數(shù)據(jù),很多消費(fèi)者是有價值的。但你不必非得成為一個信用卡公司去得到這些數(shù)據(jù)。你可以是一個會計工具如Mint,或優(yōu)惠券工具如Honey,或電子郵件分析器像Unroll.me。復(fù)制的數(shù)據(jù)集越大,這將更有價值。
如何確保你的數(shù)據(jù)是準(zhǔn)確的?有時一個數(shù)據(jù)集的實(shí)用性是有混亂的限制。例如,書的價格列表是巨大的,如果每個價格對應(yīng)一個ISBN號,但不太有用,如果每個價格對應(yīng)于一本書的標(biāo)題。(如果你看到兩個不同的價格,是不是因為一個價格是針對精裝書,一個是一本平裝書?還是因為有兩本書同名?)
如何確保你的數(shù)據(jù)是新鮮的?如果你的數(shù)據(jù)說,谷歌的股票價格創(chuàng)下400美元高價,就像天文學(xué)家發(fā)現(xiàn)了兩個新的衛(wèi)星圍繞冥王星,如果是2005年時那么這是有用的。不幸的是,谷歌現(xiàn)在是1100美元和冥王星不再被認(rèn)為是行星。作為數(shù)據(jù)變得不那么新鮮,那就變得不那么有用。
結(jié)論
到目前為止,我已經(jīng)介紹積累有價值的數(shù)據(jù)方式,以及如何使用這些數(shù)據(jù)作為一個競爭優(yōu)勢。在下面文章中,我將討論特定業(yè)務(wù)模型和他們的核心數(shù)據(jù)。