1,大數(shù)據(jù)的運用-案例
CieloMar:CaRRot能不能例舉一個你們公司里大數(shù)據(jù)分析的例子,以及如何定價?
CaRRot:數(shù)據(jù)公司的實用案例: 我就說我最近做的這個吧,某個服裝快消品牌想了解中國的洗衣習慣,比如什么樣的面料會機洗,什么會手洗,什么要干洗。第一步就是采集信息,從新浪微博上采集近3年相關的微博(按相關關鍵字),第二步清洗數(shù)據(jù)與存儲,把沒用的信息顧慮掉,有用的進行分類存儲。第三步就是數(shù)據(jù)挖掘,按照數(shù)據(jù)挖掘的算法進行一些運算(比如這個場景比較適合關聯(lián)規(guī)則)來得出結果,至于這個結果是什么樣的,這個就要看你建立的模型的輸出了。最后一步是數(shù)據(jù)驗證了,就是驗證你模型的選的合不合適,模型里面的參數(shù)是否需要變化。但是目前我做的這個沒有合適的結果集來做驗證,所以我就略去了。。。 總結一下大致的步驟就是數(shù)據(jù)采集(data crawling)-》數(shù)據(jù)分類和存儲(data housing)-》數(shù)據(jù)挖掘(data mining)-》數(shù)據(jù)驗證(data verification)。關于定價問題,其實我感覺這個彈性很大,這個要看客戶了,如果是大客戶的話,肯定會要得多一些。
CieloMar:數(shù)據(jù)采集就是用微博關鍵詞?比如說這個案例里你們輸入的關鍵詞是什么?然后你們使用微博的數(shù)據(jù),是公共資源還是跟微博買的數(shù)據(jù)?
CaRRot:數(shù)據(jù)采集就是用微博的關鍵詞,但是我們會用 nlp(自然語言處理)來做一些聯(lián)想,近義詞聯(lián)想.數(shù)據(jù)是新浪公共資源,和新浪做partner成本太高了。
CieloMar:比如說這個案例里,你們數(shù)據(jù)來源僅僅是微博嗎?
CaRRot:其實做多個數(shù)據(jù)源的不大好做,因為各個數(shù)據(jù)源之間的權重不太好把握,比如來自新浪和微信的消息哪個更重要一些?主要看客戶要求,客戶目前只要做微博的就做微博的。
CieloMar:多個數(shù)據(jù)源結果不一樣,是不是就意味著單一數(shù)據(jù)源結果不太準,也就導致大數(shù)據(jù)分析后的結果不準確?
CaRRot:這個不一定,這個要看你研究面向的群體了,比如想研究中國20-40這個年齡段的人,微博應該是最好的選擇。
2,大數(shù)據(jù)模型
Reinaldo :大數(shù)據(jù)的模型到底是個什么感覺啊?不太能想像。
CaRRot:大數(shù)據(jù)類型的線性是怎么樣的?正相關還是分散隨機的。最簡單的一個例子,比如預測用戶購買行為,用戶對此產品的互動率x(點擊,收藏,加入購物車),我們需要求出用戶購買該產品的概率y,那么我們可以定義y=ax,這個公式就是最簡單的模型,當然,這個模型不一定適用于這個場景,在具體場景中系數(shù)肯定不止a一個。
Reinaldo:所以說針對不同情況都有各自的一個模型是吧?其實就像一個數(shù)據(jù)的分析方法?
CaRRot:針對不同場景是會建立一個合適與該場景的模型,因地制宜。建模整個過程涵蓋了數(shù)據(jù)分析。從一開始的模型預測,到最后的結果驗證都需要。
3,大數(shù)據(jù)與金融
Wendy:本書最開我眼界的地方,有三個。一個是樣本=總體。經濟學專業(yè)在做研究時,都是以一部分數(shù)據(jù)為樣本來做的。隨著it 技術的發(fā)展,和數(shù)據(jù)采集方法的改善。樣本=總體應該能得到實現(xiàn),現(xiàn)階段經濟計量研究方法也會受到沖擊。第二是只關注相關關系,而忽略因果。和Reinaldo的感受一樣,這個觀點很具有沖擊性。然而經濟學研究中,其實也是相關重要于因果的。經濟學研究很多是基于最小二乘法研究內生變量怎么隨外生變量變化,例如Y=aw+bz+ck,研究的是每單位w,z,k的變化怎樣引起y的變化。而只有一部分研究,研究的是因果關系,這時我們會引入格蘭杰因果模型進行研究,但這樣的研究是少數(shù)。第三,大數(shù)據(jù)對金融行業(yè)的沖擊。大數(shù)據(jù)是否能代替掉行業(yè)專家?在金融行業(yè)里就是行研員和基金經理。在整個金融行業(yè),量化金融—利用金融模型選股,構建投資組合,防范風險是必然的趨勢。但是可以說沒有一家金融機構敢完全依賴量化這條路。美國股市的黑色星期五,就是過渡依賴量化工具產生的。量化vs行研。索羅斯vs巴菲特,基金經理是否能創(chuàng)造價值,現(xiàn)在依然是金融界的一個hot topic。
CieloMar:從經濟學角度闡述真好!不過最后兩句話幾個專業(yè)術語不太懂,格蘭杰因果模型?書中提過嗎?請解釋一下。
Wendy:格蘭杰因果模型,書中沒有,用以分析兩相關序列之間,是否因果,誰因誰果,或互為因果。
4,負面影響以及存在問題
CieloMar: Reinaldo,關于你寫的文章我有幾個問題:1,我認為大數(shù)據(jù)不會完全顛覆某個行業(yè),新聞還是新聞,本質是不變的,只是行事方式變了。 2,我有個疑惑,過分依賴于數(shù)據(jù),忽略思考因果關系,這是否會削弱我們的思考判斷能力,比如我們就直接看去哪兒網(wǎng)的價格曲線買便宜機票,不需要去思考為什么機票會便宜,比如動車的修建降低了票價等,慢慢地我們會過分依賴數(shù)據(jù)而不是思辨能力。再比如你提到的新聞行業(yè),我們總是通過數(shù)據(jù)來拍版,挑選新聞,這樣新聞的質量慢慢降低,畢竟大部分人是“烏合之眾”,而這種降低已經在發(fā)生。
Reinaldo:我基本認同烏合之眾的說法,門戶網(wǎng)站的新聞排名已經反應出來:標題黨新聞最受寵、最吃香,這大概和人的天性有關,但并不意味著會讓嚴肅的報道消失。我說的顛覆行業(yè),更多指傳統(tǒng)生產方式已經被改寫了,無力回天,但包括報紙在內的傳統(tǒng)媒體肯定會存在,類似廣播仍存在一樣,但不會占主流。而且,新聞消息的未來肯定不能再延用主編拍板的方式。至于內容低俗與否,我更傾向于用教育來引導認識,新聞媒體可以較少承擔教育的功能。我認同技術改變現(xiàn)有行業(yè)規(guī)則,至于在改變過程中的亂象,我認同楊導的說法,技術進步會把現(xiàn)有的問題逐步解決。
Ada:關于這個問題,推薦大家書籍《烏合之眾》。
Wendy:高科技的負面影響,推薦英劇Black Mirror(《黑鏡》),以及書籍《娛樂至死》。
CieloMar:大數(shù)據(jù)目前面臨的問題還有點補充:1大數(shù)據(jù)乃至說計算機行業(yè)發(fā)展得如此快,如何完善法律也是一個問題。 2網(wǎng)絡安全問題,大家對個人隱私只會越來越重視,如何保護好大家的隱私也是關注焦點。
Reinaldo:這個(網(wǎng)絡安全問題)在技術上,我覺得不難解決,關鍵是配套的法律、制度,其實我也很擔心大數(shù)據(jù)被政府利用變成了《1984》的無處不監(jiān)控。
CieloMar:所以網(wǎng)絡安全也會很有市場,能否叫它大數(shù)據(jù)帶來的“周邊產品”?我覺得這樣的周邊市場還有很多,一旦某樣事物火了,一定會有很多周邊市場出現(xiàn),所以大家忙著大數(shù)據(jù)時候,多關注周邊也是一條思路。
5,值得你思考的問題!
楊導:
1 大數(shù)據(jù)可能會顛覆我們的認識,思考的時候"怎么樣"比"為什么"更重要。
2 通過讀書之后,我覺得怎樣獲取數(shù)據(jù)和利用數(shù)據(jù)很重要,是一個應該注意的方面。
3 其實書里面舉的例子說亞馬遜推薦相關書籍是利用了大數(shù)據(jù),但實際上它只提高了銷量,長期來看用戶的體驗并不好(個人認為,你們覺得呢),所以在利用大數(shù)據(jù)做推薦和營銷的時候,如何提高用戶體驗尤其重要。
4 目前來看,大數(shù)據(jù)更多的是用在商業(yè)領域,后期發(fā)展成熟我覺得它將非??膳?,這是一個隱患。如何防患這種隱患很重要。大家都愿意去做先賺錢的事情,但很少有人愿意做先預警危機的人。
5 還有一個印象深刻的就是"數(shù)據(jù)廢氣",利用大家都不在意的點做些文章。
6 這是我最想強調的一點,就是實踐,不要怕錯,我只想利用簡單的模型去印證我懷疑的東西。還有書中的說法,我希望通過實驗去看一下。有興趣的親們一起嘗試一下啊,然后我們互相交流感受。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13847.html