在2000年初,做為Oracle 8i的OCP有一個福利就是能定期收到Oracle的Tech Magazine和ProfitMagazine。在Yahoo統(tǒng)治下的以EditorContent為主的Internet時代,這是一個不錯的了解灣區(qū)工業(yè)界技術趨勢和產(chǎn)品的渠道。當然也是能和ACM期刊一起Zhuangbility的工具。記得Profit某期討論的一個話題,讓我這個初出茅廬的工程師,對Data有了不一樣的理解(Everything in tech stack changes time from time, exceptdata).其實這也包括Oracle自己。
做為一個有想法的碼農(nóng),當然不會把自己的職業(yè)生涯和某一個產(chǎn)品或者語言綁定起來,同時也希望有幾個清晰的領域可以持續(xù)研究和學習。而這個討論,讓我意識到在數(shù)據(jù)存儲、處理、高性能獲取之外,更應該考慮數(shù)據(jù)背后所存在的實體的實際意義,以及數(shù)據(jù)整合后的實用價值。伴隨著最近這幾年BigData, AI, Machine Learning概念的火爆,數(shù)據(jù)驅(qū)動(Data Driven)做為一個策略被IT界滄海拾珠 , 重新翻炒。
在這個大趨勢下,如何做到數(shù)據(jù)驅(qū)動?如何發(fā)揮了投資無數(shù)的DT(Data Technology的收益,而不只是一堆高性能高并發(fā)的一零一零?如何在回答圖靈問題之外,有效的部署機器算法去解決真實的問題?“風物長宜放眼量”,回到經(jīng)典的哲學思維,數(shù)據(jù)從哪里來(從哪里來)?數(shù)據(jù)是什么(是什么)?我們哪里能用數(shù)據(jù)(到那里去)?
利用定量數(shù)據(jù)來透明描述問題
在今天的互聯(lián)網(wǎng)時代,提到用戶,大家張口就來的一個詞應該就是用戶畫像(User Persona),之前說的是用戶群分(User Segmentation),都是一個意思,即利用數(shù)據(jù)來定量的描述一個用戶,無非緯度更多,劃分更細。而在這個之前,而我們在談到一個公司、一個部門、一個產(chǎn)品、一個feature的時候,也需要有量化的數(shù)據(jù)指標來清晰的定量描述運營的健康狀況, 應該把這個定義為公司畫像(Company Profile)。
傳統(tǒng)的BI技術,致力于打造基于業(yè)務交易數(shù)據(jù)(Transaction Data的數(shù)據(jù)倉庫(Data Warehouse)。在非常長的一段時間里,我們采集的數(shù)據(jù)來源自交易系統(tǒng)背后的RDBMS。而主要工作是通過對這些交易數(shù)據(jù)的可視化,業(yè)務方可以相對清晰的了解目前企業(yè)的生產(chǎn)、庫存、周轉(zhuǎn),現(xiàn)有效率和財務現(xiàn)狀。在WebAnalyzing 2.0的平臺和方法出現(xiàn)之前,基于交易的數(shù)據(jù)產(chǎn)品其實沒有辦法回答用戶是誰,用戶在那里和用戶需要什么。
換句話說,我們只擁有整個Datalife cycle里一小段數(shù)據(jù)。當時通過調(diào)研,市場雙盲測試的方法,企業(yè)可以獲取一小部分的數(shù)據(jù)來支持這個閉環(huán),但是時效性,覆蓋面,反饋度都不夠高。這就給了Yahoo,eBay,初期Amazon這樣的第一代Internet公司的機會。通過提供內(nèi)容和商品平臺來收集用戶的數(shù)據(jù),在提供One stop的體驗之外,通過采集用戶訪問過程中的數(shù)據(jù),理解和分析用戶的意圖,刻畫用戶在不同階段的屬性,完成完整的數(shù)據(jù)閉環(huán)。
現(xiàn)有的BI工具提供了大量炫酷的可視化工具,基于完整的數(shù)據(jù)采集和運算平臺,提供對從效率指標到KPI體系的支持。讓從管理層到一線同事能夠清晰的了解他所負責的產(chǎn)品和業(yè)務目前運營狀況:增長,趨于平穩(wěn)或者萎縮,盈利或者虧損(blooding), 健康或者冒煙,這是數(shù)據(jù)驅(qū)動要解決的第一個問題。只有了如指掌,才能運籌帷幄。工作中遇到的 CEO們都會說,“數(shù)據(jù)對我們很重要 ”,大多指的就是數(shù)據(jù)透明化后,他們可以做更好的策略判斷。
定性的分析問題
當有了準確、可靠的基本數(shù)據(jù)后,自然而然會想做些更有趣和不同的東西。對于有想法的數(shù)據(jù)從業(yè)者來說,有趣之處在于能夠應用到實際場景上,看到問題的解決。從定量的數(shù)據(jù)解讀,到定性的分析,再到以分析結果驅(qū)動相應的實施行為,最后采集這些Action 的效果并持續(xù)迭代改進。
從實際解決視角的的角度來看,數(shù)據(jù)沒有大小之分,數(shù)據(jù)只有是否被商業(yè)認知之分。數(shù)據(jù)驅(qū)動是一種信仰,只有讓數(shù)據(jù)產(chǎn)生商業(yè)價值,數(shù)據(jù)才能在實踐中反復迭代變大,從而產(chǎn)生力量驅(qū)動改變。
常見的幾類定性分析的應用如下。同時也分享了我們想去解決的問題:
從互聯(lián)網(wǎng)站點誕生以來“流量為王”就是第一公理,無數(shù)初創(chuàng)企業(yè)的估值都來源于DAU/PV。基于現(xiàn)有的流量數(shù)據(jù)以及流量成份的組合,利用7天數(shù)據(jù)對未來15到30天可以做出一個可靠的預測。
Case: 基于定向流量和意圖的相關性,意圖和購買的相關性,Google利用了多種不同類型的搜索和廣告點擊量,成功預測了計劃上映電影的票房情況。
Case: 在眾多電商的Ranking Algo里,對商品本身的售賣預期是一個關鍵因素。商品的歷史展示,點擊和購買情況會做為歷史數(shù)據(jù)的堆積?;谶@個歷史數(shù)據(jù),綜合競爭商品,替代商品,搭售商品的堆積,可以對某一商品未來的售賣做出一個相對可靠的趨勢預測。
Problem: 點融做為一個互聯(lián)網(wǎng)金融公司,我們發(fā)現(xiàn)我們的流量和我們的投資有很強的相關性。如何有效的對于未來流量的做出預估?基于未來流量對后續(xù)的投資做一個可靠的預估是我們有興趣解決的問題。
[page]成份分析/ Decomposition
“天下熙熙皆為利來,天下攘攘皆為利往”,在經(jīng)典的商業(yè)問題里,我們都希望搞清楚購買你的產(chǎn)品和服務的用戶是誰?他們各自喜歡你產(chǎn)品的那些部分?他們會有多忠誠? 他們的各自的滿意度是多少?通過產(chǎn)品特征和用戶特征的關聯(lián),通過對流量成份的分析和監(jiān)控,提高收益。
Case: 航空公司作為資源固定的業(yè)態(tài)(PerishableCapacity)是最早采用收益管理/動態(tài)定價(Yield Management/Variable Pricing)的行業(yè)。通過對需求的售賣周期(Fluctuating Demand),計劃性(Sold in Advance),成本(Class),變化性(Refund/Return)等因素的分析,制定了一系列定價上的策略,從而實現(xiàn)收益的最大化和可管理性。
Case:為了解決配送效率的問題,Amazon提出過把熱門貨物預先分配到指定地點的策略。國內(nèi)的某電商同樣基于效率考慮,按照電腦的金額和送貨地址的匹配,以及庫存周期的預估,完成了筆記本的配送優(yōu)化。
Problem:在目前互聯(lián)網(wǎng)金融行業(yè)普遍貨客成本高居不下的情況下,如何定性不同的渠道從而在合理預算的前提下提升推廣和活動的效率?如何按照用戶的忠誠度和需求劃分,組合不同的金融產(chǎn)品從而提升體驗?
Problem:在Risk領域,如果有效評估現(xiàn)有規(guī)則的效用和效率(Attribution)?如何確定經(jīng)驗規(guī)則的使用范圍和周期? 如何在借貸的整個周期里Cut over現(xiàn)有規(guī)則的效力?
AB Testing的方法
線上的大規(guī)模的流量,在有效的Managing Orthogonal分流后,比較傳統(tǒng)的線下分組測試,可以同時進行更大規(guī)模的測試。ABT可以回答很多針對目前客流人群習慣和喜好的問題。通常這類問題相對感性,ABT的方法可以替代簡單Survey和主觀的判斷。
Problem: 點融計劃設計和部署一個同時支持Online和Mobile,同時支持前臺和后端的實驗平臺。通過一個輕量的EP平臺,以支持業(yè)務的發(fā)展。
自動化干預
數(shù)據(jù)驅(qū)動的終極目標是希望利用數(shù)據(jù)能夠直接在生產(chǎn)環(huán)境帶來改變,提供價值。在厘清了數(shù)據(jù)管理,完成了離線的事后分析后,我們可以利用這樣的數(shù)據(jù)基礎在特定領域完成基于算法的自動調(diào)整。
算法的線上部署除了對平臺和算法本身的支持之外,還需要考慮一下幾點:
·風險約束Constraints– 不同于離線系統(tǒng)的決策和執(zhí)行周期,線上系統(tǒng)需要確定一系列的邊界,例如收益管理的利潤率目標、系統(tǒng)單位時間最大損失和單品的單位時間最大損失;推薦系統(tǒng)的CTR的下線;Score Card的TypeII 的Error rate。在類似Quants的極端高頻交易情況下,系統(tǒng)本身的防線風險完全依賴超過幾個Unit頭寸的自動止損規(guī)則。
·數(shù)據(jù)的及時性–實時數(shù)據(jù)和歷史數(shù)據(jù)的組合,如何Decay歷史特征;如何在特定周期下替換歷史數(shù)據(jù);
·異常數(shù)據(jù)的容忍– 線上Algo的輸入無法做到離線的清洗水平,為了防止做出愚昧的判斷,我們需要更健壯的數(shù)據(jù)預處理模塊。
·Algo的迭代– 需要可靠的離線迭代平臺來糾正線上Algo運行過程中的誤差和偏離。采集線上的數(shù)據(jù)到離線平臺,通過離線平臺調(diào)整參數(shù)和適應性。支持從離線平臺推送新的algo。
構建數(shù)據(jù)平臺
作為一個創(chuàng)業(yè)公司,我們目前考慮升級我們的數(shù)據(jù)平臺:
·系統(tǒng)構成簡潔– 我們擁抱現(xiàn)有的業(yè)內(nèi)數(shù)據(jù)處理技術,同時希望標準化技術選型,降低復雜度。
·自助服務–提供數(shù)據(jù)獲取的自動化能力,讓Data Engineering不只是為業(yè)務的資源。
·數(shù)據(jù)產(chǎn)品– 整合我們的內(nèi)部數(shù)據(jù)和第三方數(shù)據(jù),提供目前具體問題的加工后的數(shù)據(jù)產(chǎn)品。
我們的目標不是構建海量數(shù)據(jù)的聚合平臺。而是構建更清晰靈活的支持小數(shù)據(jù)(Micro Data)計算處理平臺,完成對商業(yè)有價值的數(shù)據(jù)應用。