“數(shù)據(jù)集成”的概念或許可以追述到上世紀90年代。受限于處理器、存儲、帶寬等技術條件限制,在過去很長一段時間里,IBM、Oracle、Informatica等廠商在數(shù)據(jù)集成方面,通常的作法是將大數(shù)據(jù)轉化為“小數(shù)據(jù)”,可以簡單理解為數(shù)據(jù)提煉與管理。這種做法需要專門的團隊開發(fā)和維護數(shù)據(jù)集成平臺,耗時費力,易用性不高。
而如今隨著基礎設施與技術的飛速發(fā)展,大數(shù)據(jù)從概念逐漸落地,企業(yè)也紛紛意識到大數(shù)據(jù)在商業(yè)上的價值,這也使數(shù)據(jù)驅動產(chǎn)品設計,客戶運營和商業(yè)決策變得可能。不過在進行最終的數(shù)據(jù)分析之前,必須先進行數(shù)據(jù)聚合、集成與清洗,而且這往往要占整個數(shù)據(jù)分析流程中80%的工作量。
尷尬的是,很多企業(yè)雖然有數(shù)據(jù)決策的意識,卻沒有能力完成這第一步。因為以往處理分布在各個系統(tǒng)內(nèi)的異構數(shù)據(jù),需要聘用專業(yè)的數(shù)據(jù)工程師通過編寫代碼才能完成;另外若采購廠商的數(shù)據(jù)集成方案,價格高昂不說,在數(shù)據(jù)集成的實時性、可擴展性和處理實時變化數(shù)據(jù)等方面都有一定程度的不足。
為了解決這些問題,陳誠在2016年3月創(chuàng)立Data Pipeline,致力于幫助企業(yè)提供實時自動化的數(shù)據(jù)聚合集成平臺。陳誠向獵云網(wǎng)(微信:ilieyun)獨家透露,Data Pipeline已于2016年6月完成了數(shù)百萬元天使輪融資,投資方為峰瑞資本。
創(chuàng)始人陳誠畢業(yè)于密歇根大學計算機專業(yè),曾是前Yelp的大數(shù)據(jù)工程師。在Yelp期間從零參與設計并實現(xiàn)Yelp新一代實時數(shù)據(jù)平臺;銷售合伙人 毛海英曾在用友任職大客戶總監(jiān),并曾是SAP華中地區(qū)銷售負責人。團隊其他成員多來自于亞馬遜、Yahoo等公司。
據(jù)了解,Data Pipeline是一家一站式企業(yè)實時自動化數(shù)據(jù)聚合的服務提供商,致力于為企業(yè)提供快捷、安全的數(shù)據(jù)資產(chǎn)管理工具、平臺和服務,解放企業(yè)創(chuàng)新力,幫助企業(yè)將資源集中在自身業(yè)務和對業(yè)務的分析上,讓數(shù)據(jù)更好更快的支持企業(yè)戰(zhàn)略決策。
Data Pipeline網(wǎng)站首頁演示的產(chǎn)品架構示意圖
以電商企業(yè)發(fā)展為例:最初該電商只需使用其交易后臺進行數(shù)據(jù)統(tǒng)計。隨著交易量、品類、業(yè)務、收入的逐步增多,開始引入ERP、CRM、財務等等系統(tǒng)。不同系統(tǒng)產(chǎn)生的大量數(shù)據(jù),無法統(tǒng)一進行管理。此時,Data Pipeline的數(shù)據(jù)聚合作用就體現(xiàn)出來了。
“一站式解決企業(yè)數(shù)據(jù)孤島問題,將使數(shù)據(jù)聚合效率提高5倍,整體成本降低90%,正是Data Pipeline的優(yōu)勢。”陳誠說。
據(jù)他介紹,Data Pipeline能夠處理企業(yè)的存量與增量數(shù)據(jù),并采用可視化視圖,操作簡潔。工程師在配置好數(shù)據(jù)源(可連接包括Oracle、MySQL、SQL Server等任意數(shù)據(jù)庫)后,系統(tǒng)即可按照設定的規(guī)則進行數(shù)據(jù)清洗,之后便會自動同步到相應的數(shù)據(jù)目的地(包括Hive、Greenplum、Redshift等數(shù)據(jù)倉庫),并讓使用者實時監(jiān)控數(shù)據(jù)同步情況,實現(xiàn)可視化數(shù)據(jù)管理。
另外,Data Pipeline還提供API與SDK供企業(yè)對接自身業(yè)務系統(tǒng),使生成的數(shù)據(jù)可直接同步到Data Pipeline并完成數(shù)據(jù)整合工作。
值得一提的是,考慮到部分企業(yè)對數(shù)據(jù)安全的需求,除了公有云SaaS版以外,Data Pipeline還提供私有化部署。另外其公有云版支持國內(nèi)主流公有云廠商的部署。
乍一看,該項目與此前獵云網(wǎng)報道的Datablau比較相似,都是進行企業(yè)數(shù)據(jù)處理。不過Data Pipeline更重視數(shù)據(jù)聚合層面。
獵云網(wǎng)了解到,該產(chǎn)品在收費方面與常見的SaaS類項目略有不同,并非按照賬號年限付費,而是按照其占用的服務器進行年費收取。獵云網(wǎng)認為,由于Data Pipeline需要進行大量數(shù)據(jù)處理工作,所以從資源占用上收費無疑要比銷售賬號使用權限更加合理。
Data Pipeline演示后臺截圖
目前該產(chǎn)品尚在內(nèi)測階段,已有多家客戶正在試用,客戶群集中在電商、社交以及線下零售企業(yè)方面,并且已有客戶達成了付費意向。
2017年,陳誠計劃在打磨產(chǎn)品的同時,著重發(fā)力軟件銷售以及市場推廣,打造細分領域標桿案例。
對于該產(chǎn)品,峰瑞資本早期項目負責人朱祎舟表示,數(shù)據(jù)聚合是企業(yè)大數(shù)據(jù)分析的基礎模塊,隨著企業(yè)分析需求的深入,數(shù)據(jù)環(huán)境的復雜,傳統(tǒng)的數(shù)據(jù)集成方案價格高昂,可擴展性和處理實時性差,沒有辦法滿足現(xiàn)代企業(yè)需求。
而Data Pipeline提供的更靈活、更實時的數(shù)據(jù)聚合服務,可以幫企業(yè)數(shù)倍地提高效率、按需付費。峰瑞資本持續(xù)看好數(shù)據(jù)服務領域潛力巨大的市場和機會,也看好Data Pipeline及其團隊能夠為企業(yè)主提供價值對等交換和解決方案。