DT時代變革的反思:為何這么突然?

責任編輯:editor006

作者:blogchong

2015-05-26 20:33:10

摘自:虎嗅網(wǎng)

他們意圖將數(shù)據(jù)進行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數(shù)據(jù)收集、數(shù)據(jù)清晰以及數(shù)據(jù)大規(guī)模落地的人才。在DT時代即將來臨的今天,不止是數(shù)據(jù)處理以及數(shù)據(jù)獲取這兩個方面值得我們反思,還有其他的方方面面需要我們?nèi)ニ伎肌?/p>

DT(Digital Technology)一詞,翻譯過來即數(shù)據(jù)科技,可以說,這并不是一個新詞,但它真正引起我注意的是阿里研究院最近寫的一本書《互聯(lián)網(wǎng)+:從IT到DT》,阿里作為國內(nèi)IT技術的引領者,其技術定論不可輕視。

我們先撇開DT不說,我們先來看一看IT。

從1936年圖靈機的發(fā)明,到1945年馮.諾依曼機的出現(xiàn),這些都是計算機發(fā)展的基石,甚至于往后各種大型、小型計算機的誕生,嚴格意義上來說,這都不是IT。真正IT技術的開始應該是萬維網(wǎng)的發(fā)明,這標志著信息進入了互聯(lián)的時代。

國內(nèi)互聯(lián)網(wǎng)技術的發(fā)展比國外稍微的晚了那么幾年,但其發(fā)展勢頭遠非其他國家能比。1997年,中國只有60萬網(wǎng)民,而現(xiàn)在已經(jīng)超過了6億,其增長速度可見一斑??梢哉f,如今互聯(lián)網(wǎng)已經(jīng)影響到了人們衣食住行的方方面面。

這是一個IT時代,對于這個定論,或許大部分人都不會反對。但是有一天,有人突然對你說:人類正在從IT時代步入到DT時代(數(shù)據(jù)科技時代),我們一只腳已經(jīng)踏入了數(shù)據(jù)科技時代?

為何這么突然?

這并不突然,這一切的一切都是那么有預見性!

DT時代來臨:變革在悄然發(fā)生

數(shù)據(jù)科學家一詞,最早是在2009年被提出來的。當然,它的提出并不是一個轟動性的事件,甚至還有很多人并不贊成突然出現(xiàn)這一科學分支。

然而就在幾個月前,有人在騰訊科技上發(fā)表了一篇文章《數(shù)據(jù)科學家可能成為2015年最熱門職業(yè)》,我們暫且不去評論這篇文章的觀點是否正確,但是它已經(jīng)給出了一個信息:數(shù)據(jù),已經(jīng)引起了人們的“警惕”。

如今,在各大招聘網(wǎng)站,我們可以隨意搜索一下“數(shù)據(jù)挖掘”,各大公司針對于這個崗位的需求如同雨后春筍般的出現(xiàn)。同樣,通過各個招聘網(wǎng)站平臺等,我們可以發(fā)現(xiàn)不斷有新的職位名稱被創(chuàng)新出來,如數(shù)據(jù)工程師、數(shù)據(jù)分析工程師、Hadoop工程師等等。

數(shù)據(jù)挖掘工程師這個崗位或許早就有了,那么大數(shù)據(jù)挖掘工程師呢?一字之差,蘊含的意義卻相隔千里?;蛟S有人會說,這些都是從程序猿、攻城獅的角度看到的,這并不能代表宇宙大眾的意思。好吧,我們換個思路來思考這個問題。不過咱還是接著說招聘,我曾寫過一篇關于大數(shù)據(jù)時代招聘模式的文章,分析了一下招聘網(wǎng)站到底“懂不懂”我們(求職者)需要什么。

其實答案是顯而易見的,我們打開了一個招聘網(wǎng)站,呈現(xiàn)在我們面前的是一個個我們想要投遞的職位;我們打開一個電影,側(cè)欄顯示的是一個個相關的電影,要么恰巧是同類型的,要么恰巧是同一個演員的電影;我們在網(wǎng)上購物,底欄顯示的恰巧是你需要的東西。好吧,不止如此,我們看文章、搜索問題、網(wǎng)上預約旅行甚至是看新聞,總是會在一些不經(jīng)意的角落里發(fā)現(xiàn)我們剛好需要的信息。好巧。

這并不是巧合,個性化定制已經(jīng)體現(xiàn)在我們生活中的方方面面。我們暫且不去考慮這個個性到底有多個性,不可否認的是,與傳統(tǒng)的信息展現(xiàn)來對比,它的確是起作用了。

是的,我們猛然發(fā)現(xiàn):人,作為一個在互聯(lián)網(wǎng)上主動尋求信息的主體,已經(jīng)開始變得“被動”起來了。曾幾何時,信息已經(jīng)開始變得如此“主動”,但是,這一切讓我們感到又是那么自然。究其所因,其背后的數(shù)據(jù)是“罪魁禍首”。是的,數(shù)據(jù)把我們“出賣”了。

我突然想到了前一段時間發(fā)生的一個事,出于某種原因,我需要一批小企業(yè)、小公司的聯(lián)系方式。按照我們傳統(tǒng)的做法,肯定是找相關領域的人,依賴其關系脈絡,拿到這一批聯(lián)系方式。但是我突然發(fā)現(xiàn),我們在相關領域并沒有熟識的朋友,或者說即使有,也不可能拿到足夠的聯(lián)系信息。

我以智聯(lián)招聘為源頭,使用爬蟲、網(wǎng)頁信息提取、數(shù)據(jù)分析挖掘等相關技術拿到了一批數(shù)據(jù)——近3000多個企業(yè)郵箱。風過留痕,雁過留聲,如今是一個互聯(lián)網(wǎng)“橫行”的時代,只要是個行為實體,總是會在互聯(lián)網(wǎng)上留下足跡的。

這次的事讓我再一次感嘆互聯(lián)網(wǎng)信息量的浩瀚、偉大。信息技術“滄海桑田”般的快速變遷,十幾年積累的底蘊,互聯(lián)網(wǎng)上蘊含信息就如同一座巨大的金山。“卑微”如斯的人都能從中“竊取”一份小小的財富,那么浩瀚地球中的其他萬千大眾呢?數(shù)據(jù)竟然已經(jīng)變得如此有用,數(shù)據(jù)的影響力竟然強大如斯!這一切的變化是那么的順其自然,是那么的悄無聲息。

或許,真如馬云所言:人類正從IT時代走向DT時代!

DT時代的骨骼:大數(shù)據(jù)處理平臺的衍變

在數(shù)據(jù)處理需求急劇上升的今天,是什么在支撐著數(shù)據(jù)的變現(xiàn)?是的,正是數(shù)據(jù)處理平臺,或者換種說法:一套完整的數(shù)據(jù)處理流程。

從數(shù)據(jù)的采集、清洗、流式實時計算、數(shù)據(jù)落地。在大多數(shù)時候,這一套完整的流程過后(或許會沒有流式實時計算),這才真正進入數(shù)據(jù)的價值挖掘階段,包括了數(shù)據(jù)的離線計算,通過一系列的建模挖掘其隱含的商業(yè)價值。

當然,在大數(shù)據(jù)遍地的今天,數(shù)據(jù)的收集也好、處理也好、挖掘也好,我們想必也要加一個“大”字了。那么,在DT時代來臨的今天,能夠支撐這一流程得以流通的正是數(shù)據(jù)平臺,或者說是大數(shù)據(jù)處理平臺,它將是支撐DT時代來臨的骨骼!

當然,大數(shù)據(jù)處理平臺也不是一開始存在的,它是在經(jīng)歷過一系列的衍變之后,才形成今天我們看到的,或這或那的數(shù)據(jù)平臺形式。

就在不久前,我曾在storm-分布式-IT技術群中發(fā)起了一次近千人的話題討論(當然,實際參與討論的人遠沒有這么多,很大一部分人還是喜歡靜靜的圍觀的),其核心就是當前互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺發(fā)展的現(xiàn)狀。

當時的討論過程很劇烈,匯聚了各個企業(yè)公司的大牛小牛、程序猿、設計獅、產(chǎn)品狗,總之各種“動物”都有,眾說紛紜,各有各的觀點看法,但總體來說就目前幾種大數(shù)據(jù)平臺的形態(tài),大家還是有比較一致的看法的。

1、大數(shù)據(jù)處理平臺的終極形態(tài):深度挖掘

數(shù)據(jù)已經(jīng)完美流通,包括了完整的大規(guī)模數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)預處理清洗系統(tǒng)、數(shù)據(jù)流式實時計算系統(tǒng)、大規(guī)模數(shù)據(jù)存儲系統(tǒng)、大規(guī)模離線計算系統(tǒng);擁有全面的數(shù)據(jù)監(jiān)控調(diào)度系統(tǒng),能夠方便地低成本地進行數(shù)據(jù)流程監(jiān)控、調(diào)度,實時掌握數(shù)據(jù)的動態(tài)變化;擁有完善符合自身業(yè)務需求的機器學習算法庫,數(shù)據(jù)挖掘?qū)用?,已?jīng)進入了數(shù)據(jù)深層挖掘階段。

其中以BAT為代表。在國內(nèi),BAT一向是技術的引領者,因此他們在數(shù)據(jù)價值挖掘這一方面,也確實做到了領先地步。

2、其次是大數(shù)據(jù)平臺完善,處于數(shù)據(jù)淺層挖掘狀態(tài)

同樣,這種形態(tài)的企業(yè)公司,數(shù)據(jù)平臺的數(shù)據(jù)已經(jīng)完全打通,他們已經(jīng)在開始嘗試挖掘數(shù)據(jù)的潛在價值,意圖達成數(shù)據(jù)的變現(xiàn)。

當然,或許是由于技術積累的問題,或許是人力物力的原因,他們并沒有能力做深一層的探索、挖掘,但是他們卻一直在努力。他們?nèi)鄙偈且惶淄晟频?,適合自己的,又能夠方便使用的數(shù)據(jù)挖掘庫。

處于這種形態(tài)的公司也不少,諸如CSDN、去哪兒、藝龍等等,他們在個性化的道路上孜孜不倦地探索著。

3、數(shù)據(jù)流通,處于數(shù)據(jù)統(tǒng)計分析階段

這種形態(tài)的數(shù)據(jù)中心,大規(guī)模數(shù)據(jù)處理平臺已經(jīng)基本搭建,數(shù)據(jù)已經(jīng)能夠流通,處于大規(guī)模數(shù)據(jù)的統(tǒng)計分析階段。

這種類型的公司,他們更多傾向于對數(shù)據(jù)倉庫的建立,對大批量數(shù)據(jù)進行存儲、統(tǒng)計并且分析數(shù)據(jù)的走勢以及變化。所以,就Hadoop生態(tài)來說,他們可能更傾向于使用Hive之類的技術或者工具。

處于這種形態(tài)的公司是占大多數(shù)的,典型如剛組建大數(shù)據(jù)部門的短短一年時間的360,當然還有很多很多類似的公司,數(shù)不勝數(shù)。他們希望摸清楚自己到底掌握了什么樣的數(shù)據(jù),這些數(shù)據(jù)到底是怎么變化的,通過對這些數(shù)據(jù)的了解以及掌控,他們才能更好做出更合理的商業(yè)決策。

在不久的將來,在他們已經(jīng)充分掌握了數(shù)據(jù)的規(guī)律,他們也必然會向數(shù)據(jù)潛在價值挖掘方向努力。

4、數(shù)據(jù)整合,平臺搭建階段

這種形態(tài)下,數(shù)據(jù)尚未流通,整個體系尚未搭建起來。

或者說,很多企業(yè)公司,在以往的情況下,各個部門產(chǎn)品,其數(shù)據(jù)都是分開維護的。需要維護多份數(shù)據(jù),成本高;數(shù)據(jù)的利用率低,數(shù)據(jù)不連通。

他們意圖將數(shù)據(jù)進行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數(shù)據(jù)收集、數(shù)據(jù)清晰以及數(shù)據(jù)大規(guī)模落地的人才?;蛘撸瑩Q個更通俗的說法,他們?nèi)鄙俣肏adoop生態(tài)平臺的人。

這種公司也不少,諸如金山的西山居,智能手機界的黑馬小米等。

5、數(shù)據(jù)量不夠,但然仍意圖搭建一個大數(shù)據(jù)處理平臺

這一部分公司大部分都是小公司,在數(shù)據(jù)量層面上,他們并沒有很急切的需求,去搭建起一套完善的數(shù)據(jù)處理平臺。

或許是受大數(shù)據(jù)潮流影響,但是,從長遠的角度來看,隨著數(shù)據(jù)量的增長,這也必然是一個趨勢。所以,他們往往也會花費少量的人力物力,在這一方面上進行技術預研,或者搭建起一個簡單的小規(guī)模數(shù)據(jù)處理平臺。

其實,簡單來看,這是大數(shù)據(jù)處理平臺的五種不同形態(tài),但這又何嘗不是大數(shù)據(jù)處理平臺的一個衍變過程呢?!在DT時代來臨的今天,你是否清楚自己處于一個什么的位置,將來又會向何處發(fā)展變遷?

只有將骨骼搭建起來了,我們才能、才有資格去談論如何挖掘數(shù)據(jù)的潛在價值。我們不止需要骨骼來支撐DT這一體系,更需要源源不斷的血液來激發(fā)它的活力。

DT時代的血液:數(shù)據(jù)從何而來

如果說大數(shù)據(jù)處理平臺是支撐DT的骨骼,那么數(shù)據(jù)就是DT的血液,如何造血就是大家需要關注的問題了。

1、企業(yè)的業(yè)務數(shù)據(jù)

數(shù)據(jù)最直接來源就是各個企業(yè)公司自己產(chǎn)生的業(yè)務數(shù)據(jù),或許是某些公司擁有很強的預見性,多年前就已經(jīng)開始收集自己的數(shù)據(jù),也或許是他的無意之舉,但不管怎么樣,他把自己的歷史數(shù)據(jù)給保留了下來。當然,有部分公司,本身產(chǎn)生數(shù)據(jù)的速度就足夠快,數(shù)據(jù)量也足夠多,他們就不必擔心這個問題了。

2、互聯(lián)網(wǎng)的隱藏數(shù)據(jù)

前不久,有一個朋友在群里問了一個比較復雜問題,是關于數(shù)據(jù)抓取解析方面的??赡苁撬麊柕膯栴}太深奧,也可能是恰巧群里大牛都不在,總之就是沒有人解決。

有人就問了:

哥們,你研究這個這么深干嘛?

他回答了一句:

抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?

這句話讓我猛然驚醒:有人已經(jīng)開始向互聯(lián)網(wǎng)這座公共金山動手了。十幾年的底蘊,隱藏了多少數(shù)據(jù)財富?在DT時代來臨的今天,必定會越來越多的人去挖掘它的價值,只不過這需要一定的技術、一定手段而已。

3、移動互聯(lián)網(wǎng)數(shù)據(jù)的暴漲

相對于互聯(lián)網(wǎng),移動互聯(lián)網(wǎng)的發(fā)展歷史并不長,但他的發(fā)展可謂是日新月異。如今,隨著智能手機的普及,3G、4G網(wǎng)絡的推廣,移動互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)正在處于爆炸似得增長,這是一座新的數(shù)據(jù)金山,需要我們?nèi)ラ_采它。

4、傳統(tǒng)以及線下數(shù)據(jù)的接入整合

隨著總理的一句“互聯(lián)網(wǎng)+”,傳統(tǒng)行業(yè)開始紛紛與互聯(lián)網(wǎng)結(jié)合,這帶來的最直接影響是:線下數(shù)據(jù)的接入與整合。

或許有人會說:傳統(tǒng)行業(yè)能有多少數(shù)據(jù)??汕f不能小看傳統(tǒng)行業(yè)的數(shù)據(jù),畢竟他們有著近乎數(shù)十年,遠超于互聯(lián)網(wǎng)的歷史,其累計的數(shù)據(jù)量亦不可小看。

隨著“互聯(lián)網(wǎng)+”的進一步發(fā)展,線下接入的數(shù)據(jù)也將是DT時代的血液之一。

5、網(wǎng)連萬物:萬物都可以產(chǎn)生數(shù)據(jù)

說到物聯(lián)網(wǎng),其實很多年前就有人說它一定會火起來,但是之前卻一直沒有火起來。究其因,不在乎兩個:一是移動網(wǎng)絡成本過高;二是終端感應技術尚未發(fā)展到這個階段。

但如今不一樣了,隨著3G、4G網(wǎng)絡的普及,移動網(wǎng)絡成本大幅度下降;智能終端感應技術的快速發(fā)展也讓物聯(lián)網(wǎng)這一技術方向不再是概念。我們可以看到,眾多互聯(lián)網(wǎng)公司已經(jīng)開始紛紛布局智能領域了,包括智能家居、智能交通、智慧城市、智能辦公等等。

在DT時代,感應終端也將是一個巨大的數(shù)據(jù)產(chǎn)生源,一個DT時代造血的源頭。

在DT時代即將來臨的今天,不止是數(shù)據(jù)處理以及數(shù)據(jù)獲取這兩個方面值得我們反思,還有其他的方方面面需要我們?nèi)ニ伎?。通過不斷的反思,不斷的改進,我們做好最充分的準備,迎接DT時代的到來!

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號