作為公眾號的開篇之作,自然以“忘掉大數(shù)據(jù)”為題,這既是我的主張也是十年實戰(zhàn)大數(shù)據(jù)的感悟。作為道家行者,凡事喜歡探究本原,試圖務(wù)實一些還原大數(shù)據(jù)的真相。
為什么要忘掉大數(shù)據(jù)?
是不是大數(shù)據(jù)無用?恰恰相反,大數(shù)據(jù)太有用了,大數(shù)據(jù)無處不在,它可以跟所有的應(yīng)用結(jié)合,當然前提是能夠采集到相匹配的數(shù)據(jù),而隨著科技的發(fā)展,采集數(shù)據(jù)的范圍越來越大、存儲技術(shù)越來越先進、計算能力越來越強、算法越來越智能,越來越多的問題能夠用數(shù)據(jù)技術(shù)來解決。那我為什么還是要忘掉它?理由有二:其一,數(shù)據(jù)的關(guān)鍵不在于“數(shù)據(jù)”本身,而是它表征的事實,我們必須回歸到數(shù)據(jù)產(chǎn)生的場景中去理解數(shù)據(jù),也必須從場景出發(fā)去應(yīng)用數(shù)據(jù),單純的大數(shù)據(jù)毫無意義,想成為一個大數(shù)據(jù)專家,得先成為某一個應(yīng)用領(lǐng)域的專家;其二,這是個人對大數(shù)據(jù)發(fā)展的終極夢想,因為數(shù)據(jù),我們的生活更加自然,最終再也覺察不到大數(shù)據(jù)的存在,那才是真正的大數(shù)據(jù)時代!
回想上古時代,人類對這個世界一無所知或者知之甚少,因為無知,也就無爭,所以“老死不相往來”,社會是一種“自然”的穩(wěn)態(tài),后來,部分人掌握了更多的數(shù)據(jù),開始爭奪利益,道德崩塌,社會變遷,只有大數(shù)據(jù)發(fā)展到人人都能平等的獲取同樣多的數(shù)據(jù),社會才會進入一種新的“自然”的穩(wěn)態(tài)。道家洞悉了天機,為“自然”的秩序,無為,也無所不為!
扯遠了…….接下來談?wù)勎覍?shù)據(jù)的理解。
一、數(shù)據(jù)=Know,數(shù)據(jù)一直存在
1、數(shù)據(jù)是人類對世界的觀測: 數(shù)據(jù)是個什么樣的東東?我是這么看的,我把世界分為如下這些元素:a、道,主宰世界的運行; b、公理/定理、規(guī)律 ;c、場景,包括政治人文地理氣候等;d、參與者,包括人和萬物,大到天體,小到粒子;于是所有的事情都可以抽象成這樣,在a和b的作用下,c和d相互影響在時空中運行,而這時候出現(xiàn)了一個旁觀者,把它觀測到的這一切記錄下來,就形成了我們所說的數(shù)據(jù)。
數(shù)據(jù)體現(xiàn)了人類的意志:數(shù)據(jù)的來源只有兩種,要么人類通過手工記錄,要么通過科技手段按照人類設(shè)想記錄下來,記錄者對事物的理解、采取的采集手段決定了數(shù)據(jù)長啥樣!所以看到數(shù)據(jù),要追溯回記錄者當時怎么想怎么記的,才可能真正搞懂數(shù)據(jù)。
數(shù)據(jù)并不客觀,它是有角度的:正因為數(shù)據(jù)體現(xiàn)了人類的意志,而人類只能選取某些角度去觀測世界,因而記錄下來的數(shù)據(jù)是有角度的,它離客觀事實有很大的距離。譬如《史記》就體現(xiàn)了司馬遷的偏好,項羽不是帝王,卻列入本紀之中,可見其對于項羽的推崇心理。
數(shù)據(jù)表征事實,但數(shù)據(jù)只是事實的采樣:事物的細節(jié)很多,人類只能對局部的點進行記錄(空間抽樣),也不可能連續(xù)記錄(時間抽樣)。譬如你記錄了時間、地點、人物、事件,但還有人物心理、周邊環(huán)境、星際運行、甚至粒子級別的運動,人類觀測不過來,也記錄不過來,很多東西無法表征,更存儲不下來所有。
數(shù)據(jù)不僅失真,還可能錯漏:眼里見到的不一定就是真實,最終記錄下來的也不一定是眼里見到的,還有技術(shù)的誤差......
真正的“數(shù)據(jù)”是世界發(fā)生的這一切,這個“數(shù)據(jù)”無窮大,一直存在:相比之下,人類的采集及表征存儲技術(shù)實在是太渺小了!不少專家驚呼大數(shù)據(jù)時代來了,我們可以不用抽樣能夠全數(shù)據(jù)處理了,真實情況是,人類永遠沒有全數(shù)據(jù),我們對這個世界“Know”得太少啊,真正的大數(shù)據(jù)時代還早得很!
(注:在我的概念,數(shù)據(jù)有廣義狹義之分,廣義的“數(shù)據(jù)”就是世界發(fā)生的這一切,狹義的數(shù)據(jù)是指人類記錄下來的)
順便也說一下,強人工智能時代還遠著呢,且不談意識那些深層次的話題,也不探究存儲及表征技術(shù)的落后,三個理由,其一,AI在采集數(shù)據(jù)方面是預(yù)設(shè)角度的,而人類對一個事物觀測角度有無窮想象空間,你自己都無法預(yù)知你會留意哪些方面,其二,模型方面,AI的學習方向也是預(yù)設(shè)的,人類大腦的聯(lián)想關(guān)聯(lián)能力、快速歸納能力AI無法做到,譬如嬰兒第一次見到圍巾,你教它把它掛到脖子上,下次它見到長的東西如皮帶,它也會創(chuàng)造性的往脖子上掛,沒人教過它圍巾與皮帶的關(guān)聯(lián)關(guān)系!我舉的這個例子不一定恰當,相信寶爸寶媽能舉出更多更好的例子(歡迎投稿供引用)。其三,解讀數(shù)據(jù)及數(shù)據(jù)影響行動的能力,AI還太弱。
2、“數(shù)據(jù)”是物質(zhì)與意識之間的連接
人類對世界的認知就是體現(xiàn)在對“數(shù)據(jù)”的掌握,物質(zhì)通過“數(shù)據(jù)”傳遞給意識,意識接收“數(shù)據(jù)”感知物質(zhì)。沒有“數(shù)據(jù)”,物質(zhì)與意識就會中斷。脫離了肌殼,不知道靈魂還能不能接收“數(shù)據(jù)”,如果不能,那就跟物質(zhì)中斷了,這種狀態(tài)跟創(chuàng)世元靈忍受過的難以想象的孤寂差不多。
3、數(shù)據(jù)=Know
查英語詞典,“know”有知道、了解、懂三層含義,這三層漸進的解釋和大數(shù)據(jù)實在是太吻合了,單一的數(shù)據(jù)能幫人們淺層次的“知道”一些事實,多維度的數(shù)據(jù)讓我們進一步的“了解”事實,而對數(shù)據(jù)的綜合提煉、深度洞察才能稱之為“懂”,“懂”事物的規(guī)律、發(fā)展方向!所有的數(shù)據(jù)都是幫助我們Know,譬如運營報表是幫助我們“know”過去的運營情況、監(jiān)控預(yù)警是幫助我們“Know”當下正在發(fā)生什么異常的事情、目標客戶數(shù)據(jù)是幫助我們“Know”客戶未來會有什么樣的購買需求;而大數(shù)據(jù)挖掘就是利用我們已經(jīng)“Know”的事實數(shù)據(jù)去推測我們想“Know”的東西。
二、數(shù)據(jù)的方法一直在使用
人類一直在有意無意的采用數(shù)據(jù)方法來思考,幾乎所有的領(lǐng)域都有數(shù)據(jù)的影子。譬如讀心術(shù),不就是通過分析身體語言、微觀動作、面部動作、空間行為、觸覺等非語言行為數(shù)據(jù)再結(jié)合社會習俗、文化背景、民族習慣、現(xiàn)場氣氛、對象資料等背景信息來推測對象的心理么?最近“別對我撒謊”就是試圖利用圖像數(shù)據(jù)來分析心理,當然智能程度還很低;而偵探就是通過收集現(xiàn)場等數(shù)據(jù)試圖還原真相;所謂聞香識女人、知己知己百戰(zhàn)不殆、分久必合合久必分等都是對數(shù)據(jù)的收集和運用;占卜算卦就更神奇了,利用道具來產(chǎn)生數(shù)據(jù)(當然,不知道是否還采集了空氣中一些神秘的數(shù)據(jù))然后推測人的命運…...
但是,現(xiàn)行的數(shù)據(jù)技術(shù)并不能解決所有的問題,因為很多數(shù)據(jù)還沒辦法收集存儲,隨著采集技術(shù)的發(fā)展,未來,一切皆可測量,一切皆可數(shù)據(jù)化,所有領(lǐng)域的專家,都將是數(shù)據(jù)科學家。 未來,請忘掉大數(shù)據(jù),不要問大數(shù)據(jù)能做什么,而是幾乎所有的領(lǐng)域都必須應(yīng)用數(shù)據(jù)技術(shù)。大數(shù)據(jù)無處不在,也就是不存在。
三、所謂的模型、算法,都是為了讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù),Know->行動
前面也說了,數(shù)據(jù)挖掘,就是利用已掌握的數(shù)據(jù)推測未知,推測的結(jié)果就是一個新的數(shù)據(jù),譬如你沒有用戶的性別數(shù)據(jù),只能通過用戶的瀏覽習慣、瀏覽網(wǎng)頁分類來推測它的性別,這個性別對于你就是一個新的數(shù)據(jù)。
不能影響行動的數(shù)據(jù)都是沒有意義的,換句話說,數(shù)據(jù)必須與商業(yè)(應(yīng)用)相結(jié)合。千辛萬苦整出一個數(shù)據(jù),沒有相應(yīng)的應(yīng)用流程來承接,那就徒勞無功。
四、經(jīng)驗也是大數(shù)據(jù)
大數(shù)據(jù)出現(xiàn)之后,人們對數(shù)據(jù)驅(qū)動津津樂道,什么數(shù)據(jù)驅(qū)動營銷、數(shù)據(jù)驅(qū)動管理、數(shù)據(jù)驅(qū)動運營……...如果憑經(jīng)驗做事情,似乎就被一棍子打死。但是,數(shù)據(jù)看起來很多,實際上很少(前面說的抽樣、失真......),它并不總能解決問題,如果掌握的數(shù)據(jù)與目標相去甚遠,無論算法多么的牛叉,都得不到一個與目標匹配的數(shù)據(jù)結(jié)果。
而人類的經(jīng)驗是基于多年接收的大數(shù)據(jù)運用大腦提煉的結(jié)果,除了五官,人類身體的每一寸肌膚都在接收并處理大數(shù)據(jù),人類的大腦比計算機模型強得不知道哪里去了,匹配度高的經(jīng)驗效果遠遠好于一般的數(shù)據(jù)結(jié)果。
所以,別瞧不起經(jīng)驗,很多情況下,數(shù)據(jù)無能為力!
結(jié)語
數(shù)據(jù)沒想象那么強大,但未來數(shù)據(jù)無處不在,最后,人類一定會忘掉大數(shù)據(jù)!
先推出第一篇,可能抽象了點。以后會寫些更接地氣的!
作者:小白楊(吳顯洋): 從小愛數(shù)學,曾是系統(tǒng)架構(gòu)師,后回歸數(shù)據(jù),10年大數(shù)據(jù)實戰(zhàn)經(jīng)驗,漸成一家,擅長數(shù)據(jù)化思考、系統(tǒng)性布局。信奉道家思想,堅信萬物皆數(shù)據(jù),數(shù)據(jù)藏大道。愛徒步、愛歷史、愛思考宇宙,弘大數(shù)據(jù)道,教你Know那些有趣、有用、有逼格的Data。