如今,越來越多的企業(yè)參與到大數(shù)據(jù)的競爭中來,“大數(shù)據(jù)”這個詞匯是如何誕生以及演變的呢?
據(jù)國外媒體報道,今年是大數(shù)據(jù)(Big Data)發(fā)展史上一個重要年份,由技術圈進入了主流市場。
大數(shù)據(jù)是瑞士達沃斯世界經(jīng)濟論壇上一個重要主題,與會者發(fā)布了題為《大數(shù)據(jù),大影響》(Big Data, Big Impact)。3月份,美國聯(lián)邦政府公布了一項耗資2億美元的大數(shù)據(jù)計算研究計劃。
《紐約時報》在文章標題中也采用了“Big Data”這一術語,例如“The Age of Big Data”(大數(shù)據(jù)的時代)。大數(shù)據(jù)概念普及的一個確定跡象出現(xiàn)在上個月,斯科特·亞當斯(Scott Adams)創(chuàng)作的《Dilbert》漫畫中,一幅漫畫的文字內(nèi)容為,“它無所不在,無所不知”(It comes from everywhere. It knows all),下一幅漫畫的內(nèi)容是,“這就是大數(shù)據(jù)”(its name is Big Data)。
“大數(shù)據(jù)”術語成功的原因有兩個,其一是術語本身技術性不強,其二是術語包含著“前程遠大”的一系列不斷進步的技術。
大數(shù)據(jù)是一個速寫符號,意味著將人工智能工具——例如機器學習,用于處理非標準數(shù)據(jù)庫中的數(shù)據(jù),其中包括用戶上網(wǎng)瀏覽習慣資料、社交網(wǎng)絡用戶信息、傳感器數(shù)據(jù)和監(jiān)視數(shù)據(jù)。
海量數(shù)據(jù)和智能軟件算法的結合為企業(yè)捕捉新商機提供了可能。例如,谷歌(微博)和Facebook都是大數(shù)據(jù)公司。IBM的Watson超級計算機去年在問答節(jié)目《Jeopardy》中戰(zhàn)勝人類是大數(shù)據(jù)計算的勝利。從理論上說,大數(shù)據(jù)能改進商業(yè)和醫(yī)療等過程中的決策,使決策越來越信賴于數(shù)據(jù)和分析而非直覺和經(jīng)驗。
康奈爾大學計算機科學家喬恩·克萊因伯格(Jon Kleinberg)稱,“大數(shù)據(jù)這個術語本身很模糊,但在某些方面卻又非常具體。大數(shù)據(jù)是可能改造一切的一種過程的標簽。”
一直以來,不斷增長的數(shù)據(jù)都是一項挑戰(zhàn)。19世紀末,人口普查員不知道如何統(tǒng)計和分類快速增長的美國人口。1890年的人口普查中出現(xiàn)了一項創(chuàng)新性突破,那就是由赫爾曼·霍勒瑞斯(Herman Hollerith)發(fā)明的可以由機器處理的穿孔卡片,這項技術成為IBM的基礎。
大數(shù)據(jù)是一個修辭學意義上的詞匯,在數(shù)據(jù)方面,“大”(big)是一個快速發(fā)展的術語。據(jù)數(shù)名計算機科學家和業(yè)內(nèi)高管稱,2008年“大數(shù)據(jù)”這一術語開始在技術圈內(nèi)出現(xiàn)?!哆B線》發(fā)表了一篇文章,中肯地闡述了數(shù)據(jù)泛濫帶來的機遇和挑戰(zhàn)?!哆B線》稱,大數(shù)據(jù)是“Petabyte時代”的開端。這是一篇很好的文章,但“Petabyte”技術性過強,很難在主流市場上流行開來。人類將會創(chuàng)建比petabyte量級更多的數(shù)據(jù)——exabyte、zettabyte和yottabyte。
起初,許多科學家和工程師都嘲笑“大數(shù)據(jù)”只不過是一個營銷術語。2008年末,“大數(shù)據(jù)”得到部分美國知名計算機科學研究人員的認可,業(yè)界組織“計算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計算:在商務、科學和社會領域創(chuàng)建革命性突破》,作者是一位知名計算機科學家,卡耐基·梅隆大學的蘭道爾·布賴恩特(Randal E. Bryant)、加利福尼亞大學伯克利分校蘭迪·卡茲(Randy H. Katz)、華盛頓大學的愛德華·拉佐斯加(Edward D. Lazowska)。
他們的認可對“大數(shù)據(jù)”術語提供了智力支持。IBM技術專家、新興互聯(lián)網(wǎng)技術副總裁洛德·史密斯(Rod A. Smith)表示,他喜歡“大數(shù)據(jù)”這個術語,因為它使人們的思維不僅局限于數(shù)據(jù)處理的機器,“大數(shù)據(jù)真正重要的是新用途和新見解,而非數(shù)據(jù)本身”。
IBM在營銷中使用了“大數(shù)據(jù)”術語,尤其是在與客戶溝通后。2008年,史密斯的團隊建立了一個網(wǎng)站,解釋“大數(shù)據(jù)”的概念,該網(wǎng)站的內(nèi)容已經(jīng)得到極大豐富。2011年,IBM引進了Twitter標簽——#IBMbigdata。IBM還建立了大數(shù)據(jù)郵件列表,今年1月份出版了一本標題為《理解大數(shù)據(jù)》(Understanding Big Data)的電子書。
創(chuàng)辦于1976年的SAS Institute(以下簡稱“SAS”)開發(fā)了遍歷數(shù)據(jù)庫、獲取有價值信息的軟件。SAS所處的業(yè)務領域出現(xiàn)了許多術語,其中包括“數(shù)據(jù)挖掘”(data mining)、“商業(yè)智能”(business intelligence)和“數(shù)據(jù)分析”(data analytics)。
最初,SAS首席營銷官吉姆·戴維斯(Jim Davis)認為“大數(shù)據(jù)”不過是業(yè)界的另一個營銷用語而已,“最初我對它不感興趣”,他指出,數(shù)十年來,SAS的大企業(yè)客戶——例如銀行和保險公司,一直在“挖掘”海量數(shù)據(jù)。
但是,大數(shù)據(jù)技術能利用企業(yè)數(shù)據(jù)庫之外的全部Web數(shù)據(jù)。隨著SAS的技術能夠利用這些互聯(lián)網(wǎng)時代的海量數(shù)據(jù),其營銷也隨之發(fā)生了變化。去年,SAS開始使用“大數(shù)據(jù)”、“大數(shù)據(jù)分析”(Big Data analytics)術語。多年來,SAS一直使用“高性能分析”(high-performance analytics)術語。5月份,SAS任命了一名負責大數(shù)據(jù)業(yè)務的副總裁保羅·肯特(Paul Kent)。戴維斯說,“我們必須‘人云亦云’。”
“大數(shù)據(jù)”也有負面意義,因為“Big Brother”、“Big Oil”、“Big Government”等詞匯帶有貶義。大數(shù)據(jù)技術的支持者稱,使用“大數(shù)據(jù)”術語的好處大于風險。