2005年Hadoop項目誕生。Hadoop其最初只是雅虎公司用來解決網(wǎng)頁搜索問題的一個項目,后來因其技術(shù)的高效性,被Apache Software Foundation公司引入并成為開源應(yīng)用。Hadoop本身不是一個產(chǎn)品,而是由多個軟件產(chǎn)品組成的一個生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實現(xiàn)全面功能和靈活的大數(shù)據(jù)分析。從技術(shù)上看,Hadoop由兩項關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。這兩項服務(wù)的共同目標(biāo)是,提供一個使對結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實的基礎(chǔ)。
2008年末,“ 大數(shù)據(jù) ”得到部分美國知名計算機科學(xué)研究人員的認(rèn)可,業(yè)界組織計算社區(qū)聯(lián)盟(Computing Community Consortium),發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計算:在商務(wù)、科學(xué)和社會領(lǐng)域創(chuàng)建革命性突破》。它使人們的思維不僅局限于數(shù)據(jù)處理的機器,并提出:大數(shù)據(jù)真正重要的是新用途和新見解,而非數(shù)據(jù)本身。此組織可以說是最早提出大數(shù)據(jù)概念的機構(gòu)。
2009年印度政府建立了用于身份識別管理的生物識別數(shù)據(jù)庫,聯(lián)合國全球脈沖項目已研究了對如何利用手機和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測從螺旋價格到疾病爆發(fā)之類的問題。
2009年中,美國政府通過啟動Data.gov網(wǎng)站的方式進一步開放了數(shù)據(jù)的大門,這個網(wǎng)站向公眾提供各種各樣的政府?dāng)?shù)據(jù)。該網(wǎng)站的超過4.45萬量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機應(yīng)用程序來跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動激發(fā)了從肯尼亞到英國范圍內(nèi)的政府們相繼推出類似舉措。
2009年,歐洲一些領(lǐng)先的研究型圖書館和科技信息研究機構(gòu)建立了伙伴關(guān)系致力于改善在互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡易性。
2010年2月,肯尼斯 庫克爾在《經(jīng)濟學(xué)人》上發(fā)表了長達14頁的大數(shù)據(jù)專題報告《數(shù)據(jù),無所不在的數(shù)據(jù)》。庫克爾在報告中提到:“世界上有著無法想象的巨量數(shù)字信息,并以極快的速度增長。從經(jīng)濟界到科學(xué)界,從政府部門到藝術(shù)領(lǐng)域,很多方面都已經(jīng)感受到了這種巨量信息的影響??茖W(xué)家和計算機工程師已經(jīng)為這個現(xiàn)象創(chuàng)造了一個新詞匯:“大數(shù)據(jù)”。庫克爾也因此成為最早洞見大數(shù)據(jù)時代趨勢的數(shù)據(jù)科學(xué)家之一。
2011年2月,IBM的沃森超級計算機每秒可掃描并分析4TB(約2億頁文字量)的數(shù)據(jù)量,并在美國著名智力競賽電視節(jié)目《危險邊緣》“Jeopardy”上擊敗兩名人類選手而奪冠。后來紐約時報認(rèn)為這一刻為一個“大數(shù)據(jù)計算的勝利。”
2011年5月,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)發(fā)布了一份報告——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,大數(shù)據(jù)開始備受關(guān)注,這也是專業(yè)機構(gòu)第一次全方面的介紹和展望大數(shù)據(jù)。報告指出,大數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。報告還提到,“大數(shù)據(jù)”源于數(shù)據(jù)生產(chǎn)和收集的能力和速度的大幅提升——由于越來越多的人、設(shè)備和傳感器通過數(shù)字網(wǎng)絡(luò)連接起來,產(chǎn)生、傳送、分享和訪問數(shù)據(jù)的能力也得到徹底變革。
2011年12月,工信部發(fā)布的物聯(lián)網(wǎng)十二五規(guī)劃上,把信息處理技術(shù)作為4項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。
2012年1月份,瑞士達沃斯召開的世界經(jīng)濟論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響》(Big Data, Big Impact)宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。
2012年3月,美國奧巴馬政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,這一倡議標(biāo)志著大數(shù)據(jù)已經(jīng)成為重要的時代特征。2012年3月22日,奧巴馬政府宣布2億美元投資大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)技術(shù)從商業(yè)行為上升到國家科技戰(zhàn)略的分水嶺,在次日的電話會議中,政府對數(shù)據(jù)的定義“未來的新石油”,大數(shù)據(jù)技術(shù)領(lǐng)域的競爭,事關(guān)國家安全和未來。并表示,國家層面的競爭力將部分體現(xiàn)為一國擁有數(shù)據(jù)的規(guī)模、活性以及解釋、運用的能力;國家數(shù)字主權(quán)體現(xiàn)對數(shù)據(jù)的占有和控制。數(shù)字主權(quán)將是繼邊防、海防、空防之后,另一個大國博弈的空間。
2012年4月,美國軟件公司Splunk于19日在納斯達克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。鑒于美國經(jīng)濟持續(xù)低靡、股市持續(xù)震蕩的大背景,Splunk首日的突出交易表現(xiàn)尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領(lǐng)先的提供大數(shù)據(jù)監(jiān)測和分析服務(wù)的軟件提供商,成立于2003年。Splunk成功上市促進了資本市場對大數(shù)據(jù)的關(guān)注,同時也促使IT廠商加快大數(shù)據(jù)布局。
2012年7月,聯(lián)合國在紐約發(fā)布了一份關(guān)于大數(shù)據(jù)政務(wù)的白皮書,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護人民。這份白皮書舉例說明在一個數(shù)據(jù)生態(tài)系統(tǒng)中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關(guān)注和更好服務(wù)的渴望,個人提供數(shù)據(jù)和眾包信息,并對隱私和退出權(quán)力提出需求;公共部門出于改善服務(wù),提升效益的目的,提供了諸如統(tǒng)計數(shù)據(jù)、設(shè)備信息,健康指標(biāo),及稅務(wù)和消費信息等,并對隱私和退出權(quán)力提出需求;私人部門出于提升客戶認(rèn)知和預(yù)測趨勢目的,提供匯總數(shù)據(jù)、消費和使用信息,并對敏感數(shù)據(jù)所有權(quán)和商業(yè)模式更加關(guān)注。白皮書還指出,人們?nèi)缃窨梢允褂玫臉O大豐富的數(shù)據(jù)資源,包括舊數(shù)據(jù)和新數(shù)據(jù),來對社會人口進行前所未有的實時分析。聯(lián)合國還以愛爾蘭和美國的社交網(wǎng)絡(luò)活躍度增長可以作為失業(yè)率上升的早期征兆為例,表明政府如果能合理分析所掌握的數(shù)據(jù)資源,將能“與數(shù)俱進”,快速應(yīng)變。
2012年7月,為挖掘大數(shù)據(jù)的價值,阿里巴巴集團在管理層設(shè)立“首席數(shù)據(jù)官”一職,負責(zé)全面推進“數(shù)據(jù)分享平臺”戰(zhàn)略,并推出大型的數(shù)據(jù)分享平臺——“聚石塔”,為天貓、淘寶平臺上的電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)。隨后,阿里巴巴董事局主席馬云在2012年網(wǎng)商大會上發(fā)表演講,稱從2013年1月1日起將轉(zhuǎn)型重塑平臺、金融和數(shù)據(jù)三大業(yè)務(wù)。馬云強調(diào):“假如我們有一個數(shù)據(jù)預(yù)報臺,就像為企業(yè)裝上了一個GPS和雷達,你們出海將會更有把握。”因此,阿里巴巴集團希望通過分享和挖掘海量數(shù)據(jù),為國家和中小企業(yè)提供價值。此舉是國內(nèi)企業(yè)最早把大數(shù)據(jù)提升到企業(yè)管理層高度的一次重大里程碑。阿里巴巴也是最早提出通過數(shù)據(jù)進行企業(yè)數(shù)據(jù)化運營的企業(yè)。
2014年4月,世界經(jīng)濟論壇以“大數(shù)據(jù)的回報與風(fēng)險”主題發(fā)布了《全球信息技術(shù)報告(第13版)》。報告認(rèn)為,在未來幾年中針對各種信息通信技術(shù)的政策甚至?xí)@得更加重要。在接下來將對數(shù)據(jù)保密和網(wǎng)絡(luò)管制等議題展開積極討論。全球大數(shù)據(jù)產(chǎn)業(yè)的日趨活躍,技術(shù)演進和應(yīng)用創(chuàng)新的加速發(fā)展,使各國政府逐漸認(rèn)識到大數(shù)據(jù)在推動經(jīng)濟發(fā)展、改善公共服務(wù),增進人民福祉,乃至保障國家安全方面的重大意義。
2014年5月,美國白宮發(fā)布了2014年全球“大數(shù)據(jù)”白皮書的研究報告《大數(shù)據(jù):抓住機遇、守護價值》。報告鼓勵使用數(shù)據(jù)以推動社會進步,特別是在市場與現(xiàn)有的機構(gòu)并未以其他方式來支持這種進步的領(lǐng)域;同時,也需要相應(yīng)的框架、結(jié)構(gòu)與研究,來幫助保護美國人對于保護個人隱私、確保公平或是防止歧視的堅定信仰。
2014年,“大數(shù)據(jù)”首次出現(xiàn)在當(dāng)年的《政府工作報告》中?!秷蟾妗分兄赋?,要設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺,在大數(shù)據(jù)等方面趕超先進,引領(lǐng)未來產(chǎn)業(yè)發(fā)展。“大數(shù)據(jù)”旋即成為國內(nèi)熱議詞匯。
2015年,國務(wù)正式印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,《綱要》明確,推動大數(shù)據(jù)發(fā)展和應(yīng)用,在未來5至10年打造精準(zhǔn)治理、多方協(xié)作的社會治理新模式,建立運行平穩(wěn)、安全高效的經(jīng)濟運行新機制,構(gòu)建以人為本、惠及全民的民生服務(wù)新體系,開啟大眾創(chuàng)業(yè)、萬眾創(chuàng)新的創(chuàng)新驅(qū)動新格局,培育高端智能、新興繁榮的產(chǎn)業(yè)發(fā)展新生態(tài)。標(biāo)志著大數(shù)據(jù)正式上升這國家戰(zhàn)略。
2016年10月 探碼科技精準(zhǔn)扶貧大數(shù)據(jù)平臺項目正式啟動。探碼大數(shù)據(jù)平臺不僅具備動態(tài)大數(shù)據(jù)云存儲;隨時查看幫扶對象信息;貧困信息云定位;大數(shù)據(jù)動態(tài)統(tǒng)計分析四大特色,而且還具備了平臺大數(shù)據(jù)精準(zhǔn)管理,多平臺支持,動態(tài)圖表大數(shù)據(jù)展示,多技術(shù)手段,提供貧困戶、村扶貧動態(tài)圖片展示,實時全面的系統(tǒng)用戶、角色、機構(gòu)動態(tài)管理,用戶分包聯(lián)動協(xié)作,支持個性化定制,針對各地不同政策需求量身定制七大優(yōu)勢。
2016年,大數(shù)據(jù)“十三五”規(guī)劃將出臺,《規(guī)劃》已征求了專家意見,并進行了集中討論和修改?!兑?guī)劃》涉及的內(nèi)容包括,推動大數(shù)據(jù)在工業(yè)研發(fā)、制造、產(chǎn)業(yè)鏈全流程各環(huán)節(jié)的應(yīng)用;支持服務(wù)業(yè)利用大數(shù)據(jù)建立品牌、精準(zhǔn)營銷和定制服務(wù)等。