2016即將結(jié)束,外媒KDnuggets日前針對(duì)大數(shù)據(jù)領(lǐng)域在2016年度取得的重大發(fā)展,以及2017年度可能出現(xiàn)的變化趨勢(shì),詢問了8位行業(yè)內(nèi)的頂級(jí)專家。
雖然各位專家的意見不盡相同,但從其發(fā)言中大約可以總結(jié)出一個(gè)共通點(diǎn):大數(shù)據(jù)研究正在由前幾年的新鮮技術(shù)變得越來越普及和商業(yè)化。同時(shí),由于研究的向前推進(jìn),以數(shù)據(jù)為基礎(chǔ)的人工智能、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng)等其他各個(gè)領(lǐng)域也將會(huì)取得越來越大的成果。
1. Craig Brown,大數(shù)據(jù)、數(shù)據(jù)科學(xué)、數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域?qū)<?。美?guó)知名的青年導(dǎo)師、科技導(dǎo)師,以及作家。
在2016年,數(shù)據(jù)科學(xué)領(lǐng)域出現(xiàn)了一次大規(guī)模的數(shù)據(jù)增長(zhǎng)。這一增長(zhǎng)從需求端推動(dòng)了諸多云計(jì)算服務(wù)供應(yīng)商的快速成長(zhǎng),包括亞馬遜AWS、微軟Azure和Rackspace等。我認(rèn)為,數(shù)據(jù)增長(zhǎng)的勢(shì)頭將在2017年得到延續(xù)。并且,2017年將會(huì)出現(xiàn)更多的基于這些大數(shù)據(jù)研究的應(yīng)用項(xiàng)目,包括機(jī)器學(xué)習(xí)、認(rèn)知計(jì)算以及預(yù)測(cè)分析等。不過,隨著數(shù)據(jù)量的增加,應(yīng)用項(xiàng)目的逐漸豐富,用戶的數(shù)據(jù)安全問題也將變得日益嚴(yán)峻,這一點(diǎn)在2017年也不會(huì)有很大改善。2017年,數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官、首席數(shù)據(jù)架構(gòu)師等職位將變得越來越搶手,崗位職責(zé)和定位也會(huì)越來越明晰。實(shí)時(shí)數(shù)據(jù)流和功能更強(qiáng)大的數(shù)據(jù)傳輸通道將徹底顛覆所謂“快速數(shù)據(jù)”(fast data)和“可操控?cái)?shù)據(jù)”(actionable data)的定義。
總體上說,大數(shù)據(jù)科學(xué)仍然是一個(gè)處于不斷發(fā)展中的學(xué)科,在2017年,這一學(xué)科一定會(huì)迎來比2016年更大的發(fā)展。如果把大數(shù)據(jù)比作一輛汽車的駕駛員,那么在這位駕駛員的帶領(lǐng)下,未來基于大數(shù)據(jù)的各種實(shí)際應(yīng)用項(xiàng)目將會(huì)越來越豐富,也即這輛汽車上的乘客會(huì)越來越多。
2. James Kobielus,大數(shù)據(jù)領(lǐng)域?qū)<?,IBM公司大數(shù)據(jù)研究首席科學(xué)家。
分布式框架Hadoop在大數(shù)據(jù)領(lǐng)域的重要性正在日漸減弱,MapReduce模型、HBase數(shù)據(jù)庫(kù),甚至分布式文件系統(tǒng)HDFS在大數(shù)據(jù)科學(xué)家眼中也遠(yuǎn)沒有從前重要了。
2017年最顯著的變化趨勢(shì)應(yīng)該來自于程序員群體,他們將越來越關(guān)注數(shù)據(jù)庫(kù)領(lǐng)域的編程技能,通過這一技能的提升,獲得更多的職業(yè)發(fā)展優(yōu)勢(shì)。我認(rèn)為在2017年,最熱門的大數(shù)據(jù)科學(xué)應(yīng)用項(xiàng)目將會(huì)聚焦于流媒體分析、嵌入式深度學(xué)習(xí)、物聯(lián)網(wǎng)、聊天機(jī)器人、認(rèn)知計(jì)算、自動(dòng)駕駛、計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。同時(shí),我們也將會(huì)看到,新一代的神經(jīng)網(wǎng)絡(luò)芯片、GPU和其他的高性能認(rèn)知計(jì)算框架也將在明年得到更大的發(fā)展。
3. Douglas Laney,美國(guó)著名咨詢公司Gartner副總裁,首席分析師。
2016年,大數(shù)據(jù)領(lǐng)域一個(gè)最大的變化就是人們不再談?wù)摯髷?shù)據(jù)了,因?yàn)榇髷?shù)據(jù)已經(jīng)充斥了我們的生活,隨處可見?,F(xiàn)在大家關(guān)注的焦點(diǎn)變成了如何將大數(shù)據(jù)業(yè)務(wù)化、商用化。在Gartner內(nèi)部,我們和客戶現(xiàn)在談?wù)撟疃嗟膯栴}是如何管理、評(píng)估信息資產(chǎn),以及如何將信息資產(chǎn)變現(xiàn)。
2017年,我們應(yīng)該努力搞清楚大數(shù)據(jù)領(lǐng)域幾項(xiàng)重要的權(quán)利和義務(wù),包括數(shù)據(jù)的所有權(quán)、特權(quán)和隱私權(quán),特別是由物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)。另外,關(guān)于數(shù)據(jù)能否被視為一種全新形態(tài)的資產(chǎn),這一問題會(huì)繼續(xù)引發(fā)會(huì)計(jì)行業(yè)、律師行業(yè)和保險(xiǎn)行業(yè)的困惑。但隨著機(jī)構(gòu)投資人和股票分析師們?cè)絹碓疥P(guān)注一家企業(yè)的信息化進(jìn)程,傳統(tǒng)行業(yè)的這種困惑將會(huì)有所緩解。2017年,各行各業(yè)都將會(huì)更加關(guān)注大數(shù)據(jù)領(lǐng)域的人才招攬,例如數(shù)據(jù)經(jīng)理人和其他的信息整合者。
4. Yves Mulkers,知名博客一切皆數(shù)據(jù)(All Things Data)博主之一,負(fù)責(zé)維護(hù)大數(shù)據(jù)板塊。
在2016年,大數(shù)據(jù)這個(gè)詞似乎不像前幾年那樣熱門。隨著大數(shù)據(jù)相關(guān)的基礎(chǔ)設(shè)施、服務(wù)器、軟件系統(tǒng)和理論體系的持續(xù)發(fā)展,目前大數(shù)據(jù)分析方面的解決方案已經(jīng)逐漸成熟,并且越來越普及,而不像前幾年那樣還是少數(shù)科技極客眼中的新領(lǐng)域。隨著技術(shù)的成熟,自助和自動(dòng)化的信息服務(wù)也將越來越受到重視。大數(shù)據(jù)分析工具和相關(guān)的解決方案雖然會(huì)變得越來越簡(jiǎn)單易用,但我們?nèi)匀恍枰邆浠镜耐ㄐ偶夹g(shù)和信息處理領(lǐng)域的專業(yè)知識(shí),隨時(shí)準(zhǔn)備迎接下一個(gè)發(fā)展階段的到來。未來,和機(jī)器學(xué)習(xí)、人工智能、VR/AR、物聯(lián)網(wǎng)相關(guān)的大數(shù)據(jù)解決方案將越來越完備,摩爾定律的邊界也會(huì)受到更多的挑戰(zhàn)。
5. Mark van Rijmenam,Datafloq網(wǎng)創(chuàng)始人,大數(shù)據(jù)相關(guān)書籍《Think Bigger》作者。
對(duì)于大數(shù)據(jù)領(lǐng)域來說,2016是令人激動(dòng)的一年,因?yàn)?ldquo;大數(shù)據(jù)”終于不再是一個(gè)流行詞。這說明研究者們正在基于大數(shù)據(jù)開發(fā)真實(shí)可用的解決方案和應(yīng)用程序,而不再是簡(jiǎn)單的噱頭。
2017年,隨著技術(shù)的進(jìn)步,以大數(shù)據(jù)為基礎(chǔ)而開發(fā)的應(yīng)用將越來越豐富。由于計(jì)算機(jī)的計(jì)算能力和真實(shí)可用的龐大數(shù)據(jù)量不再是問題,因此以人工智能和深度學(xué)習(xí)為代表的智能應(yīng)用也將變得更加聰明,更加普及。總體上說,由于大數(shù)據(jù)、智能應(yīng)用和越來越豐富的智能終端產(chǎn)品的出現(xiàn),2017年應(yīng)該是值得我們期待的一年。不過,隨著大數(shù)據(jù)的廣泛應(yīng)用,數(shù)據(jù)安全和隱私問題也將越來越嚴(yán)峻。
6. Ronald van Loon,Adversitement網(wǎng)站主管,大數(shù)據(jù)科學(xué)領(lǐng)域年度10大影響力人物之一。
今年是大數(shù)據(jù)科學(xué)領(lǐng)域產(chǎn)生重大變化的一年。可以看到,無論是單一學(xué)科還是跨學(xué)科的用戶,在這一年中都在向著以數(shù)據(jù)驅(qū)動(dòng)為核心的組織架構(gòu)調(diào)整。而且通過物聯(lián)網(wǎng)的進(jìn)一步普及,我們已經(jīng)在某些核心應(yīng)用場(chǎng)景積累了大數(shù)據(jù)處理和傳輸?shù)膶氋F經(jīng)驗(yàn)。另外,由于強(qiáng)大的云計(jì)算平臺(tái)的支持,越來越多的機(jī)器學(xué)習(xí)應(yīng)用也正在研發(fā)之中。
在2017年,這一趨勢(shì)將得以延續(xù),人工智能、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng)應(yīng)用在大數(shù)據(jù)的支撐下將迎來一個(gè)爆發(fā)性的增長(zhǎng)。目前,技術(shù)研發(fā)能力已經(jīng)就緒,對(duì)于市場(chǎng)需求的靈活迭代機(jī)制也越發(fā)成熟,根據(jù)預(yù)測(cè),截止2020年,接入互聯(lián)網(wǎng)的設(shè)備總數(shù)將達(dá)到100億-340億之間。
7. Jeff Ullman,斯坦福大學(xué)計(jì)算學(xué)科教授,主要研究數(shù)據(jù)庫(kù)理論、數(shù)據(jù)庫(kù)集成一體化和數(shù)據(jù)挖掘等。
歐盟剛剛針對(duì)大數(shù)據(jù)的使用和分析模型的建立出臺(tái)了一個(gè)新的隱私保護(hù)法(雷鋒網(wǎng)獲悉,這一法案將于2018年1月起正式施行)?,F(xiàn)在還無法確定這一法案將會(huì)造成怎樣的影響,但有一點(diǎn)似乎可以確定,那就是它將在很大程度上避免深度學(xué)習(xí)領(lǐng)域內(nèi)由于分析模型亂用導(dǎo)致的意外問題。目前許多公司都在與歐盟溝通,試圖確認(rèn)究竟哪些數(shù)據(jù)資源和分析模型是可用的,而哪些不行。比如說,谷歌可以探測(cè)一封郵件的內(nèi)容,并且將其和已知的垃圾郵件對(duì)比,如果內(nèi)容類似就判定這封郵件為垃圾郵件。那么谷歌到底有沒有讀取用戶郵件的權(quán)利?這些問題都還有待確定。
8. Matei Zaharia,Databricks平臺(tái)首席科學(xué)家,大數(shù)據(jù)處理框架Apache Spark創(chuàng)始人。
1) 公有云正在成為部署大數(shù)據(jù)應(yīng)用的主流平臺(tái)。根據(jù)今年夏天的用戶調(diào)查結(jié)果顯示,在公有云部署Spark框架的用戶比例高達(dá)61%,而使用Hadoop YARN的用戶則只有36%。更重要的是,使用公有云的61%的用戶去年只有51%,而使用Hadoop YARN的用戶則從去年的40%下滑到36%,這說明公有云的用戶正在持續(xù)的增長(zhǎng)。分析原因,這或許是由于亞馬遜AWS S3這樣的云服務(wù)產(chǎn)品正在變得越來越經(jīng)濟(jì),性能越來越穩(wěn)定,易用性也越來越好。
2) 今年7月,我們發(fā)布了Apache Spark 2.0版,這一版本針對(duì)Spark SQL和數(shù)據(jù)幀(Dataframes)在新款硬件的使用方面進(jìn)行了較大的性能提升。值得一提的是,我們已經(jīng)看到2.0版的使用率正在快速增長(zhǎng),目前大約有40%的集群用戶正在使用它。這說明用戶需要對(duì)新硬件建立快速的支持。