摘要 : 科技互聯(lián)網(wǎng)行業(yè)屬于典型的技術(shù)創(chuàng)新周期性行業(yè),其中的任何產(chǎn)品形態(tài)都不是突然出現(xiàn)的,而是以雛形的形式長期潛伏,當(dāng)?shù)竭_一個臨界點(就是極客們常說奇點)后爆發(fā),進入到快速普及狀態(tài)。
翻篇到了2015年,除了讓人老了一歲唯一能讓人安慰的就是我們距離未來科技又近了一步。在《黑鏡》和《Her》當(dāng)中那些貌似要“很久以后”才能觸碰到的超強人工智能和技術(shù)創(chuàng)新,其實已在2014年步步逼近。互聯(lián)網(wǎng)科技行業(yè)噴發(fā)式的發(fā)展,給我們展示了未來科技的雛形。
科技互聯(lián)網(wǎng)行業(yè)屬于典型的技術(shù)創(chuàng)新周期性行業(yè),其中的任何產(chǎn)品形態(tài)都不是突然出現(xiàn)的,而是以雛形的形式長期潛伏,當(dāng)?shù)竭_一個臨界點(就是極客們常說奇點)后爆發(fā),進入到快速普及狀態(tài)。
于是乎,在2015伊始,筆者想要盤點一些技術(shù),也許并不是天天用的高粘性技術(shù),而是具備巨大想象空間的,這類技術(shù)往往會對未來有著巨大的影響。
AR技術(shù):“現(xiàn)實”裝入“虛擬”當(dāng)中
AR技術(shù)在過去的20年里悄悄都潛伏在實驗室里面,而2014年AR技術(shù)第一次迸發(fā)出無窮想象力。3月16日Facebook宣布20億美元收購Oculus公司,后者正是一家沉浸式虛擬現(xiàn)實技術(shù)(AR)的領(lǐng)先公司。這20億美元買的就是“計算設(shè)備和娛樂的未來”。Oculus最著名的就是推出了頭戴式顯示器Oculus Rift。這款產(chǎn)品利用內(nèi)置的陀螺儀和顯示屏能夠打造出真正的虛擬顯示場景,把“虛擬”貫穿到視覺、聽覺、觸覺、動覺當(dāng)中,替代了“現(xiàn)實”。
如果我們仔細回想一下計算機過去50年里的發(fā)展趨勢就不難想象AR技術(shù)的巨大想象空間。早年因為電腦笨重又大很難是個人的,不便于使用,然后臺式機出現(xiàn)了,我們進入了個人可以直接在書桌上與計算機互動的時代。之后,筆記本電腦,我們可以隨身攜帶計算機。今天我們將計算機裝進了自己的口袋。按照這種發(fā)展模式走下去,計算機會與我們的身體越來越親密。這意味著未來計算機可能戴在我們頭上,然后用眼睛去跟它互動。AR技術(shù)實際上就是這種解決方式的先行者。
在過去的2014年,Oculus的發(fā)展?fàn)縿尤诵?,首?000個面向開發(fā)者的Oculus Rift DK2原型機早早就被搶購一空,市場上一機難求。而分布在全球各地狂熱的開發(fā)者不知疲倦的讓Oculus Rift變得更好玩,在Oculus相關(guān)論壇里每天都會有不同的Mod出現(xiàn)供大家測試。在CES 2014上Virtuix Omni還推出了配合Oculus Rift的跑步機來玩
《戰(zhàn)地 4》游戲。如果你看過相關(guān)視頻,你一定會在結(jié)尾處大吼一聲:這才是游戲的最終形態(tài)!
2014年是AR技術(shù)大放異彩的元年,在近期的百度BIG Talk大會上,斯坦福大學(xué)虛擬互動實驗室創(chuàng)始人Jeremy Bailenson說虛擬現(xiàn)實技術(shù)很快將會到來。也許未來我們的電腦將會消失,AR將會承載新的使命。
看“臉”時代:圖像搜索大數(shù)據(jù)
你想知道蝦和番茄能不能一起吃,于是你輸入文字百度了一下,有了答案。而如果你手上有一張名畫照片想知道作者怎么辦?相信很大一部分人都會束手無策,因為這是一張圖片。
相比語言搜索功能圖像搜索被譽為是下一個重要的互聯(lián)網(wǎng)入口,這源于一個不可逆轉(zhuǎn)的現(xiàn)實——人們從外界獲取信息,其中90%來自于視覺。當(dāng)有東西無法用語言傳遞、表達時,你第一個想到的就是靠圖像、影像。你想想看,當(dāng)你在街上看到一件別人身上的衣服很好看,你想自己上網(wǎng)搜搜看哪里能買到,在不知道品牌型號的情況下,你要怎么給一個機器解釋你的所看所感?就算你形容能力無敵了,但你有心思花那么多時間在組織搜索語言上嗎?所以機器還要更加的智能,不但能理解一句話,還要可以直接分析你看到的圖像和片段,你總是想要簡單的對吧。
圖片搜索就是目前火熱的CBIR技術(shù),這個92年由Kato教授提出的理論距今已經(jīng)20年。CBIR的基礎(chǔ)原理是系統(tǒng)對用戶輸入的圖像進行分析并分類統(tǒng)一建模, 然后根據(jù)各種圖像模型提取圖像特征存入特征庫,然后尋找符合相關(guān)條件的結(jié)果進行反饋。目前Google、Bing、百度三大搜索引擎均具備相關(guān)技術(shù)。其中Google搜索從Googlelabs一個項目演化而成,目前支持圖片上傳搜索和URL地址檢索。而微軟旗下的Bing則只支持基礎(chǔ)的關(guān)鍵字圖像匹配,精確度算法還有待提高。其他類似TinyEy等創(chuàng)業(yè)型圖像搜索引擎脫胎于大學(xué)實驗室,而曾經(jīng)火過一段時間的GozoPa已經(jīng)低調(diào)關(guān)閉B2C轉(zhuǎn)型B2B業(yè)務(wù)。
小公司在做需要大數(shù)據(jù)的工程總顯得捉襟見肘。再舉個國內(nèi)的反例,淘寶在12年推出過類似圖像搜索的功能,不過隨后運營不佳關(guān)閉。目前中國具備做好圖像搜索能力的就只有百度,14年8月手機百度正式更新到5.5版,新版本新增的拍照搜索,被業(yè)界定義為圖像搜索的2.0版本,在目前大多數(shù)用戶還在掃描二維碼、提前設(shè)定場景等OCR功能的拍照產(chǎn)品當(dāng)中,手機百度是全球首款支持任意實物進行拍照搜索的產(chǎn)品。不過相信在未來,圖像搜索會隨著AR技術(shù)的成熟變等更大眾普及,前景不可估量。
語音技術(shù):能說的,就不用動手
如果說圖片搜索解決了機器對圖片的“理解”,那么語音技術(shù)就是解決了人與機器“交流”的問題。語音技術(shù)從IBM的一個小工具軟件到今天已經(jīng)有了十來年歷史。而隨著3G/4G帶動的移動互聯(lián)網(wǎng)市場興起,語音識別成為有希望挑戰(zhàn)傳統(tǒng)搜索引擎的下一個產(chǎn)品,最近四年是語音技術(shù)發(fā)展最快的黃金期。
從技術(shù)角度來講,語音識別主要流程為“語音提取——聲紋轉(zhuǎn)化——分詞——語義識別”的過程,在后三步都需要借鑒到龐大的數(shù)據(jù)庫,需要大投入長時間的研究,技術(shù)資金門檻較高。而其中的分詞,尤其是中文分詞,需要海量的數(shù)據(jù)樣本做分析。而目前語音市場分為三大派系:
1:國企、大學(xué)院校研發(fā)背景的傳統(tǒng)語音廠商(科大訊飛、捷通華聲)。
2:互聯(lián)網(wǎng)巨頭廠商(百度、阿里、騰訊)
3:小的創(chuàng)業(yè)公司例如云之聲、思必馳等。
這些廠商均有各自擅長的領(lǐng)域,其中科大訊飛在軍用、行業(yè)級當(dāng)中應(yīng)用頗廣。而百度為首的互聯(lián)網(wǎng)廠商則在民用商業(yè)化方面捷足先登,創(chuàng)業(yè)公司則更加專注于細分市場。從目前來看科大訊飛目前在識別行業(yè)處于領(lǐng)頭羊地位,產(chǎn)品適用范圍廣技術(shù)底蘊強,目前的軍用、企業(yè)級使用較多,值得一提的是科大訊飛在技術(shù)專利方面也可以與國外語音巨頭Nuance一拼。
不過,從消費者層面來講好的語音識別系統(tǒng)很大程度上依靠經(jīng)驗,專利和算法什么的并沒有多重要。語音識別這兩年并沒有著力于傳統(tǒng)路線,而是向上發(fā)展為神經(jīng)網(wǎng)絡(luò)(你可以理解為每臺服務(wù)器就是大腦的一個神經(jīng)元),也就是語義識別,這里面涉及的就是人工智能和深度學(xué)習(xí)。如果說科大訊飛國內(nèi)地位類似國外的Nuance,那么百度就是國外的Google。類似Google近兩年來頻繁挖語音牛人一樣,百度邀請了吳恩達加盟,擔(dān)任百度的首席科學(xué)家,負(fù)責(zé)百度研究院,他的研究領(lǐng)域就是機器學(xué)習(xí)和人工智能,研究重點是深度學(xué)習(xí)(deep learning)。深度學(xué)習(xí)就是神經(jīng)網(wǎng)絡(luò)當(dāng)中非常重要的一個環(huán)節(jié)。
對于移動時代的搜索引擎來說,語音的重要性巨大,一旦這個環(huán)節(jié)落后未來可能直接被淘汰,所以Google和百度如此重視不是沒有道理。像百度2010年就已經(jīng)開始進行語音布局,深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN),自然語言處理技術(shù)(NLP)以及百度多年的搜索技術(shù)積累,語音技術(shù)進入到例如手機百度這樣的移動產(chǎn)品當(dāng)中,成為語音輸入的入口,足可以見重視程度。不過其實筆者認(rèn)為,除了搜索外,移動端一切產(chǎn)品形態(tài)都離不開語音和圖像交互,這源于移動本身的屬性,不早點布局語音的互聯(lián)網(wǎng)公司,早晚會在交互上吃虧。
萬物智能:萬物聯(lián)網(wǎng)時代到來
200年前,人與人之間依靠飛鴿傳書。10年前我們依靠手機聯(lián)系,而從2014年開始,我們發(fā)現(xiàn)周圍的一切都逐漸開始可以聯(lián)網(wǎng),無論是家里的空調(diào)、洗衣機還是外面的道路、公園、機場。這所有的一切都可以實時地將數(shù)據(jù)回傳到系統(tǒng),系統(tǒng)則可以根據(jù)收到的大數(shù)據(jù),實時地將它們運用到相應(yīng)的場景中,讓你切實感受到一個數(shù)字化、智能化的環(huán)境。而這些實時數(shù)據(jù)將會成為未來智能模擬和用戶畫像的最堅實基礎(chǔ)。
而這一些正在慢慢變成現(xiàn)實,通過支付寶我們可以知道自己的支出數(shù)據(jù),消費傾向和使用頻次。通過百度搜索我們可以知道自己的喜好、身體數(shù)據(jù)、可以知道我們經(jīng)常在那里使用什么交通工具。而這一切都是基于移動互聯(lián)網(wǎng)帶來的集群效果,通過這些數(shù)據(jù)我們就可以完成精準(zhǔn)的用戶畫像,可以模擬用戶的行為習(xí)慣和行為預(yù)判,這將是一件無比令人興奮的事情。
就算你在移動端的搜索體驗,有了實時數(shù)據(jù),就可以預(yù)判道路是否堵車,可以知道節(jié)假日景點人流擁擠程度。通過定位系統(tǒng)和用戶餐飲喜好,直接高速附近的美食參觀和排隊情況。而通過大數(shù)據(jù)挖掘、智能定位等技術(shù)的原生廣告和信息流廣告,基于用戶的需求、興趣推動,一方面大大降低了干擾用戶產(chǎn)品體驗的可能性,一方面大大提高了成交率,同樣革命了廣告行業(yè)。這些都將會是萬物智能時代最為普通的應(yīng)用。
是不是感覺有些看起來簡單的產(chǎn)品,背后的邏輯都能勾勒出像科幻電影般的未來?其實就像開頭筆者所說,未來不是沒來,是一直都在你身邊,就等著哪一天被擊中引爆點,突然改變你現(xiàn)在的一切。