2014年12月12-14日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF大數(shù)據(jù)專家委員會(huì)承辦,中科院計(jì)算所與CSDN共同協(xié)辦,以推進(jìn)大數(shù)據(jù)科研、應(yīng)用與產(chǎn)業(yè)發(fā)展為主旨的2014中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議在北京新云南皇冠假日酒店盛大開幕。
Co-Founder and CEO of Conviva 張輝表示用戶的體驗(yàn)是互聯(lián)網(wǎng)最重要的指標(biāo)。網(wǎng)絡(luò)的延遲一直是互聯(lián)網(wǎng)面臨的難題,沒(méi)有一個(gè)很好的辦法來(lái)解決。但是隨著以下三項(xiàng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得改善用戶的互聯(lián)網(wǎng)體驗(yàn)成為了現(xiàn)實(shí):企業(yè)可以從用戶端提取細(xì)顆粒信息;軟件定義的迅速發(fā)展;大數(shù)據(jù)的實(shí)時(shí)技術(shù)發(fā)展。
Co-Founder and CEO of Conviva 張輝
以下為演講實(shí)錄:
張輝表示用戶的體驗(yàn)是互聯(lián)網(wǎng)最重要的指標(biāo)。網(wǎng)絡(luò)的延遲一直是互聯(lián)網(wǎng)面臨的難題,沒(méi)有一個(gè)很好的辦法來(lái)解決。但是隨著以下三項(xiàng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得改善用戶的互聯(lián)網(wǎng)體驗(yàn)成為了現(xiàn)實(shí):企業(yè)可以從用戶端提取細(xì)顆粒信息;軟件定義的迅速發(fā)展;大數(shù)據(jù)的實(shí)時(shí)技術(shù)發(fā)展。
今天是一個(gè)大數(shù)據(jù)的會(huì)議,我自己是做系統(tǒng)做研究的,講的就是大數(shù)據(jù)的應(yīng)用。我今天講我們?cè)趺从么髷?shù)據(jù)解決互聯(lián)網(wǎng)行業(yè)里非常難的一個(gè)問(wèn)題。問(wèn)題是什么?卡斷率!我們看視頻都遇見過(guò)卡斷的時(shí)候,這時(shí)會(huì)非常不爽。尤其是現(xiàn)在,我們的注意力變得越來(lái)越差,注意力已經(jīng)開始變成最稀缺的資源,我們?cè)谑褂酶鞣N服務(wù)包括網(wǎng)上服務(wù),遇見卡斷的時(shí)候一般都會(huì)有一個(gè)注意力的轉(zhuǎn)移,本來(lái)你想專心做一件事情這件事情做不了,用戶的體驗(yàn)度受到非常大的影響。
所以從這個(gè)角度來(lái)講用戶的體驗(yàn)是互聯(lián)網(wǎng)服務(wù)最重要的一個(gè)指標(biāo),我為什么提高用戶體驗(yàn),用戶體驗(yàn)和我們說(shuō)的性能有什么不一樣,我們說(shuō)CPU有多快,網(wǎng)絡(luò)有多少曝光率,延遲有多少,這些東西都是測(cè)試單個(gè)性能。你想一下包括你上Expenence,經(jīng)過(guò)無(wú)數(shù)服務(wù)器、交換機(jī),中間不管哪個(gè)出了問(wèn)題對(duì)用戶來(lái)講都是不知道的,用戶唯一知道的事情是一個(gè)非常好的用戶體驗(yàn),或者是不好的用戶體驗(yàn)。我們做系統(tǒng)的人怎么把端對(duì)端的用戶質(zhì)量做好。
在網(wǎng)絡(luò)里面當(dāng)時(shí)有一個(gè)非常重要的問(wèn)題,網(wǎng)絡(luò)不是一個(gè)人的控制,比如百度擁有自己的服務(wù)器,但是網(wǎng)絡(luò)是中國(guó)電信的網(wǎng)絡(luò),也許是主干網(wǎng)絡(luò)是中國(guó)電信網(wǎng)絡(luò),接入網(wǎng)又是另外一個(gè)服務(wù)商的接入網(wǎng),在多種端對(duì)端服務(wù)商的情況下,每個(gè)服務(wù)商做這個(gè)服務(wù),同時(shí)他們互相不協(xié)調(diào),怎么提高最好的用戶體驗(yàn)。這是網(wǎng)絡(luò)界老大難的問(wèn)題,這個(gè)經(jīng)過(guò)多年的研究,隨著以下三項(xiàng)技術(shù)的發(fā)展終于有個(gè)解決辦法。
第一個(gè)我們現(xiàn)在能夠從用戶端做非常細(xì)顆粒的用戶體驗(yàn)的采集,而且是全方位的采集這是第一件事情,這是原來(lái)從來(lái)沒(méi)有的能力。第二個(gè)用軟件定義的控制結(jié)構(gòu),這個(gè)是網(wǎng)絡(luò)界一個(gè)非常大的創(chuàng)新,這個(gè)我一會(huì)兒再稍微講一下。第三個(gè)就是大數(shù)據(jù)的技術(shù)。當(dāng)然包括一個(gè)是平臺(tái)的技術(shù),一個(gè)是算法的技術(shù)。
我先來(lái)講第一點(diǎn),我們知道現(xiàn)在從網(wǎng)上看視頻,或者下載一個(gè)APP看視頻,這個(gè)過(guò)程中我們?yōu)g覽的視頻,下載的視頻都會(huì)被收集起來(lái)。服務(wù)商可以通過(guò)在軟件植入代碼來(lái)實(shí)現(xiàn)。這樣就可以獲得用戶的一些基礎(chǔ)信息。
第二個(gè)關(guān)鍵技術(shù)就是說(shuō)軟件定義,網(wǎng)絡(luò)中間任何一個(gè)控件,包括每一個(gè)交互機(jī),傳輸?shù)脑O(shè)備都會(huì)出問(wèn)題,怎么做這個(gè),我們引進(jìn)冗余,每個(gè)機(jī)群可以死掉但是整個(gè)服務(wù)不能死掉。同樣的概念用在網(wǎng)絡(luò)上,網(wǎng)絡(luò)上有多個(gè)路徑來(lái)交換,這是一個(gè)冗余,還有不同的碼流率這是又一個(gè)變化,變化越多你可以選擇這個(gè)最好的變化。如果你把其他的參數(shù)加進(jìn)去,不光是說(shuō)卡斷率,中間可能有失敗率,也許碼流率不夠高,你把這些加進(jìn)去,不同參數(shù)質(zhì)量好壞對(duì)于一個(gè)服務(wù)器來(lái)講在不同時(shí)間是不一樣的,所以沒(méi)有一個(gè)固定路徑是最好,而且沒(méi)有一個(gè)固定的指標(biāo)是一個(gè)路徑比另外一個(gè)路徑絕對(duì)好。
第三個(gè)關(guān)鍵技術(shù),就是說(shuō)實(shí)時(shí)的大數(shù)據(jù)技術(shù)和算法,這個(gè)算法就是概念上是一個(gè)很簡(jiǎn)單的概念,做起來(lái)稍微復(fù)雜一點(diǎn)。概念是什么概念?如果我們把每一個(gè)網(wǎng)上的視頻都在采樣,就像我們?cè)诒本┟枯v車上都裝一個(gè)攝象頭,知道他車速是什么情況?我車越多,但是我路上沒(méi)有攝象頭,車越多我的路況了解就越多,我要知道北京所有車的速度怎么樣,我就基本上知道北京路況是怎么樣。但是卡車和出租車走的速度是不一樣,也許你騎摩托車和坐卡車的速度不一樣。細(xì)分起來(lái)找一個(gè)概念是這樣的,比如說(shuō)這個(gè)會(huì)場(chǎng)里面大家看一個(gè)直播的視頻,現(xiàn)在有一個(gè)新的人來(lái)看,用哪一條新的路徑去選?算法我就不深入去講了,但是我想說(shuō)一兩個(gè),你觀察數(shù)量越多,觀察顆粒越細(xì),采集數(shù)量點(diǎn)越大,你最后達(dá)到預(yù)測(cè)的效果越好。
怎么知道這個(gè)東西做得好還是不好,首先就是說(shuō)什么叫做好的用戶體驗(yàn)?好的用戶體驗(yàn)有各種各樣的參數(shù)比較。其中一個(gè)可以做的更復(fù)雜一些,我們做一些比較簡(jiǎn)單的比較,從兩維比較,橫軸是平均碼流率,縱軸就是流暢率,100%流暢率最好,60%流暢率不好,你往右上角去最好,每一點(diǎn)這里表示一個(gè)網(wǎng)站我們通過(guò)實(shí)時(shí)的數(shù)據(jù),從我們實(shí)際顧客數(shù)據(jù)中采集的數(shù)據(jù),你看現(xiàn)在視頻網(wǎng)站有的質(zhì)量非常糟糕,有的質(zhì)量稍微好一點(diǎn)。原來(lái)假設(shè)一個(gè)視頻網(wǎng)站它平均碼流率在1.8兆,有80%碼流是流暢的,20%是不流暢的,用了這個(gè)算法他平均碼流率漲到2.5兆,差不多90%以上的流變成流暢的,當(dāng)然還沒(méi)有解決100%的問(wèn)題,這是一個(gè)提高。
這是我們跟央視國(guó)際做的一個(gè)項(xiàng)目,央視國(guó)際中央電視臺(tái)的網(wǎng)站,海外所有國(guó)家都可以看央視臺(tái)的內(nèi)容,五大州180多個(gè)國(guó)家都可以看到,你打開視頻就可以看到我們黨的聲音,而且要流暢要高清,這是以前的卡斷率還有平均碼流率、平均時(shí)長(zhǎng),用戶看的時(shí)長(zhǎng),這是引入我們系統(tǒng)之前,引入系統(tǒng)之后,卡斷率降低,平均碼流率提高,平均時(shí)長(zhǎng)的提高。
什么叫做用戶體驗(yàn)?這件事情從研究角度從科學(xué)角度這是非常難的問(wèn)題。這個(gè)本身可以做很好玩的研究,我們做深度研究,怎么在大規(guī)模取樣當(dāng)中研究人的用戶體驗(yàn)。我們總得來(lái)講一些性能指標(biāo)的提高是對(duì)用戶體驗(yàn)是成正比的?;氐筋^我來(lái)提這樣一個(gè)問(wèn)題,我們一般做一個(gè)軟件,比如說(shuō)我做一個(gè)TCP的協(xié)議,1988年軟件工程做的,做一些模式有一些參數(shù)放在里面,不管是10兆網(wǎng)上走傳輸文件,還是在移動(dòng)網(wǎng)上看新聞同樣TCP同樣的參數(shù),而且五年前做的和今天是做的一樣的,怎么改變這個(gè)現(xiàn)實(shí)?我們拿了一臺(tái)非常先進(jìn)的下一代的互聯(lián)網(wǎng)電視里面做視頻的播放器。橫軸說(shuō)這是超高清,內(nèi)容最高清情況下可以達(dá)到9兆,這是它平均的阻塞率。你看到在非常高碼流的情況下它性能非常不好,因?yàn)樗枞史浅8?,而且同樣的情況下看的時(shí)長(zhǎng)和碼流率,高清情況下反而看的時(shí)間短,為什么?因?yàn)槟阕枞侍吡?。為什么?huì)出現(xiàn)這個(gè)現(xiàn)象?因?yàn)槟阋鲕浖@個(gè)人他在設(shè)計(jì)電腦的時(shí)候從來(lái)沒(méi)有9兆的內(nèi)容,他從來(lái)沒(méi)有測(cè)過(guò)這個(gè)東西,他設(shè)計(jì)點(diǎn)也許就在兩兆三兆情況下。但是你電視放出去情況就變了,怎么解決這個(gè)問(wèn)題?我們知道云計(jì)算是一個(gè)好東西,云計(jì)算好東西在哪里?它是天天在變的,它隨著實(shí)際情況變化做變化,而且可以個(gè)性化。剛才我提到用一個(gè)控制的網(wǎng)絡(luò)通過(guò)實(shí)時(shí)的反饋來(lái)調(diào)整參數(shù),就可以解決這類似的問(wèn)題。因?yàn)樵谖也シ牌魃险{(diào)的參數(shù),在這里調(diào)的參數(shù)就和另外一個(gè)播放器明天調(diào)的參數(shù)不一樣,這是能夠達(dá)到一個(gè)效果。
我知道各位都是來(lái)參加大數(shù)據(jù)的會(huì)議,我稍微提一下網(wǎng)絡(luò)上非常重要的概念,軟件定義的網(wǎng)絡(luò)。這件事情被認(rèn)為是革命化的東西,我回頭講所謂革命化在哪里。但是先說(shuō)一下像所有市場(chǎng)預(yù)測(cè)說(shuō)2018年350個(gè)億的市場(chǎng)份額,主要是為了數(shù)據(jù)中心質(zhì)量?jī)?yōu)化來(lái)做的。所謂數(shù)據(jù)中心一個(gè)網(wǎng)什么叫好什么叫壞?高帶寬、低延遲,但是回過(guò)頭用戶質(zhì)量是最重要的,我上阿里巴巴網(wǎng)上買一個(gè)東西,上淘寶網(wǎng)去買東西,我不知道網(wǎng)絡(luò)出問(wèn)題了,還是數(shù)據(jù)中心出問(wèn)題了,我們?cè)趺幢U嫌脩趔w驗(yàn),你要想控制用戶體驗(yàn),我們第一個(gè)事情是可觀測(cè),你控制用戶體驗(yàn)就必須關(guān)注用戶體驗(yàn),用戶體驗(yàn)只能在終端和用戶層軟件才能觀測(cè),怎么把這個(gè)數(shù)據(jù)用于到控制每一個(gè)端對(duì)端上面,這需要體系結(jié)構(gòu)的改變。我想畫一張圖說(shuō)一下這個(gè)革命,我在課堂里講網(wǎng)絡(luò),第一個(gè)詞就是說(shuō)協(xié)議,協(xié)議是一些分布式的算法。每一個(gè)交換機(jī)互相之間傳信息,然后實(shí)現(xiàn)一個(gè)分布式的算法。這個(gè)分布式的算法算一端走到另一端用哪一端,我們整個(gè)互聯(lián)網(wǎng)把所有計(jì)算機(jī)加在一起幾萬(wàn)臺(tái),這樣一個(gè)問(wèn)題困擾了我們整個(gè)業(yè)界30年,到今天為止我們說(shuō)互聯(lián)網(wǎng)的質(zhì)量很差,我們要跟同行一談,說(shuō)你們網(wǎng)絡(luò)多大,我們說(shuō)幾萬(wàn)到幾十萬(wàn),他說(shuō)這么小的網(wǎng)怎么有這么大的問(wèn)題,因?yàn)槭且粋€(gè)分布式的網(wǎng)絡(luò),算法是分布式的算法。分布式的算法是非常難引入智能,智能是一個(gè)大詞。我們說(shuō)技術(shù)一點(diǎn)叫做優(yōu)化。
SDN概念是什么通過(guò)一個(gè)中央控制器來(lái)對(duì)全網(wǎng)進(jìn)行優(yōu)化,全網(wǎng)實(shí)時(shí)采集你現(xiàn)有網(wǎng)絡(luò)情況和拓?fù)淝闆r,然后中央計(jì)算所有的路徑,馬上非常復(fù)雜的優(yōu)化算法就可以實(shí)現(xiàn)了這是SDN TO E-SDI,實(shí)現(xiàn)這個(gè)有很多難題,因?yàn)橹醒肟刂破麟x交換機(jī)有一定距離,中間路徑可以斷,怎么做到非常穩(wěn)定,這些都是需要解決的問(wèn)題?,F(xiàn)在局限在第二層,局限在數(shù)據(jù)中心,我們認(rèn)為下一個(gè)發(fā)展里程碑就是端對(duì)端的控制,而不是在網(wǎng)絡(luò)內(nèi)部二層和三層的控制。首先優(yōu)化用戶體驗(yàn),優(yōu)化用戶體驗(yàn)最重要一部分就是采集用戶體驗(yàn)的數(shù)據(jù),把用戶體驗(yàn)的數(shù)據(jù)用于做一個(gè)反饋的控制,控制每一個(gè)你如果從端對(duì)端角度來(lái)做,也可以控制內(nèi)部的網(wǎng)絡(luò),這是一個(gè)大數(shù)據(jù)可能對(duì)網(wǎng)絡(luò)結(jié)構(gòu)一個(gè)最重要的貢獻(xiàn)。
第二我們都強(qiáng)調(diào)BIG DATA,從控制角度來(lái)講這個(gè)大數(shù)據(jù)必須走到實(shí)時(shí),沒(méi)有實(shí)時(shí)就沒(méi)有控制,沒(méi)有實(shí)時(shí)只能做分析。
第三是Application,不光要知道哪個(gè)應(yīng)用,這是視頻還是語(yǔ)音還是傳輸,最重要你怎么優(yōu)化用戶體驗(yàn)。
第四從技術(shù)趨勢(shì)來(lái)講大家做很多工作做分析,找到一些對(duì)人做決策有用的信息,我們要做到自動(dòng)的控制, 除了分析還有控制,我管這個(gè)結(jié)構(gòu)叫做Expenence-Centric Software Defined infrastructure。
我總結(jié)一下,第一件事情我們隨著互聯(lián)網(wǎng)時(shí)代最稀缺的資源是人的注意力,所以用戶體驗(yàn)從服務(wù)來(lái)講是最重要的事情。我們做了質(zhì)量控制在互聯(lián)網(wǎng)上做了20多年,我們有很多心得,他山之石可以攻玉,他山之石從哪來(lái)?第一要有數(shù)據(jù),這個(gè)數(shù)據(jù)必須是應(yīng)用層用戶體驗(yàn)層,第二要有一個(gè)網(wǎng)絡(luò)的架構(gòu)用這個(gè)數(shù)據(jù)控制。實(shí)現(xiàn)角度來(lái)講,在控制層的實(shí)現(xiàn)是通過(guò)實(shí)時(shí)大數(shù)據(jù)的系統(tǒng)加算法實(shí)現(xiàn)。下一步做的事情不光是以網(wǎng)絡(luò)為中心而是以用戶體驗(yàn)為中心。