恐怕這些都是開發(fā)者們迫切想要「一探究竟」的問(wèn)題。
對(duì)此,UCloud 特別來(lái)到深圳舉辦了主題為「抱緊云+AI 的未來(lái),你準(zhǔn)備好了嗎?」的沙龍活動(dòng),重點(diǎn)聚焦云計(jì)算助力 AI 發(fā)展的諸多方面,結(jié)合具體實(shí)踐為開發(fā)者們答疑解惑!
沙龍現(xiàn)場(chǎng)座無(wú)虛席
會(huì)上,UCloud LabU 深度學(xué)習(xí)開發(fā)工程師范融為與會(huì)開發(fā)者帶來(lái)了有關(guān)「AI 公有云平臺(tái)實(shí)踐」的主題分享。
當(dāng)談及建設(shè) AI 平臺(tái)的必要性時(shí),范融表示,如今 AI 技術(shù)在適應(yīng)不同場(chǎng)景時(shí)所呈現(xiàn)的算法形式多種多樣,為了實(shí)現(xiàn)更多場(chǎng)景的兼容性,高效的平臺(tái)建設(shè)對(duì)廣大開發(fā)者來(lái)說(shuō)必不可少。
更重要的一點(diǎn),在整個(gè)研發(fā)周期中,面對(duì)源于 AI 的諸多問(wèn)題,無(wú)論是企業(yè)還是開發(fā)者自然都要選擇可以兼容更多深度學(xué)習(xí)算法以及框架,并保證存儲(chǔ)、網(wǎng)絡(luò)性能優(yōu)勢(shì)解決方案。一個(gè)優(yōu)質(zhì)的平臺(tái)恰好可以達(dá)到靈活的橫向擴(kuò)展能力以及對(duì)業(yè)務(wù)規(guī)模的支持,另外在彈性、容災(zāi)簡(jiǎn)單方便的代碼遷移等方面更是表現(xiàn)出色,如此看來(lái) AI 平臺(tái)建設(shè)可謂「功在千秋」了。
另外,范融在分享中還詳細(xì)介紹了 UCloud 關(guān)于 AI 基礎(chǔ)平臺(tái)架構(gòu)的「那些事兒」。在基礎(chǔ)架構(gòu)中,為了可以提供兼容性更好的運(yùn)行環(huán)境,采用了封裝、預(yù)裝、自由、可重用、兼容性等多種技術(shù)方式。
「所謂的封裝性,就是在運(yùn)行具體任務(wù)時(shí),并不用擔(dān)心會(huì)對(duì)自身的安裝環(huán)境產(chǎn)生干擾;預(yù)裝呢?顧名思義,就是我們針對(duì)用戶經(jīng)常使用的深度學(xué)習(xí)框架以及科學(xué)計(jì)算包做了預(yù)裝,這樣在本地使用的話直接下載就可以,非常方便;另外一點(diǎn)就是自由,雖然已經(jīng)安裝了大部分科技計(jì)算包的用戶可以做到開箱自用,但不排除有的用戶涉及到的領(lǐng)域比較冷門,這樣一來(lái)完全可以依照需要自行下載,正常運(yùn)行相關(guān)安裝包完全沒有問(wèn)題;還有一點(diǎn)是可重用,這在開源鏡像數(shù)據(jù)庫(kù)領(lǐng)域表現(xiàn)明顯,可以做到為開發(fā)者們大量節(jié)省時(shí)間等。」她詳細(xì)補(bǔ)充道。
當(dāng)然,整體架構(gòu)在靈活接入數(shù)據(jù)源、彈性資源調(diào)節(jié)等方面也有顯著的優(yōu)勢(shì)。
UCloud LabU 深度學(xué)習(xí)開發(fā)工程師 范融
據(jù)悉,范融所在的團(tuán)隊(duì)目前已經(jīng)推出 AI 在線服務(wù)、AI 訓(xùn)練服務(wù)兩個(gè)產(chǎn)品。其中 AI 在線服務(wù) PaaS 平臺(tái)在 2016-2017 年可信云大會(huì)上獲得了 AI 行業(yè)云服務(wù)獎(jiǎng);AI 訓(xùn)練服務(wù)全程支持了 2017 年 AI Challenger 大賽的順利開展,在該領(lǐng)域表現(xiàn)十分出色。
作為 UCloud 互聯(lián)網(wǎng)事業(yè)部解決方案架構(gòu)師,徐強(qiáng)長(zhǎng)期從事大數(shù)據(jù)和 APM 領(lǐng)域工作,尤其對(duì)大數(shù)據(jù)行為分析和應(yīng)用性能監(jiān)控領(lǐng)域有深刻理解和豐富經(jīng)驗(yàn),這次沙龍也受邀作為第二位分享嘉賓并進(jìn)行了主題為「云計(jì)算助力人工智能快速搭建底層資源」的演講。
「如今 AI 簡(jiǎn)直太火爆了,但對(duì)于 AI 系統(tǒng)建設(shè),大家并不是太清晰。從我們自身出發(fā),通常著重考慮三個(gè)方面:首先是兼容性,這一點(diǎn)在圖像類以及語(yǔ)音類表現(xiàn)突出,AI 算法與其兼容主要包括切合性;另外會(huì)十分注重平臺(tái)擴(kuò)展性,因?yàn)檫@涉及到訓(xùn)練數(shù)據(jù)成倍增長(zhǎng)的情況;此外就是分布式化的特點(diǎn),實(shí)踐證明如果采用線下單機(jī)模式會(huì)十分影響效率?!剐鞆?qiáng)表示。
如果說(shuō) AI 系統(tǒng)建設(shè)是第一步的話,那確保 AI「踏實(shí)」落地究竟有哪些解決思路呢?
他認(rèn)為,以 UCloud 自身出發(fā),首先會(huì)涉及到一個(gè)數(shù)據(jù)共享的平臺(tái)。眾所周知,再高深的算法都需要大量數(shù)據(jù)的支持,怎樣獲取數(shù)據(jù)實(shí)在是個(gè)問(wèn)題。如今是否有一種模式可以最大能力整合數(shù)據(jù)用于訓(xùn)練呢?安全屋的相關(guān)產(chǎn)品或許會(huì)起到一定作用。
此外,在環(huán)境分離、底層資源共享后期擴(kuò)展性以及等方面,徐強(qiáng)強(qiáng)調(diào),安全屋產(chǎn)品就是在保證數(shù)據(jù)所有權(quán)不變的情況下完成最大可能性的數(shù)據(jù)流通。
UCloud 解決方案架構(gòu)師 徐強(qiáng)
說(shuō)到代表性的案例,徐強(qiáng)提及了 2017 年 AI Challenger 大賽。賽事規(guī)模自不用多說(shuō),就連科研數(shù)據(jù)也是最大數(shù)量級(jí)的,據(jù)了解有 1000 萬(wàn)的中英文翻譯數(shù)據(jù),30 萬(wàn)的圖像數(shù)據(jù)。
由于數(shù)據(jù)量龐大,主辦方選擇 UCloud 作為 GPU 提供方,對(duì)此提供了有關(guān) AI 的整體解決方案。
「在底層提供了強(qiáng)大的算力資源、中間布置了 AI 在線服務(wù)以及 AI 訓(xùn)練服務(wù)、然后就是安全屋。將龐大的數(shù)據(jù)放入安全屋中,然后根據(jù)需要分發(fā)給不同的選手;選手同時(shí)將自己的算法上傳到安全屋中,基于分發(fā)的數(shù)據(jù)做訓(xùn)練,只要計(jì)算出模型就可以將數(shù)據(jù)導(dǎo)入,十分安全?!剐鞆?qiáng)描述道。
總結(jié)來(lái)說(shuō),UCloud 一方面提供了底層的計(jì)算方法以及環(huán)境的自動(dòng)部署,方便直接上傳到 AI 系統(tǒng);另一方面在收費(fèi)方面也表現(xiàn)的更加人性化,按需收費(fèi)只在執(zhí)行過(guò)程中,其他時(shí)間不涉及費(fèi)用問(wèn)題。
此外,談及數(shù)據(jù)安全性,「安全屋底層都是基于公有云平臺(tái),更重要的一點(diǎn),我們采用的加密技術(shù)是基于區(qū)塊鏈的不可篡改性,并同時(shí)增加了審計(jì)機(jī)制來(lái)保障安全?!顾a(bǔ)充道。
現(xiàn)如今文檔資料的內(nèi)容自動(dòng)化處理是人工智能技術(shù)落地的關(guān)鍵應(yīng)用之一。
作為復(fù)旦大學(xué)計(jì)算機(jī)軟件與理論的碩士,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人張健曾在盛大創(chuàng)新院負(fù)責(zé)相關(guān)推薦模塊,在文學(xué)數(shù)據(jù)中心肩負(fù)任務(wù)調(diào)度平臺(tái)系統(tǒng)和集群維護(hù)管理、開發(fā)智能審核系統(tǒng)等相關(guān)工作。
達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 張健
在有關(guān) NLP 的知識(shí)以及實(shí)踐的分享中,他提到,其實(shí)電腦理解的文本與人理解的文本會(huì)有一些共同之處,通常也是從三個(gè)等級(jí)來(lái)體會(huì)。例如,對(duì)文本進(jìn)行字詞分析;再在這個(gè)基礎(chǔ)上做一些段落分析,涉及語(yǔ)法關(guān)系、上下文的糾錯(cuò)等;再上層就是篇章級(jí)分析,可以達(dá)到文本相似度、組織模型、分類模型等結(jié)果。
但 NLP 實(shí)踐中最重要的還是解決如何將機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)高效應(yīng)用在文本處理中。
對(duì)此張健表示,深度學(xué)習(xí)的基礎(chǔ)結(jié)構(gòu)其實(shí)就是一個(gè)基本的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)并沒有想象的那么復(fù)雜??梢岳斫鉃槭亲罨旧窠?jīng)源結(jié)構(gòu),會(huì)接受 S1、S2 輸出,實(shí)現(xiàn)很簡(jiǎn)單分類的功能,只是需要滿足一個(gè)很復(fù)雜的場(chǎng)景需求罷了。
此外深度學(xué)習(xí)無(wú)法規(guī)避基本結(jié)構(gòu)的問(wèn)題,也就是 RNN 和 LSTM?!肝覀?cè)诶斫庹Z(yǔ)言的時(shí)候,其實(shí)是一個(gè)信息流,也是一個(gè)序列信息,會(huì)像 S0、S1、S2。如果講一個(gè)字,當(dāng)前時(shí)刻就可以把之前時(shí)刻的這種字詞信息收納進(jìn)來(lái)并作為前項(xiàng)的輸入,再與當(dāng)前的字詞結(jié)合后輸出;但是 LSTM 除了具備這樣一個(gè)結(jié)構(gòu),還增加了一個(gè)優(yōu)點(diǎn),就是人們?cè)谥v話的過(guò)程中,不可避免的是上下文環(huán)境中有些字詞重要,而有些則不那么重要,LSTM 會(huì)對(duì)之前的信息進(jìn)行有選擇通過(guò)或者丟棄?!顾麖?qiáng)調(diào)。
精彩的現(xiàn)場(chǎng)互動(dòng)
總結(jié)來(lái)看,深度學(xué)習(xí)用于文本挖掘的確顯示了很多優(yōu)點(diǎn),例如可以使用大量無(wú)監(jiān)督的數(shù)據(jù)提高能力;端到端的過(guò)程讓文本輸入、任務(wù)訓(xùn)練再到輸出的環(huán)節(jié)并不需要做很多處理,更重要的是能夠克服傳統(tǒng)模型的缺點(diǎn)。
但張健提出,這種方式并不是完全沒有缺點(diǎn)的,例如在小數(shù)據(jù)量的前提下效果不一定好,需要根據(jù)場(chǎng)景嚴(yán)格挑選適合的模型;另外調(diào)參工作量有時(shí)不亞于特征工程,甚至?xí)拗撇糠謶?yīng)用。
此外,在現(xiàn)場(chǎng)分享時(shí),張健還為與會(huì)開發(fā)者們提供了實(shí)踐經(jīng)驗(yàn)的小貼士來(lái)參考。
首先在業(yè)務(wù)場(chǎng)景層面,用戶需要盡可能理解數(shù)據(jù),分析問(wèn)題本質(zhì)并選擇合適的模型;在使用的初始階段,可以選擇傳統(tǒng)機(jī)器學(xué)習(xí)模型作為嘗試,通過(guò)不斷深化針對(duì)數(shù)據(jù)的理解來(lái)解決相關(guān)問(wèn)題;最后就是還需要在不斷的實(shí)踐中迭代經(jīng)驗(yàn)解決問(wèn)題。
分享接近尾聲,與會(huì)開發(fā)者還提出了「在 NLP 處理的過(guò)程中如果遇到長(zhǎng)文本如何處理」的問(wèn)題。
關(guān)于這個(gè)問(wèn)題,張健回答道,長(zhǎng)文本在直接只用 NLP 處理得到的效果確實(shí)不盡如人意。但是可以考慮使用 CNN 的方式來(lái)實(shí)現(xiàn)分類目標(biāo),STM、CNN 做底層的表示,在上層構(gòu)建一些 CNN,這樣效果會(huì)更好很多。
精彩分享仍在繼續(xù),現(xiàn)場(chǎng)氣氛始終火熱不減。
開發(fā)者們熱情不減
當(dāng)前,AutoML 是人工智能發(fā)展的一個(gè)重要方向,受到 Google,F(xiàn)acebook 等諸多公司的重視,近期在 AutoML 領(lǐng)域,特別是深度神經(jīng)網(wǎng)絡(luò)模型搜索也呈現(xiàn)了很多突破性的進(jìn)展。
探智立方 CTO 錢廣銳
在「AutoML 人工智能自動(dòng)化模型設(shè)計(jì)與進(jìn)化算法實(shí)現(xiàn)」的分享中,錢廣銳表示,在當(dāng)前的實(shí)際場(chǎng)景中的確存在很多情況是單一模型并不能完全適應(yīng)的,復(fù)合型模型在一些場(chǎng)景中特別需要。人工智能模型的設(shè)計(jì)是一個(gè)復(fù)雜的工作,要設(shè)計(jì)的小、準(zhǔn)、快更是復(fù)雜,對(duì)此探智立方在該領(lǐng)域做了很多探索。
「所有的框架以及算法是我們從大概年初剛剛開始實(shí)踐的,這樣一個(gè)人工智能模型自動(dòng)設(shè)計(jì)平臺(tái)被稱為達(dá)爾文 ML。真正的希望就是能夠?qū)嵺`產(chǎn)品化的工作,用戶只要數(shù)據(jù)輸入,不需要做任何之前的預(yù)設(shè)假定就可以完成模型建設(shè)。」他說(shuō)。
此外探智立方從數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、生產(chǎn)對(duì)接為達(dá)爾文系統(tǒng)提供了整套「配置」,所以在設(shè)計(jì)生產(chǎn)平臺(tái)的同時(shí)也設(shè)計(jì)了一個(gè)推理平臺(tái),確保流程順暢。
與會(huì)開發(fā)者們認(rèn)真傾聽
例如在工業(yè)制造方面,整個(gè)實(shí)踐過(guò)程中有 5 萬(wàn)張照片,采取 200×200 的分類,錢廣銳將其放到新平臺(tái)中去,準(zhǔn)確率可以達(dá)到 75% 左右,其中并沒有做復(fù)雜建模處理的工作,這個(gè)案例可以發(fā)現(xiàn),達(dá)爾文設(shè)計(jì)出來(lái)的模型特別小,準(zhǔn)確率特別高。
無(wú)論是人工智能發(fā)展還是現(xiàn)有的一些場(chǎng)景中,很多場(chǎng)景模型的設(shè)計(jì)不只是在云端,由于達(dá)爾文設(shè)計(jì)出的模型比較小,錢廣銳也希望未來(lái)可以在手機(jī)端快速識(shí)別票據(jù)等。除了幫助企業(yè)應(yīng)用落地,如何能在各個(gè)場(chǎng)景,例如智能制造、攝象頭等統(tǒng)統(tǒng)實(shí)現(xiàn)也是很重要的目標(biāo)。
盡管UCan下午茶深圳站活動(dòng)有關(guān)云計(jì)算與AI的精彩分享暫時(shí)先告一段落了,但關(guān)于“云+AI”的技術(shù)探討依舊在火熱進(jìn)行中,點(diǎn)擊“立即報(bào)名”關(guān)注UCan下午茶后續(xù)的系列活動(dòng)。