百度聯(lián)盟大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)負(fù)責(zé)人夏粉
光明網(wǎng)IT訊 “我在機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)超過10年了,今天主要跟大家分享一下,百度是通過什么技術(shù)來容納百億數(shù)據(jù)特征,并且讓學(xué)習(xí)效率提升千倍、讓模型分鐘更新、將模型訓(xùn)練算法速度提升十倍的。” 3月15日,百度聯(lián)盟大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)負(fù)責(zé)人夏粉在第48期百度技術(shù)沙龍現(xiàn)場(chǎng)上說。
機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中一個(gè)重要的方向,在現(xiàn)今大數(shù)據(jù)背景下,面向大數(shù)據(jù)量的機(jī)器學(xué)習(xí),通常需要做分布式的算法,來容納上億特征和數(shù)據(jù)。本期的百度技術(shù)沙龍,夏粉為大家分享了大規(guī)模機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方面的話題和研發(fā)成果。
百度聯(lián)盟大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)負(fù)責(zé)人夏粉說:“百度的大規(guī)模機(jī)器學(xué)習(xí)技術(shù)搭建了一個(gè)容納萬(wàn)億特征數(shù)據(jù)的、分鐘級(jí)別模型更新的、自動(dòng)高效深度學(xué)習(xí)的、高效訓(xùn)練的點(diǎn)擊率預(yù)估系統(tǒng)。”
首創(chuàng)領(lǐng)先算法,百度在大規(guī)模機(jī)器學(xué)習(xí)領(lǐng)域趕超谷歌
百度作為全球最大的中文搜索引擎,總是能給出最合適的技術(shù)來推動(dòng)整個(gè)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,在大數(shù)據(jù)量的機(jī)器學(xué)習(xí)方面也不例外。
在百度技術(shù)沙龍現(xiàn)場(chǎng),夏粉先是總結(jié)出了在廣告數(shù)據(jù)領(lǐng)域,大規(guī)模機(jī)器學(xué)習(xí)一般會(huì)遇到的四個(gè)問題:數(shù)據(jù)特征規(guī)模大、特征復(fù)雜度高、數(shù)據(jù)時(shí)效性高、模型訓(xùn)練頻繁。
面對(duì)這些問題,夏粉著重介紹了百度首創(chuàng)的五個(gè)技術(shù):SA算法、Fea-G算法、DANOVA算法、SOA算法以及Shooting算法。它們主要是數(shù)據(jù)和特征的過濾算法、深度特征學(xué)習(xí)算法等,極大的改善或簡(jiǎn)化了廣告數(shù)據(jù)的處理。
“這些技術(shù)讓百度走在世界前列,甚至比谷歌做的還要好,谷歌目前做的是二分類、并行化,處理百億特征,分鐘級(jí)別。這些,百度通過自己的創(chuàng)新也已達(dá)到,百度的技術(shù)可以容納百億數(shù)據(jù)特征,讓特征學(xué)習(xí)效率提升千倍,模型分鐘更新,訓(xùn)練速度提升十倍。”夏粉表示。
“這是第四次聽夏粉老師關(guān)于這個(gè)主題的演講了,每一次都有不同的收獲。”一位參會(huì)的聽眾說。
五大技術(shù)保障,用最少資源達(dá)到最好CTR準(zhǔn)確率
在百度技術(shù)沙龍上,夏粉首先提到的是SA算法。“SA算法可以把非人為的隨機(jī)點(diǎn)擊樣本過濾掉,這樣就可以進(jìn)行噪音刪除。我們通過對(duì)每個(gè)時(shí)間片斷波峰和波谷的觀察,知道隨機(jī)噪音的值在什么范圍,通過分值可以對(duì)噪音進(jìn)行過濾。”夏粉表示。
隨后,針對(duì)廣告數(shù)據(jù)使用one-hot編碼類別型的特征,夏粉介紹了他和百度的同事一起研究出的Fea-G算法。這個(gè)算法的核心是在模型訓(xùn)練之前,就知道幾個(gè)有效特征在哪兒,或者可以找到盡可能小的包含有效特征的集合。夏粉還特別強(qiáng)調(diào),谷歌和百度兩家公司都在這方面進(jìn)行了技術(shù)研究,不同的是,谷歌的技術(shù)是啟發(fā)性的,有可能會(huì)帶來?yè)p失。而百度的技術(shù)是用理論保障,經(jīng)過嚴(yán)格的推導(dǎo),它可以在效果無損的情況下,刪減的非常多的無效特征。
緊接著,夏粉介紹了全球首個(gè)直接應(yīng)用于大規(guī)模稀疏特征的深度特征學(xué)習(xí)算法——DANOVA算法。“DANOVA可以把特征學(xué)習(xí)的復(fù)雜度降低到一定程度,就整個(gè)上線效果來講,特征挖掘效率可以提升上千倍,使CTR,CPM顯著增長(zhǎng)。”夏粉此話一出,現(xiàn)場(chǎng)所有觀眾都對(duì)這一技術(shù)表現(xiàn)出了十足的興趣。
除此之外,夏粉還向大家介紹了SOA算法,這是一種穩(wěn)定的在線算法,它能使模型穩(wěn)定性更好。使訓(xùn)練架構(gòu)由批處理改為在線,從而節(jié)省資源80%以上,在大數(shù)據(jù)上實(shí)現(xiàn)分鐘級(jí)別的在線學(xué)習(xí)。“有這么一個(gè)好的算法,就能把模型時(shí)效性往前提高。”夏粉強(qiáng)調(diào)道。
最后,夏粉介紹了shooting算法,它針對(duì)廣告數(shù)據(jù)特征分布不均衡的特點(diǎn),改進(jìn)了算法迭代求解的方向和步長(zhǎng),在廣告數(shù)據(jù)上取得了比業(yè)界常用的大規(guī)模優(yōu)化算法LBFGS快十倍的性能。
技術(shù)絕對(duì)領(lǐng)先,百度首創(chuàng)算法受追捧
“我讀書一直讀的是機(jī)器學(xué)習(xí),希望能把機(jī)器學(xué)習(xí)的知識(shí)運(yùn)用到百度大數(shù)據(jù)上面。”夏粉表示。
這次的百度技術(shù)沙龍主題分享,夏粉主要是以CTR預(yù)估為例,講了大數(shù)據(jù)學(xué)習(xí)技術(shù)應(yīng)用計(jì)算廣告學(xué),盡可能用少的資源達(dá)到比較好的CTR準(zhǔn)確率。其實(shí)夏粉的這次分享信息量非常大,但是因?yàn)闀r(shí)間原因,他只有四十五分鐘的演講時(shí)間,所以在技術(shù)沙龍結(jié)束后,現(xiàn)場(chǎng)很多人都感到意猶未盡。在演講結(jié)束后,有近百名聽眾把夏粉團(tuán)團(tuán)圍住,向他請(qǐng)教大規(guī)模機(jī)器學(xué)習(xí)方面的問題。在他們看來,百度在大規(guī)模機(jī)器學(xué)習(xí)方面的技術(shù)已是國(guó)內(nèi)最領(lǐng)先的。
百度技術(shù)沙龍是百度每月組織的一項(xiàng)技術(shù)開放交流活動(dòng),至今已經(jīng)舉辦48期。致力于以“技術(shù)開放”的心態(tài),分享行業(yè)領(lǐng)先的技術(shù)理念和技術(shù)實(shí)踐。秉承“暢想、交流、爭(zhēng)鳴、聚會(huì)”的理念,為互聯(lián)網(wǎng)工程師、軟件開發(fā)者提供一個(gè)快速學(xué)習(xí)和不斷成長(zhǎng)的平臺(tái)。這種倡導(dǎo)變革與分享、踐行技術(shù)開放的行動(dòng)得到了業(yè)內(nèi)專家們的認(rèn)可,他們認(rèn)為,百度技術(shù)沙龍能夠有效推動(dòng)中國(guó)互聯(lián)網(wǎng)的技術(shù)發(fā)展與行業(yè)創(chuàng)新。