為什么深度學(xué)習(xí)會是計算機的“殺手級應(yīng)用”? IBM是怎么找到分布式計算來加快大數(shù)據(jù)人工智能工作負(fù)載處理速度的?
總的來說,這聽起來足夠簡單:你有一臺大型快速服務(wù)器在處理人工智能相關(guān)的大數(shù)據(jù)工作負(fù)載。然后需求變了,更多數(shù)據(jù)需要添加進(jìn)來才能在一定時限內(nèi)完成任務(wù)。邏輯上講,你需要做的,就是添加更多的處理能力而已。
然而,就像流行表情包里說的一樣:“臣妾做不到啊!”
沒錯,直到今天,添加更多的服務(wù)器是解決不了這個問題的。迄今為止的深度學(xué)習(xí)分析系統(tǒng),都只能運行在單臺服務(wù)器上;用例僅僅是不能通過添加更多服務(wù)器來擴展而已,這背后有些深層次的原因。
但是,現(xiàn)在,這一切都成為了歷史。8月8日,IBM宣稱,已找到新的分布式深度學(xué)習(xí)軟件開發(fā)路線,不久之后深度學(xué)習(xí)負(fù)載分布式處理不再是夢。這很有可能是至少最近10年來,人工智能計算領(lǐng)域里跨越最大的一步。
聯(lián)網(wǎng)服務(wù)器搞定AI任務(wù)聽起來簡單,但事實并非如此
僅僅能夠聯(lián)網(wǎng)一組服務(wù)器使之協(xié)調(diào)工作解決單個問題,IBM Research 就已然發(fā)現(xiàn)了讓大規(guī)模深度學(xué)習(xí)更為實際的里程碑:如IBM最初的結(jié)果中證明的,用數(shù)百萬張照片、圖片甚至醫(yī)學(xué)影像,以及通過增加速度和大幅提升圖像識別準(zhǔn)確率,來訓(xùn)練AI模型。
同樣是在8月8號,IBM發(fā)布了其 Power AI 軟件貝塔版,供認(rèn)知和AI開發(fā)者打造更準(zhǔn)確的AI模型,發(fā)展更好的預(yù)測。該軟件將有助于縮短AI模型訓(xùn)練時間,可從數(shù)天乃至數(shù)周,縮短至數(shù)小時。
到底是什么讓深度學(xué)習(xí)處理如此耗時?首先,數(shù)據(jù)量非常龐大,往往涉及很多GB或TB數(shù)據(jù)。其次,能夠梳理這些信息的軟件現(xiàn)在才針對這類工作負(fù)載進(jìn)行了優(yōu)化。
很多人現(xiàn)在都沒搞清楚的一件事是,深度學(xué)習(xí)與機器學(xué)習(xí)、人工智能和認(rèn)知智能到底哪里不一樣?
深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集
IBM高性能計算與數(shù)據(jù)分析認(rèn)知系統(tǒng)副總裁薩米特·古普塔稱:“深度學(xué)習(xí)被認(rèn)為是機器學(xué)習(xí)的一個子集,或者說一種特別的方法。”
我常舉的一個深度學(xué)習(xí)的例子是:我們在教小孩認(rèn)貓貓狗狗時,會給他們展示很多狗狗的圖片,然后有一天小孩子就會說“狗”了。但是小孩子并沒有認(rèn)清狗狗有4條腿和一條尾巴的事實,其他一些細(xì)節(jié)也沒認(rèn)識到;小孩子就是在實際整體感知一條狗狗。這與傳統(tǒng)計算機模型那種“如果……否則……”的條件邏輯迥然不同。深度學(xué)習(xí)試圖模仿這種整體認(rèn)知,所用方法就是所謂的神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)的問題在于,計算量太過龐大,高通信開銷一直是其最大的挑戰(zhàn)。
這就是計算機終結(jié)者,實實在在的“殺手App”。我們已經(jīng)在用GPU(圖形處理單元)加速器來加快深度學(xué)習(xí)訓(xùn)練了。我們所做的,就是向這些計算機模型饋送數(shù)百萬的圖片,但之后我們需要在帶強力GPU的計算機上訓(xùn)練它們,為記錄和理解這些圖像涉及的東西。
大多數(shù)深度學(xué)習(xí)框架可擴展到一臺服務(wù)器上的多個GPU,但不能延伸至多臺帶GPU的服務(wù)器。于是,我們的團隊編寫了軟件和算法,自動化并優(yōu)化了該超大復(fù)雜計算任務(wù)的并行計算,使之能跨數(shù)十臺服務(wù)器上的數(shù)百個GPU加速器并行執(zhí)行。這很難!
IBM發(fā)現(xiàn)“理想擴展”
IBM Research 提交了近乎理想的擴展方式。在64臺 IBM Power 系統(tǒng)的256個GPU上部署的開源Caffe深度學(xué)習(xí)框架中,其新分布式深度學(xué)習(xí)軟件,達(dá)到了歷史新低的通信量,以及95%的擴展效率。
IBM研究員Hillery Hunter開發(fā)的可驅(qū)動多個GPU的新軟件
上一個最佳擴展,是 Facebook AI Research 在Caffe2上執(zhí)行的訓(xùn)練中展現(xiàn)出來的89%,且其通信量更高。采用該軟件,IBM Research 在超大數(shù)據(jù)集(750萬張圖像)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),達(dá)到了33.8%的圖像識別準(zhǔn)確率新高。之前的記錄是微軟的29.8%。
IBM Research 分布式深度學(xué)習(xí)代碼的技術(shù)預(yù)覽,可從 IBM PowerAI 4.0 的TensorFlow版和Caffe版獲取。
在ResNet-101深度學(xué)習(xí)模型上,IBM用來自ImageNet-22K數(shù)據(jù)集的750萬圖片,以批處理大小5120的規(guī)模,證明了其分布式深度學(xué)習(xí)軟件的擴展能力。該團隊采用64臺 IBM Power 服務(wù)器集群,以總共256塊 NVIDIA P100 GPU 加速器,達(dá)到了88%的擴展效率,且只有非常低的通信開銷。
分布式深度學(xué)習(xí)前景廣大,可在很多領(lǐng)域形成突破,從消費者移動App體驗到醫(yī)療影像診斷。但大規(guī)模部署深度學(xué)習(xí)的準(zhǔn)確性和實用性上的進(jìn)展,卻受阻于大規(guī)模深度學(xué)習(xí)AI模型運行上的技術(shù)難題——訓(xùn)練時間以天計,甚至以周計。
分析師怎么說
Moor Insights & Strategy 總裁兼首席分析師派翠克·摩爾海德稱:“這是過去6個月里我所見過的深度學(xué)習(xí)行業(yè)較大突破之一。有趣的部分在于,這一突破來自IBM,而不是谷歌之類的Web巨頭,意味著企業(yè)可以通過OpenPOWER硬件和PowerAI軟件在內(nèi)部應(yīng)用,甚或通過云提供商Nimbix來采用該技術(shù)。
最令人震驚的,是添加擴展節(jié)點時的近線性擴展率,性能在90%到95%之間。最簡化的看待方式,就是橫向擴展的AI vs. 我們今天大多數(shù)人用的傳統(tǒng)向上擴展。性能的提高是數(shù)量級的。
技術(shù)咨詢公司 Enderle Group 總裁羅博·恩德勒稱,IBM此次發(fā)布的重要性在于,你可以用硬件擴展深度學(xué)習(xí)操作的性能。深度學(xué)習(xí)操作上一直都有可用GPU數(shù)量上的限制,IBM有效去除了這一限制,讓公司企業(yè)可以通過購買硬件,來換取完成操作所需的時間。
這是巨大的一步,尤其是在安全和欺詐防護之類的領(lǐng)域,因為這些領(lǐng)域的系統(tǒng)訓(xùn)練所需時長,往往是以天計,但破壞卻可在數(shù)分鐘內(nèi)就達(dá)到百萬級。因此,你部署的解決方案,應(yīng)能以更即時的方式,更合理地解決這一巨大的風(fēng)險暴露面。
IT行業(yè)分析公司Pund-IT首席分析師查爾斯·金稱,IBM的速度提升十分驚人。之前的紀(jì)錄保持者微軟的系統(tǒng)在10天內(nèi)完成了訓(xùn)練,達(dá)到了29.8%的準(zhǔn)確率。IBM的集群配合上該新的DDL庫,在7小時內(nèi)就訓(xùn)練完畢,準(zhǔn)確率高達(dá)33.8%。
另外,IBM的DDL庫及API,任何使用該公司 Power Systems 和 PowerAI V4.0 以上版本的用戶均可采用。結(jié)合對Caffe和 TensorFlow AI 框架的支持,IBM計劃讓該DDL庫和API對Torch和Chainer開放。
“總之,通過大體上清除深度學(xué)習(xí)訓(xùn)練瓶頸,斬落當(dāng)前性能領(lǐng)跑者,IBM的新DDL庫和API應(yīng)能使AI項目更具競爭力,更吸引公司企業(yè)和其他機構(gòu)組織。”