亚洲av高清一区二区三区,九九热线视频精品99,一级水蜜桃网站

IBM突破性分布式計算：搞定深度學(xué)習(xí)負(fù)載

責(zé)任編輯：editor005

作者：nana

2017-08-24 14:42:45

摘自：安全牛

為什么深度學(xué)習(xí)會是計算機的“殺手級應(yīng)用”? IBM是怎么找到分布式計算來加快大數(shù)據(jù)人工智能工作負(fù)載處理速度的?

總的來說，這聽起來足夠簡單：你有一臺大型快速服務(wù)器在處理人工智能相關(guān)的大數(shù)據(jù)工作負(fù)載。然后需求變了，更多數(shù)據(jù)需要添加進(jìn)來才能在一定時限內(nèi)完成任務(wù)。邏輯上講，你需要做的，就是添加更多的處理能力而已。

然而，就像流行表情包里說的一樣：“臣妾做不到啊!”

沒錯，直到今天，添加更多的服務(wù)器是解決不了這個問題的。迄今為止的深度學(xué)習(xí)分析系統(tǒng)，都只能運行在單臺服務(wù)器上;用例僅僅是不能通過添加更多服務(wù)器來擴展而已，這背后有些深層次的原因。

但是，現(xiàn)在，這一切都成為了歷史。8月8日，IBM宣稱，已找到新的分布式深度學(xué)習(xí)軟件開發(fā)路線，不久之后深度學(xué)習(xí)負(fù)載分布式處理不再是夢。這很有可能是至少最近10年來，人工智能計算領(lǐng)域里跨越最大的一步。

聯(lián)網(wǎng)服務(wù)器搞定AI任務(wù)聽起來簡單，但事實并非如此

僅僅能夠聯(lián)網(wǎng)一組服務(wù)器使之協(xié)調(diào)工作解決單個問題，IBM Research 就已然發(fā)現(xiàn)了讓大規(guī)模深度學(xué)習(xí)更為實際的里程碑：如IBM最初的結(jié)果中證明的，用數(shù)百萬張照片、圖片甚至醫(yī)學(xué)影像，以及通過增加速度和大幅提升圖像識別準(zhǔn)確率，來訓(xùn)練AI模型。

同樣是在8月8號，IBM發(fā)布了其 Power AI 軟件貝塔版，供認(rèn)知和AI開發(fā)者打造更準(zhǔn)確的AI模型，發(fā)展更好的預(yù)測。該軟件將有助于縮短AI模型訓(xùn)練時間，可從數(shù)天乃至數(shù)周，縮短至數(shù)小時。

到底是什么讓深度學(xué)習(xí)處理如此耗時?首先，數(shù)據(jù)量非常龐大，往往涉及很多GB或TB數(shù)據(jù)。其次，能夠梳理這些信息的軟件現(xiàn)在才針對這類工作負(fù)載進(jìn)行了優(yōu)化。

很多人現(xiàn)在都沒搞清楚的一件事是，深度學(xué)習(xí)與機器學(xué)習(xí)、人工智能和認(rèn)知智能到底哪里不一樣?

深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集

IBM高性能計算與數(shù)據(jù)分析認(rèn)知系統(tǒng)副總裁薩米特·古普塔稱：“深度學(xué)習(xí)被認(rèn)為是機器學(xué)習(xí)的一個子集，或者說一種特別的方法。”

我常舉的一個深度學(xué)習(xí)的例子是：我們在教小孩認(rèn)貓貓狗狗時，會給他們展示很多狗狗的圖片，然后有一天小孩子就會說“狗”了。但是小孩子并沒有認(rèn)清狗狗有4條腿和一條尾巴的事實，其他一些細(xì)節(jié)也沒認(rèn)識到;小孩子就是在實際整體感知一條狗狗。這與傳統(tǒng)計算機模型那種“如果……否則……”的條件邏輯迥然不同。深度學(xué)習(xí)試圖模仿這種整體認(rèn)知，所用方法就是所謂的神經(jīng)網(wǎng)絡(luò)。

深度學(xué)習(xí)的問題在于，計算量太過龐大，高通信開銷一直是其最大的挑戰(zhàn)。

這就是計算機終結(jié)者，實實在在的“殺手App”。我們已經(jīng)在用GPU(圖形處理單元)加速器來加快深度學(xué)習(xí)訓(xùn)練了。我們所做的，就是向這些計算機模型饋送數(shù)百萬的圖片，但之后我們需要在帶強力GPU的計算機上訓(xùn)練它們，為記錄和理解這些圖像涉及的東西。

大多數(shù)深度學(xué)習(xí)框架可擴展到一臺服務(wù)器上的多個GPU，但不能延伸至多臺帶GPU的服務(wù)器。于是，我們的團隊編寫了軟件和算法，自動化并優(yōu)化了該超大復(fù)雜計算任務(wù)的并行計算，使之能跨數(shù)十臺服務(wù)器上的數(shù)百個GPU加速器并行執(zhí)行。這很難!

IBM發(fā)現(xiàn)“理想擴展”

IBM Research 提交了近乎理想的擴展方式。在64臺 IBM Power 系統(tǒng)的256個GPU上部署的開源Caffe深度學(xué)習(xí)框架中，其新分布式深度學(xué)習(xí)軟件，達(dá)到了歷史新低的通信量，以及95%的擴展效率。

IBM研究員Hillery Hunter開發(fā)的可驅(qū)動多個GPU的新軟件

上一個最佳擴展，是 Facebook AI Research 在Caffe2上執(zhí)行的訓(xùn)練中展現(xiàn)出來的89%，且其通信量更高。采用該軟件，IBM Research 在超大數(shù)據(jù)集(750萬張圖像)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，達(dá)到了33.8%的圖像識別準(zhǔn)確率新高。之前的記錄是微軟的29.8%。

IBM Research 分布式深度學(xué)習(xí)代碼的技術(shù)預(yù)覽，可從 IBM PowerAI 4.0 的TensorFlow版和Caffe版獲取。

在ResNet-101深度學(xué)習(xí)模型上，IBM用來自ImageNet-22K數(shù)據(jù)集的750萬圖片，以批處理大小5120的規(guī)模，證明了其分布式深度學(xué)習(xí)軟件的擴展能力。該團隊采用64臺 IBM Power 服務(wù)器集群，以總共256塊 NVIDIA P100 GPU 加速器，達(dá)到了88%的擴展效率，且只有非常低的通信開銷。

分布式深度學(xué)習(xí)前景廣大，可在很多領(lǐng)域形成突破，從消費者移動App體驗到醫(yī)療影像診斷。但大規(guī)模部署深度學(xué)習(xí)的準(zhǔn)確性和實用性上的進(jìn)展，卻受阻于大規(guī)模深度學(xué)習(xí)AI模型運行上的技術(shù)難題——訓(xùn)練時間以天計，甚至以周計。

分析師怎么說

Moor Insights & Strategy 總裁兼首席分析師派翠克·摩爾海德稱：“這是過去6個月里我所見過的深度學(xué)習(xí)行業(yè)較大突破之一。有趣的部分在于，這一突破來自IBM，而不是谷歌之類的Web巨頭，意味著企業(yè)可以通過OpenPOWER硬件和PowerAI軟件在內(nèi)部應(yīng)用，甚或通過云提供商Nimbix來采用該技術(shù)。

最令人震驚的，是添加擴展節(jié)點時的近線性擴展率，性能在90%到95%之間。最簡化的看待方式，就是橫向擴展的AI vs. 我們今天大多數(shù)人用的傳統(tǒng)向上擴展。性能的提高是數(shù)量級的。

技術(shù)咨詢公司 Enderle Group 總裁羅博·恩德勒稱，IBM此次發(fā)布的重要性在于，你可以用硬件擴展深度學(xué)習(xí)操作的性能。深度學(xué)習(xí)操作上一直都有可用GPU數(shù)量上的限制，IBM有效去除了這一限制，讓公司企業(yè)可以通過購買硬件，來換取完成操作所需的時間。

這是巨大的一步，尤其是在安全和欺詐防護之類的領(lǐng)域，因為這些領(lǐng)域的系統(tǒng)訓(xùn)練所需時長，往往是以天計，但破壞卻可在數(shù)分鐘內(nèi)就達(dá)到百萬級。因此，你部署的解決方案，應(yīng)能以更即時的方式，更合理地解決這一巨大的風(fēng)險暴露面。

IT行業(yè)分析公司Pund-IT首席分析師查爾斯·金稱，IBM的速度提升十分驚人。之前的紀(jì)錄保持者微軟的系統(tǒng)在10天內(nèi)完成了訓(xùn)練，達(dá)到了29.8%的準(zhǔn)確率。IBM的集群配合上該新的DDL庫，在7小時內(nèi)就訓(xùn)練完畢，準(zhǔn)確率高達(dá)33.8%。

另外，IBM的DDL庫及API，任何使用該公司 Power Systems 和 PowerAI V4.0 以上版本的用戶均可采用。結(jié)合對Caffe和 TensorFlow AI 框架的支持，IBM計劃讓該DDL庫和API對Torch和Chainer開放。

“總之，通過大體上清除深度學(xué)習(xí)訓(xùn)練瓶頸，斬落當(dāng)前性能領(lǐng)跑者，IBM的新DDL庫和API應(yīng)能使AI項目更具競爭力，更吸引公司企業(yè)和其他機構(gòu)組織。”

負(fù)載計算分布式 IBM