深度強(qiáng)化學(xué)習(xí)為人工智能系統(tǒng)注入“靈魂” 可讓四足機(jī)器人自己學(xué)走路

責(zé)任編輯:zsheng

2019-01-03 11:39:10

摘自:前瞻網(wǎng)

人工智能(AI)系統(tǒng)使得機(jī)器人能夠以人類靈巧的方式掌握和操縱物體,現(xiàn)在,研究人員表示他們已經(jīng)開發(fā)出一種算法,通過這種算法,機(jī)器可以自己學(xué)會(huì)走路。

人工智能(AI)系統(tǒng)使得機(jī)器人能夠以人類靈巧的方式掌握和操縱物體,現(xiàn)在,研究人員表示他們已經(jīng)開發(fā)出一種算法,通過這種算法,機(jī)器可以自己學(xué)會(huì)走路。在Arxiv.org上發(fā)表的一份預(yù)印本論文中(“通過深度強(qiáng)化學(xué)習(xí)來學(xué)習(xí)走路”),加州大學(xué)伯克利分校的科學(xué)家和谷歌人工智能(AI)研究部門之一Google Brain描述了一種人工智能系統(tǒng),教“一個(gè)四足機(jī)器人來穿越熟悉和不熟悉的地形。

“深度強(qiáng)化學(xué)習(xí)可以用于自動(dòng)獲取一系列機(jī)器人任務(wù)的控制器,從而實(shí)現(xiàn)將感知輸入映射到低級(jí)別動(dòng)作的策略的端到端學(xué)習(xí)。”該論文的作者解釋道。 “如果我們可以直接在現(xiàn)實(shí)世界中從頭開始學(xué)習(xí)運(yùn)動(dòng)步態(tài),原則上我們就能獲得最適合每個(gè)機(jī)器人、甚至適合單個(gè)地形的控制器,潛在地實(shí)現(xiàn)更好的敏捷性、能源效率和穩(wěn)健性。”

設(shè)計(jì)挑戰(zhàn)是雙重的。強(qiáng)化學(xué)習(xí)是一種使用獎(jiǎng)勵(lì)或懲罰來驅(qū)動(dòng)代替人實(shí)現(xiàn)目標(biāo)的人工智能培訓(xùn)技術(shù),它需要大量數(shù)據(jù),在某些情況下需要數(shù)萬個(gè)樣本才能獲得良好的結(jié)果。并且微調(diào)機(jī)器人系統(tǒng)的超參數(shù) —— 即確定其結(jié)構(gòu)的參數(shù) —— 通常需要多次訓(xùn)練,這可能會(huì)隨著時(shí)間的推移對(duì)腿式機(jī)器人造成傷害。

“深度強(qiáng)化學(xué)習(xí)已被廣??泛用于模擬中的學(xué)習(xí)運(yùn)動(dòng)策略,甚至將它們轉(zhuǎn)移到現(xiàn)實(shí)世界的機(jī)器人中,但由于模擬中的差異,這不可避免地導(dǎo)致性能損失,并且需要大量的手動(dòng)建模。”該論文的作者指出,“在現(xiàn)實(shí)世界中使用這些算法已經(jīng)證明具有挑戰(zhàn)性。”

為了找到一種方法,用研究人員的話說,“(使)一個(gè)系統(tǒng)在沒有模擬訓(xùn)練的情況下學(xué)習(xí)運(yùn)動(dòng)技能成為可能,他們選擇了一種稱為“最大熵RL”的強(qiáng)化學(xué)習(xí)框架(RL)。最大熵RL優(yōu)化學(xué)習(xí)策略以最大化預(yù)期回報(bào)和預(yù)期熵,或者正在處理的數(shù)據(jù)中的隨機(jī)性度量。在RL中,AI代理通過從策略中采樣動(dòng)作并接收獎(jiǎng)勵(lì),不斷尋找最佳的行動(dòng)路徑,也就是說,狀態(tài)和行動(dòng)的軌跡。最大熵RL激勵(lì)政策更廣泛地探索;一個(gè)參數(shù) —— 比如說,溫度 —— 確定熵對(duì)獎(jiǎng)勵(lì)的相對(duì)重要性,從而確定其隨機(jī)性。

但這并不全是積極和有效的,至少不是一開始。因?yàn)殪睾酮?jiǎng)勵(lì)之間的權(quán)衡直接受到獎(jiǎng)勵(lì)函數(shù)的規(guī)模的影響,而獎(jiǎng)勵(lì)函數(shù)的規(guī)模又影響學(xué)習(xí)速率,所以通常必須針對(duì)每個(gè)環(huán)境調(diào)整縮放因子。研究人員的解決方案是自動(dòng)化溫度和獎(jiǎng)勵(lì)規(guī)模調(diào)整,部分是在兩個(gè)階段之間交替進(jìn)行:數(shù)據(jù)收集階段和優(yōu)化階段。

結(jié)果不言自明。在OpenAI的健身房(一個(gè)用于訓(xùn)練和測(cè)試AI代理的開源模擬環(huán)境)進(jìn)行的實(shí)驗(yàn)中,作者的模型在四個(gè)連續(xù)運(yùn)動(dòng)任務(wù)(HalfCheetah、Ant、Walker和Minitaur)中實(shí)現(xiàn)了“幾乎相同”或比基線更好的性能。

在第二次真實(shí)世界的測(cè)試中,研究人員將他們的模型應(yīng)用于四足Minitaur,這是一種帶八個(gè)執(zhí)行器的機(jī)器人,一個(gè)測(cè)量馬達(dá)角度的馬達(dá)編碼器,以及一個(gè)測(cè)量方向和角速度的慣性測(cè)量單元(IMU)。

他們開發(fā)了一個(gè)管道,包括(1)計(jì)算機(jī)工作站,更新神經(jīng)網(wǎng)絡(luò),從Minitaur下載數(shù)據(jù),并上傳最新策略;(2)在機(jī)器人上安裝Nvidia Jetson TX2執(zhí)行上述策略,收集數(shù)據(jù),并通過以太網(wǎng)將數(shù)據(jù)上傳到工作站。經(jīng)過兩個(gè)小時(shí)160,000步的訓(xùn)練后,通過獎(jiǎng)勵(lì)前進(jìn)速度和懲罰“大角加速度”和俯仰角的算法,他們成功地訓(xùn)練Minitaur在平坦的地形上行走,越過木塊等障礙物行走,以及爬上斜坡和臺(tái)階,而這些在訓(xùn)練時(shí)間內(nèi)均未出現(xiàn)。

“據(jù)我們所知,這個(gè)實(shí)驗(yàn)是深度強(qiáng)化學(xué)習(xí)算法的第一例,這種算法可以在沒有任何模擬或訓(xùn)練的情況下,直接在現(xiàn)實(shí)世界中學(xué)習(xí)欠驅(qū)動(dòng)的四足運(yùn)動(dòng)。”研究人員寫道。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)