他們創(chuàng)辦了一家創(chuàng)業(yè)公司——Wayve,全力研究自主汽車的機(jī)器學(xué)習(xí)。最近的動(dòng)作,是讓一臺(tái)“啥都不懂”的電動(dòng)車,沿一條小道繞行,自我學(xué)成。
聯(lián)合創(chuàng)始人兼首席執(zhí)行官沙阿說(shuō),“自動(dòng)駕駛的困惑,至于智能算法的缺失,而不是缺少傳感器、規(guī)則和地圖之類。人類具有在現(xiàn)實(shí)世界中執(zhí)行復(fù)雜任務(wù)的卓越能力,大腦讓我們快速學(xué)習(xí),并通過(guò)許多經(jīng)驗(yàn)傳遞知識(shí)。應(yīng)該設(shè)法讓汽車的大腦更好使。”Wayve認(rèn)為,學(xué)習(xí)系統(tǒng)的質(zhì)量將是未來(lái)十年誰(shuí)主導(dǎo)自主汽車市場(chǎng)的關(guān)鍵因素。
他們選用了雷諾公司專為城市駕駛者設(shè)計(jì)的小型電動(dòng)汽車Twizy,在車頭裝上攝像頭,修改了計(jì)算機(jī)操作轉(zhuǎn)向、油門和剎車的功能,并連接到一個(gè)圖形處理單元,能實(shí)時(shí)、智能地分析攝像數(shù)據(jù),運(yùn)行一個(gè)基于實(shí)驗(yàn)、優(yōu)化和評(píng)估的學(xué)習(xí)程序。
試驗(yàn)在一條狹窄、彎曲的小巷進(jìn)行。人類駕駛員坐在駕駛座,而全部控制權(quán)交給汽車,讓它試著控制。每次汽車要偏離小道時(shí),人類駕駛員就會(huì)出手糾正它。算法還會(huì)對(duì)汽車施以“懲罰”或“獎(jiǎng)勵(lì)”,而獎(jiǎng)勵(lì)的依據(jù)是它在沒(méi)有人為干預(yù)的條件下走了多遠(yuǎn)。
我們?cè)谧髨D中可以看到,在第一圈中(上),人類駕駛員忙碌地旋一個(gè)旋鈕,糾正方向;以后,汽車逐圈都有進(jìn)步,到第11圈(下),汽車不需要人的幫忙就不跑偏了。在20分鐘時(shí)間內(nèi),不到20次的試駕,Twizy基本掌握了如何保持行駛在車道中。
Wayve在博客上說(shuō),“DeepMind向我們展示了深度強(qiáng)化學(xué)習(xí)方法,能在包括圍棋、象棋和電腦游戲在內(nèi)的許多游戲中作出超越人類的表現(xiàn),而這些,都是基于規(guī)則的系統(tǒng)。我們?cè)谶@里展示的,是在現(xiàn)實(shí)世界,特別是自主車輛中也可能實(shí)現(xiàn)的類似方法。”
“設(shè)想有一隊(duì)自主汽車,駕駛算法最初是人駕駛質(zhì)量的95%。這比我們?cè)谠囼?yàn)中使用的隨機(jī)初始化模型已經(jīng)好很多,幾乎能應(yīng)付交通燈、環(huán)形線、交叉口等場(chǎng)合,不會(huì)晃晃悠悠。而經(jīng)過(guò)有安全駕駛水準(zhǔn)的人接管一天的駕駛并在線改進(jìn),也許提高到96%;一周后98%;一個(gè)月后99%。幾個(gè)月后,系統(tǒng)還可能超過(guò)人,因?yàn)樗艿玫絹?lái)自眾多安全駕駛者的反饋。”
其實(shí),當(dāng)前的自駕車是配備了學(xué)習(xí)部件的,但那基于網(wǎng)絡(luò)。比如特斯拉的自動(dòng)駕駛儀,記錄司機(jī)必然經(jīng)歷并需要糾正的任何錯(cuò)誤,并用它來(lái)幫助教育其他特斯拉在同一地區(qū)行駛。而Wayve的試驗(yàn)是讓自駕車像人類駕駛者一樣,自行建立在現(xiàn)實(shí)世界的完整操作。這是個(gè)迷人的想法。