無(wú)人機首次成功在一對一冠軍賽中戰勝人類(lèi)對手,而無(wú)人機背后是一個(gè)名為Swift的人工智能系統,《Nature》期刊的封面上的也在當期封面刊登了相關(guān)論文。
AI如何成為游戲高手?
國際象棋、星際爭霸(StarCraft)、Dota2和GT賽車(chē)這些游戲,如果你與電腦對戰,那些電腦虛擬玩家是如何來(lái)完成一系列操作的?
或許你沒(méi)有聽(tīng)說(shuō)過(guò)深度強化學(xué)習(Reinforcement Learning,RL)系統,但你一定聽(tīng)說(shuō)過(guò)或接觸過(guò)或許你沒(méi)有聽(tīng)說(shuō)過(guò)深度強化學(xué)習(Reinforcement Learning,RL)系統,因為這些電腦虛擬玩家就是運用了這一技術(shù)。
在模擬和棋盤(pán)游戲環(huán)境中,AI可以輕松勝過(guò)人類(lèi),但在物理世界的競賽,AI的決策和操作則面臨諸多困難。
第一人稱(chēng)視角 (FPV) 無(wú)人機競賽是專(zhuān)業(yè)選手在 3D 賽道上駕駛高速飛行的無(wú)人機,駕駛員可以通過(guò)機載攝像頭傳輸的畫(huà)面從無(wú)人機的角度觀(guān)察環(huán)境,從而完成加減速、轉彎等操作,讓無(wú)人機穿越賽道中的障礙。
Swift (藍色)和人類(lèi)(紅色)交鋒,七個(gè)方形門(mén),每圈必須依次通過(guò),圖片來(lái)源:參考文獻
自動(dòng)駕駛無(wú)人機要達到職業(yè)飛行員的水準很難,因為機器人需要在其物理限制下飛行,同時(shí)只能根據機載傳感器估算其速度和方位。
傳統的無(wú)人機競速方法包括軌跡規劃和模型預測控制(model predictive control,MPC),但這種方法只能在理想條件下實(shí)施,一旦受到任何干擾,整個(gè)系統就會(huì )崩潰。
圖片來(lái)源:piqsels
而Swift系統克服了這個(gè)困難。Swift系統由兩個(gè)關(guān)鍵模塊組成:
一是感知系統,將高維視覺(jué)(即空間立體視覺(jué))和慣性信息轉換為低維編碼;
二是控制系統,攝取感知系統產(chǎn)生的低維編碼并產(chǎn)生控制命令。將這兩個(gè)系統結合起來(lái),便可以基于物理環(huán)境的細微變化進(jìn)行實(shí)時(shí)決策調整。
當然,先進(jìn)的感知系統和控制系統還不足以對抗人類(lèi)冠軍駕駛員。
Swift系統比人類(lèi)強在哪兒?
Swift系統比人類(lèi)駕駛員具有一定的結構優(yōu)勢。
Swift系統,圖片來(lái)源:參考文獻
首先,它能利用來(lái)自機載慣性測量單元的慣性數據。
這類(lèi)似于人類(lèi)的前庭系統,人類(lèi)駕駛員在比賽中無(wú)法使用該系統,因為他們實(shí)際上并不在飛機上,并且感覺(jué)不到作用在飛機上的加速度。
其次,Swift系統受益于較低的感覺(jué)運動(dòng)延遲(Swift為40毫秒,而人類(lèi)專(zhuān)家的平均延遲為220毫秒)。
FPV比賽使用的是四軸飛行器,它是有史以來(lái)最敏捷的機器之一。在比賽中,飛行器會(huì )施加超過(guò)自身重量五倍或更多的力量,即使在有限的空間內,速度也能超過(guò)100公里/小時(shí),加速度是重力的幾倍。因此,較低的延遲有助于讓飛行器的行動(dòng)更靈活。
在實(shí)際比賽流程中,人類(lèi)飛行員在賽道上進(jìn)行了為期一周的練習。之后,由Swift和人類(lèi)控制的無(wú)人機需要在場(chǎng)地賽道中以正確的順序穿過(guò)每一道門(mén)。Swift在與三位人類(lèi)冠軍正面交鋒的比賽中均獲勝,甚至創(chuàng )造了最快完成比賽的記錄。
圖片來(lái)源:piqsels
在A(yíng)I控制的無(wú)人機戰勝人類(lèi)之后,自主移動(dòng)機器人仍然有很多可以提升的方向。
例如人類(lèi)控制無(wú)人機時(shí),即使發(fā)生了碰撞,只要硬件仍然正常工作,人類(lèi)仍然可以控制無(wú)人機繼續飛行并完成這段賽道,但Swift沒(méi)有接受過(guò)碰撞后恢復的訓練。
即便存在諸多限制,但該研究成果已經(jīng)成為移動(dòng)機器人技術(shù)和機器智能的一個(gè)里程碑,它將助力自動(dòng)駕駛的地面車(chē)輛、飛行器和個(gè)人機器人的快速發(fā)展。
參考文獻
原論文:Kaufmann, E., Bauersfeld, L., Loquercio, A. et al. Champion-level drone racing using deep reinforcement learning. Nature 620, 982–987 (2023). https://doi.org/10.1038/s41586-023-06419-4
策劃制作
來(lái)源丨科協(xié)之聲
作者丨SamKakeru 科普作者
責編丨楊雅萍 金禹奮
歡迎掃碼關(guān)注深i科普!
我們將定期推出
公益、免費、優(yōu)惠的科普活動(dòng)和科普好物!