要約
私たちは、起伏の多い地形を移動するために設計されたアクティブ サスペンションを備えた大型車両の深層強化学習コントローラーのシミュレーションからリアルへの移行を検討します。
関連研究は主に電気モーターと高速作動を備えた軽量ロボットに焦点を当てていますが、この研究では複雑な油圧ドライブラインと低速作動を備えた林業車両を使用しています。
マルチボディダイナミクスを使用して車両をシミュレーションし、システム同定を適用して適切なシミュレーションパラメータのセットを見つけます。
次に、ドメインのランダム化、アクションの遅延、スムーズな制御を促進するための報酬ペナルティなど、シミュレーションと実際のギャップを軽減するさまざまな手法を使用して、シミュレーションでポリシーをトレーニングします。
実際には、アクションの遅延と異常なアクションに対するペナルティを考慮してトレーニングされたポリシーは、シミュレーションとほぼ同じレベルでパフォーマンスを発揮します。
平地での実験では、ルート追跡シナリオと同様に、どちらかの側に曲がったときに運動軌跡が密接に重なり合います。
サスペンションを積極的に使用する必要があるランプに直面した場合、シミュレートされた動きと実際の動きはほぼ一致しています。
これは、アクチュエータ モデルとシステム同定により、アクチュエータの十分に正確なモデルが得られることを示しています。
追加のアクション ペナルティなしでトレーニングされたポリシーは、高速な切り替えまたはバンバン制御を示すことがわかります。
これらは、シミュレーションでは滑らかな動きと高いパフォーマンスを示しますが、現実にはあまり反映されません。
私たちは、政策が知覚のためにローカル高さマップをほとんど利用しておらず、予測計画の兆候を示さないことがわかりました。
ただし、強力な転送機能により、知覚とパフォーマンスに関するさらなる開発は主にシミュレーションに限定される可能性があります。
要約(オリジナル)
We explore sim-to-real transfer of deep reinforcement learning controllers for a heavy vehicle with active suspensions designed for traversing rough terrain. While related research primarily focuses on lightweight robots with electric motors and fast actuation, this study uses a forestry vehicle with a complex hydraulic driveline and slow actuation. We simulate the vehicle using multibody dynamics and apply system identification to find an appropriate set of simulation parameters. We then train policies in simulation using various techniques to mitigate the sim-to-real gap, including domain randomization, action delays, and a reward penalty to encourage smooth control. In reality, the policies trained with action delays and a penalty for erratic actions perform nearly at the same level as in simulation. In experiments on level ground, the motion trajectories closely overlap when turning to either side, as well as in a route tracking scenario. When faced with a ramp that requires active use of the suspensions, the simulated and real motions are in close alignment. This shows that the actuator model together with system identification yields a sufficiently accurate model of the actuators. We observe that policies trained without the additional action penalty exhibit fast switching or bang-bang control. These present smooth motions and high performance in simulation but transfer poorly to reality. We find that policies make marginal use of the local height map for perception, showing no indications of predictive planning. However, the strong transfer capabilities entail that further development concerning perception and performance can be largely confined to simulation.
arxiv情報
著者 | Viktor Wiberg,Erik Wallin,Arvid Fälldin,Tobias Semberg,Morgan Rossander,Eddie Wadbro,Martin Servin |
発行日 | 2024-04-30 11:27:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google