Path Following and Stabilisation of a Bicycle Model using a Reinforcement Learning Approach

要約

長年にわたり、自転車の動きを制御するための複雑な制御アプローチが開発されてきました。
機械学習の一分野である強化学習 (RL) は、いわゆるエージェントの簡単な導入を約束します。
配備されたエージェントは、機械システムのコントローラーの代替としてますます考慮されています。
今回の研究では、仮想自転車モデルで経路追跡を行うと同時に横方向の安定化を図るための RL アプローチを導入しています。
Whipple ベンチマーク モデルとしてモデル化され、マルチボディ システム ダイナミクスを使用するこの自転車には、安定化補助装置がありません。
エージェントは、PD コントローラーを介してステアリング トルクに変換されるステアリング角度を出力することによってのみ、自転車モデルの経路追従と安定化の両方に成功します。
カリキュラム学習は、最先端のトレーニング戦略として適用されます。
実装された RL フレームワークのさまざまな設定が調査され、相互に比較されます。
導入されたエージェントのパフォーマンスは、さまざまな種類のパスと測定値を使用して評価されます。
配置されたエージェントが、全周、スラローム操作、車線変更などの複雑な経路に沿って 2m/s から 7m/s の間で移動する自転車モデルの経路追跡と安定化を行う能力が実証されています。
機械学習の説明的な手法は、展開されたエージェントの機能を分析し、導入された RL アプローチを自転車ダイナミクス分野の研究と結び付けるために使用されます。

要約(オリジナル)

Over the years, complex control approaches have been developed to control the motion of a bicycle. Reinforcement Learning (RL), a branch of machine learning, promises easy deployment of so-called agents. Deployed agents are increasingly considered as an alternative to controllers for mechanical systems. The present work introduces an RL approach to do path following with a virtual bicycle model while simultaneously stabilising it laterally. The bicycle, modelled as the Whipple benchmark model and using multibody system dynamics, has no stabilisation aids. The agent succeeds in both path following and stabilisation of the bicycle model exclusively by outputting steering angles, which are converted into steering torques via a PD controller. Curriculum learning is applied as a state-of-the-art training strategy. Different settings for the implemented RL framework are investigated and compared to each other. The performance of the deployed agents is evaluated using different types of paths and measurements. The ability of the deployed agents to do path following and stabilisation of the bicycle model travelling between 2m/s and 7m/s along complex paths including full circles, slalom manoeuvres, and lane changes is demonstrated. Explanatory methods for machine learning are used to analyse the functionality of a deployed agent and link the introduced RL approach with research in the field of bicycle dynamics.

arxiv情報

著者 Sebastian Weyrer,Peter Manzl,A. L. Schwab,Johannes Gerstmayr
発行日 2024-07-24 10:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク