Sim-to-Real Transfer of Adaptive Control Parameters for AUV Stabilization under Current Disturbance

要約

学習ベースの適応制御手法には、自律エージェントが人間の介入を最小限に抑えながらプロセス変動の影響を低減できるという前提があります。
しかし、自律型水中ビークル(AUV)への適用は、これまでのところ、1)海流擾乱の形での未知のダイナミクスは、センサー能力が限られているため適切にモデル化も測定もできないこと、2)AUV タスクの非線形性のため、制限されてきました。
ここで、他の動作点で仕様を満たすためには、一部の動作点でのコントローラーの応答が過度に保守的になる必要があります。
深層強化学習 (DRL) は、汎用ニューラル ネットワーク ポリシーをトレーニングすることでこれらの制限を軽減できますが、DRL アルゴリズムの AUV への適用は、固有の高いサンプルの複雑さと分布シフトの問題により、シミュレートされた環境に限定されてきました。
この論文では、適応コントローラーを定式化するための、最大エントロピー深層強化学習フレームワークと古典的なモデルベースの制御アーキテクチャを融合する新しいアプローチを紹介します。
このフレームワーク内で、生物にインスピレーションを得たエクスペリエンス再生メカニズム、強化されたドメインランダム化技術、物理プラットフォーム上で実行される評価プロトコルというコンポーネントで構成される Sim-to-Real 転送戦略を導入します。
私たちの実験的評価では、この方法が最適ではない AUV のシミュレートされたモデルから熟練したポリシーを効果的に学習し、その結果、モデルベースの非適応的だが最適な対応物と比較して、実世界の車両に適用した場合の制御パフォーマンスが 3 倍高くなることが実証されました。

要約(オリジナル)

Learning-based adaptive control methods hold the premise of enabling autonomous agents to reduce the effect of process variations with minimal human intervention. However, its application to autonomous underwater vehicles (AUVs) has so far been restricted due to 1) unknown dynamics under the form of sea current disturbance that we can not model properly nor measure due to limited sensor capability and 2) the nonlinearity of AUVs tasks where the controller response at some operating points must be overly conservative in order to satisfy the specification at other operating points. Deep Reinforcement Learning (DRL) can alleviates these limitations by training general-purpose neural network policies, but applications of DRL algorithms to AUVs have been restricted to simulated environments, due to their inherent high sample complexity and distribution shift problem. This paper presents a novel approach, merging the Maximum Entropy Deep Reinforcement Learning framework with a classic model-based control architecture, to formulate an adaptive controller. Within this framework, we introduce a Sim-to-Real transfer strategy comprising the following components: a bio-inspired experience replay mechanism, an enhanced domain randomisation technique, and an evaluation protocol executed on a physical platform. Our experimental assessments demonstrate that this method effectively learns proficient policies from suboptimal simulated models of the AUV, resulting in control performance 3 times higher when transferred to a real-world vehicle, compared to its model-based nonadaptive but optimal counterpart.

arxiv情報

著者 Thomas Chaffre,Jonathan Wheare,Andrew Lammas,Paulo Santos,Gilles Le Chenadec,Karl Sammut,Benoit Clement
発行日 2023-10-17 08:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク