LiRA: Light-Robust Adversary for Model-based Reinforcement Learning in Real World

要約

モデルベースの強化学習は、サンプルの効率が高いために多くの注目を集めており、実際のロボットアプリケーションに適用されると予想されています。
現実の世界では、観察不可能な障害が予期しない状況につながる可能性があるため、コントロールパフォーマンスだけでなく堅牢性も改善するためにロボットポリシーを取る必要があります。
敵対学習は堅牢性を改善する効果的な方法ですが、過度の敵は誤動作のリスクを高め、制御パフォーマンスを保守的にしすぎます。
したがって、この研究では、強化学習を適度に堅牢にし、保守的ではないようにするための新しい敵対的な学習フレームワークに対処しています。
この目的のために、敵対的な学習は最初に変分推論で再編成されます。
さらに、許容可能なパフォーマンス劣化内で堅牢性を最大化できる\ textit {light robustness}は、制約として利用されます。
その結果、提案されたフレームワークであるいわゆるLIRAは、敵対的レベルを自動的に調整し、堅牢性と保守性のバランスをとることができます。
LIRAの予想される動作は、数値シミュレーションで確認されています。
さらに、Liraは、2時間未満で収集された実際のデータでのみ、四重類のロボットの力反応性歩行制御を学ぶことに成功しています。

要約(オリジナル)

Model-based reinforcement learning has attracted much attention due to its high sample efficiency and is expected to be applied to real-world robotic applications. In the real world, as unobservable disturbances can lead to unexpected situations, robot policies should be taken to improve not only control performance but also robustness. Adversarial learning is an effective way to improve robustness, but excessive adversary would increase the risk of malfunction, and make the control performance too conservative. Therefore, this study addresses a new adversarial learning framework to make reinforcement learning robust moderately and not conservative too much. To this end, the adversarial learning is first rederived with variational inference. In addition, \textit{light robustness}, which allows for maximizing robustness within an acceptable performance degradation, is utilized as a constraint. As a result, the proposed framework, so-called LiRA, can automatically adjust adversary level, balancing robustness and conservativeness. The expected behaviors of LiRA are confirmed in numerical simulations. In addition, LiRA succeeds in learning a force-reactive gait control of a quadrupedal robot only with real-world data collected less than two hours.

arxiv情報

著者 Taisuke Kobayashi
発行日 2025-05-06 23:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク