要約
強化学習は、複雑なロボットの動作を生成するために不可欠なアルゴリズムとなっています。
ただし、そのような行動を学習するには、タスクを説明する報酬関数を設計する必要があります。多くの場合、タスクはバランスをとる必要がある複数の目的で構成されます。
この調整プロセスは報酬エンジニアリングとして知られており、通常は広範な試行錯誤が伴います。
この論文では、この試行錯誤プロセスを回避するために、報酬としての制約 (CaR) の概念を提案します。
CaR は、報酬関数の代わりに複数の制約関数を使用してタスクの目標を定式化し、ラグランジュ法を使用して制約付きの強化学習問題を解きます。
このアプローチを採用すると、ラグランジュ乗数が目的間の重みとして機能するため、さまざまな目的のバランスが自動的にとられます。
さらに、不等式として表現される制約が、タスク用に設計された最適化ターゲットの直感的な解釈を提供することを示します。
提案手法を 6 輪伸縮脚ロボットの立ち上がり動作生成タスクに適用し、手動で設計した報酬関数を使用して学習するのは困難であるにもかかわらず、提案手法が目標行動を首尾よく獲得できることを示します。
要約(オリジナル)
Reinforcement learning has become an essential algorithm for generating complex robotic behaviors. However, to learn such behaviors, it is necessary to design a reward function that describes the task, which often consists of multiple objectives that needs to be balanced. This tuning process is known as reward engineering and typically involves extensive trial-and-error. In this paper, to avoid this trial-and-error process, we propose the concept of Constraints as Rewards (CaR). CaR formulates the task objective using multiple constraint functions instead of a reward function and solves a reinforcement learning problem with constraints using the Lagrangian-method. By adopting this approach, different objectives are automatically balanced, because Lagrange multipliers serves as the weights among the objectives. In addition, we will demonstrate that constraints, expressed as inequalities, provide an intuitive interpretation of the optimization target designed for the task. We apply the proposed method to the standing-up motion generation task of a six-wheeled-telescopic-legged robot and demonstrate that the proposed method successfully acquires the target behavior, even though it is challenging to learn with manually designed reward functions.
arxiv情報
著者 | Yu Ishihara,Noriaki Takasugi,Kotaro Kawakami,Masaya Kinoshita,Kazumi Aoyama |
発行日 | 2025-01-08 01:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google