要約
連続制御ロボットタスクにおける強化学習 (RL) エージェントの有効性は、基礎となる報酬関数の設計に大きく依存します。
ただし、報酬関数とユーザーの意図、価値観、または社会規範との間の不整合は、現実世界では壊滅的な影響を与える可能性があります。
この不整合を軽減する現在の方法は、人間の好みから報酬関数を学習することで機能します。
ただし、報酬が過剰に最適化されるリスクを誤って導入してしまいます。
この研究では、意図された行動をより正確に反映する正規化された報酬関数の採用を提唱することで、この課題に対処します。
私たちはロボット RLHF (ヒューマン フィードバックからの RL) フレームワーク内で報酬の正則化という新しい概念を提案します。これを \emph{エージェントの好み} と呼びます。
私たちのアプローチは、人間のフィードバックを好みの形で独自に組み込むだけでなく、報酬関数の学習プロセス中に RL エージェント自体の好みも考慮します。
この二重の考慮により、RL における報酬関数の過剰最適化の問題が大幅に軽減されます。
ロボットの RLHF 問題をバイレベル最適化問題として定式化することにより、提案されたアプローチの理論的正当性を提供します。
私たちは、DeepMind Control Suite \cite{tassa2018deepmind} や MetaWorld \cite{yu2021metaworld} などのいくつかの連続制御ベンチマークおよび高次元のビジュアル環境でアルゴリズム {\ours} の効率を実証し、サンプル効率が 70\% 以上向上しました。
現在の SOTA ベースラインとの比較。
これは、報酬関数を真の行動意図と調整する際の私たちのアプローチの有効性を示しており、この分野で新たなベンチマークを設定しています。
要約(オリジナル)
The effectiveness of reinforcement learning (RL) agents in continuous control robotics tasks is heavily dependent on the design of the underlying reward function. However, a misalignment between the reward function and user intentions, values, or social norms can be catastrophic in the real world. Current methods to mitigate this misalignment work by learning reward functions from human preferences; however, they inadvertently introduce a risk of reward overoptimization. In this work, we address this challenge by advocating for the adoption of regularized reward functions that more accurately mirror the intended behaviors. We propose a novel concept of reward regularization within the robotic RLHF (RL from Human Feedback) framework, which we refer to as \emph{agent preferences}. Our approach uniquely incorporates not just human feedback in the form of preferences but also considers the preferences of the RL agent itself during the reward function learning process. This dual consideration significantly mitigates the issue of reward function overoptimization in RL. We provide a theoretical justification for the proposed approach by formulating the robotic RLHF problem as a bilevel optimization problem. We demonstrate the efficiency of our algorithm {\ours} in several continuous control benchmarks including DeepMind Control Suite \cite{tassa2018deepmind} and MetaWorld \cite{yu2021metaworld} and high dimensional visual environments, with an improvement of more than 70\% in sample efficiency in comparison to current SOTA baselines. This showcases our approach’s effectiveness in aligning reward functions with true behavioral intentions, setting a new benchmark in the field.
arxiv情報
著者 | Souradip Chakraborty,Anukriti Singh,Amisha Bhaskar,Pratap Tokekar,Dinesh Manocha,Amrit Singh Bedi |
発行日 | 2024-04-14 20:07:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google