要約
連続制御ロボットタスクにおける強化学習 (RL) エージェントの有効性は、主に基礎となる報酬関数の設計に依存しますが、これは報酬ハッキングの危険性が非常に高いです。
報酬関数と根底にある人間の好み(価値観、社会規範)との間の不整合は、現実世界、特に重要な意思決定のためのロボット工学の文脈において、壊滅的な結果を招く可能性があります。
最近の手法は、人間の好みから報酬関数を学習し、その後ポリシーの最適化を実行することで不整合を軽減することを目的としています。
ただし、これらの方法では、エージェントが生成した軌道の報酬学習目標への依存性を無視するため、報酬学習中に不用意に分布シフトが導入され、最終的には次善の調整が生じます。
したがって、この研究では、エージェントの意図された動作をより正確に反映する正規化された報酬関数の採用を提唱することで、この課題に対処します。
私たちはロボット RLHF (ヒューマン フィードバックからの RL) フレームワーク内で報酬の正則化という新しい概念を提案します。これを \emph{エージェントの好み} と呼びます。
私たちのアプローチは、人間のフィードバックを好みの形で独自に組み込むだけでなく、報酬関数の学習プロセス中に RL エージェント自体の好みも考慮します。
この二重の考慮により、計算的に扱いやすいアルゴリズムにより、RLHF における分布シフトの問題が大幅に軽減されます。
我々は、ロボットの RLHF 問題をバイレベル最適化問題として定式化し、同じものの計算的に扱いやすいバージョンを開発することによって、提案されたアルゴリズムの理論的正当性を提供します。
DeepMind Control Suite \cite{tassa2018deepmind} のいくつかの連続制御ベンチマークで、アルゴリズム {\ours} の効率性を実証します。
要約(オリジナル)
The effectiveness of reinforcement learning (RL) agents in continuous control robotics tasks is mainly dependent on the design of the underlying reward function, which is highly prone to reward hacking. A misalignment between the reward function and underlying human preferences (values, social norms) can lead to catastrophic outcomes in the real world especially in the context of robotics for critical decision making. Recent methods aim to mitigate misalignment by learning reward functions from human preferences and subsequently performing policy optimization. However, these methods inadvertently introduce a distribution shift during reward learning due to ignoring the dependence of agent-generated trajectories on the reward learning objective, ultimately resulting in sub-optimal alignment. Hence, in this work, we address this challenge by advocating for the adoption of regularized reward functions that more accurately mirror the intended behaviors of the agent. We propose a novel concept of reward regularization within the robotic RLHF (RL from Human Feedback) framework, which we refer to as \emph{agent preferences}. Our approach uniquely incorporates not just human feedback in the form of preferences but also considers the preferences of the RL agent itself during the reward function learning process. This dual consideration significantly mitigates the issue of distribution shift in RLHF with a computationally tractable algorithm. We provide a theoretical justification for the proposed algorithm by formulating the robotic RLHF problem as a bilevel optimization problem and developing a computationally tractable version of the same. We demonstrate the efficiency of our algorithm {\ours} in several continuous control benchmarks in DeepMind Control Suite \cite{tassa2018deepmind}.
arxiv情報
著者 | Souradip Chakraborty,Anukriti Singh,Amisha Bhaskar,Pratap Tokekar,Dinesh Manocha,Amrit Singh Bedi |
発行日 | 2025-01-19 16:21:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google