要約
この研究では、人間のフィードバックからのロボット強化学習 (RRLHF) に基づく効率的な報酬正則化サンプルのアルゴリズムである REBEL を提案します。
連続制御ロボットタスクの強化学習 (RL) のパフォーマンスは、基礎となる報酬関数の影響を受けます。
実際には、報酬関数は人間の意図、価値観、社会規範などと一致しないことが多く、現実世界で壊滅的な失敗につながります。
私たちは人間の好みを活用して正規化された報酬関数を学習し、最終的にエージェントを真の意図された行動に合わせます。
既存の RRLHF フレームワークに、エージェント設定と呼ばれる報酬正則化の新しい概念を導入します。
そこで、人間のフィードバックを好みの観点から考慮するだけでなく、報酬関数を学習する際に、基礎となる RL エージェントの好みも考慮することを提案します。
これが、RL の報酬関数の設計に関連する過剰最適化の改善に役立つことを示します。
REBEL では、PEBBLE や PEBBLE+SURF などの最先端の手法と比較して、サンプル効率が最大 70% 向上し、同レベルのエピソード報酬リターンを達成できることが実験的に示されています。
要約(オリジナル)
In this work, we propose REBEL, an algorithm for sample efficient reward regularization based robotic reinforcement learning from human feedback (RRLHF). Reinforcement learning (RL) performance for continuous control robotics tasks is sensitive to the underlying reward function. In practice, the reward function often ends up misaligned with human intent, values, social norms, etc., leading to catastrophic failures in the real world. We leverage human preferences to learn regularized reward functions and eventually align the agents with the true intended behavior. We introduce a novel notion of reward regularization to the existing RRLHF framework, which is termed as agent preferences. So, we not only consider human feedback in terms of preferences, we also propose to take into account the preference of the underlying RL agent while learning the reward function. We show that this helps to improve the over-optimization associated with the design of reward functions in RL. We experimentally show that REBEL exhibits up to 70% improvement in sample efficiency to achieve a similar level of episodic reward returns as compared to the state-of-the-art methods such as PEBBLE and PEBBLE+SURF.
arxiv情報
著者 | Souradip Chakraborty,Amisha Bhaskar,Anukriti Singh,Pratap Tokekar,Dinesh Manocha,Amrit Singh Bedi |
発行日 | 2023-12-22 04:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google