要約
強化学習 (RL) アルゴリズムは、サンプルの非効率性と安全性の問題により、実世界の環境で長期的なロボット操作タスクを扱う際に重大な課題に直面します。
これらの課題を克服するために、私たちはヒューマン フィードバックからの強化学習 (RLHF) と原始的なスキルベースの強化学習という 2 つのアプローチを活用する新しいフレームワーク SEED を提案します。
どちらのアプローチも、報酬の少なさの問題や、長期的なタスクに伴う複雑さに対処するのに特に効果的です。
これらを組み合わせることで、SEED は RLHF で必要な人間の労力を軽減し、現実世界の設定で RL を使用したロボット操作のトレーニングの安全性を高めます。
さらに、パラメータ化されたスキルにより、エージェントの高レベルの意図が明確に表示され、人間がスキルの選択を実行前に評価できるようになります。
この機能により、トレーニング プロセスがさらに安全かつ効率的になります。
SEED のパフォーマンスを評価するために、さまざまなレベルの複雑さを持つ 5 つの操作タスクについて広範な実験を実施しました。
私たちの結果は、SEED がサンプル効率と安全性において最先端の RL アルゴリズムを大幅に上回ることを示しています。
さらに、SEED は他の RLHF 手法と比較して人間の労力を大幅に削減します。
詳細とビデオ結果は https://sediros23.github.io/ でご覧いただけます。
要約(オリジナル)
Reinforcement learning (RL) algorithms face significant challenges when dealing with long-horizon robot manipulation tasks in real-world environments due to sample inefficiency and safety issues. To overcome these challenges, we propose a novel framework, SEED, which leverages two approaches: reinforcement learning from human feedback (RLHF) and primitive skill-based reinforcement learning. Both approaches are particularly effective in addressing sparse reward issues and the complexities involved in long-horizon tasks. By combining them, SEED reduces the human effort required in RLHF and increases safety in training robot manipulation with RL in real-world settings. Additionally, parameterized skills provide a clear view of the agent’s high-level intentions, allowing humans to evaluate skill choices before they are executed. This feature makes the training process even safer and more efficient. To evaluate the performance of SEED, we conducted extensive experiments on five manipulation tasks with varying levels of complexity. Our results show that SEED significantly outperforms state-of-the-art RL algorithms in sample efficiency and safety. In addition, SEED also exhibits a substantial reduction of human effort compared to other RLHF methods. Further details and video results can be found at https://seediros23.github.io/.
arxiv情報
著者 | Ayano Hiranaka,Minjune Hwang,Sharon Lee,Chen Wang,Li Fei-Fei,Jiajun Wu,Ruohan Zhang |
発行日 | 2023-08-02 06:22:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google