要約
多くの RL 手法の成功は、人間が操作した高密度の報酬に大きく依存しており、これには通常、相当な分野の専門知識と広範な試行錯誤が必要です。
私たちの研究では、データ駆動型の方法で複数ステージのタスクに対する再利用可能な高密度報酬を学習するための新しいアプローチである DrS (ステージからの高密度報酬学習) を提案します。
タスクのステージ構造を活用することで、DrS は、まばらな報酬やデモンストレーション (与えられた場合) から高品質で緻密な報酬を学習します。
学習した報酬は、目に見えないタスクで \textit{再利用} できるため、報酬エンジニアリングのための人的労力が軽減されます。
1000 以上のタスク バリアントを含む 3 つの物理ロボット操作タスク ファミリに関する広範な実験により、学習した報酬を目に見えないタスクで再利用できることが実証され、結果として RL アルゴリズムのパフォーマンスとサンプル効率が向上します。
学習された報酬は、一部のタスクでは人間が操作した報酬と同等のパフォーマンスを達成します。
詳細については、プロジェクト ページ (https://sites.google.com/view/iclr24drs) をご覧ください。
要約(オリジナル)
The success of many RL techniques heavily relies on human-engineered dense rewards, which typically demand substantial domain expertise and extensive trial and error. In our work, we propose DrS (Dense reward learning from Stages), a novel approach for learning reusable dense rewards for multi-stage tasks in a data-driven manner. By leveraging the stage structures of the task, DrS learns a high-quality dense reward from sparse rewards and demonstrations if given. The learned rewards can be \textit{reused} in unseen tasks, thus reducing the human effort for reward engineering. Extensive experiments on three physical robot manipulation task families with 1000+ task variants demonstrate that our learned rewards can be reused in unseen tasks, resulting in improved performance and sample efficiency of RL algorithms. The learned rewards even achieve comparable performance to human-engineered rewards on some tasks. See our project page (https://sites.google.com/view/iclr24drs) for more details.
arxiv情報
著者 | Tongzhou Mu,Minghua Liu,Hao Su |
発行日 | 2024-04-25 17:28:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google