Boosting Feedback Efficiency of Interactive Reinforcement Learning by Adaptive Learning from Scores

要約

インタラクティブな強化学習は、複雑なロボットタスクの学習において有望であることが示されています。
ただし、大量のインタラクティブなフィードバックが必要となるため、このプロセスには人手がかかる場合があります。
この論文では、対話型強化学習のフィードバック効率を向上させるために、ペアごとの好みの代わりに人間によって提供されるスコアを使用する新しい方法を紹介します。
私たちの重要な洞察は、スコアからペアごとの好みよりもはるかに多くのデータが得られるということです。
具体的には、報酬が少ない環境で行動ポリシーをトレーニングするために、教師がエージェントの完全な軌跡を対話的にスコアリングすることを要求します。
人間が与える不安定なスコアがトレーニングプロセスに悪影響を与えることを避けるために、適応学習スキームを提案します。
これにより、学習パラダイムが不完全なスコアや信頼性の低いスコアの影響を受けないようにすることができます。
私たちはロボットの移動と操作タスクに関する手法を広範囲に評価しています。
その結果、提案手法はスコアからの適応学習により最適に近いポリシーを効率的に学習できると同時に、ペアワイズ優先学習手法と比較して必要なフィードバックが少ないことが示されました。
ソース コードは https://github.com/SSKKai/Interactive-Scoring-IRL で公開されています。

要約(オリジナル)

Interactive reinforcement learning has shown promise in learning complex robotic tasks. However, the process can be human-intensive due to the requirement of large amount of interactive feedback. This paper presents a new method that uses scores provided by humans, instead of pairwise preferences, to improve the feedback efficiency of interactive reinforcement learning. Our key insight is that scores can yield significantly more data than pairwise preferences. Specifically, we require a teacher to interactively score the full trajectories of an agent to train a behavioral policy in a sparse reward environment. To avoid unstable scores given by human negatively impact the training process, we propose an adaptive learning scheme. This enables the learning paradigm to be insensitive to imperfect or unreliable scores. We extensively evaluate our method on robotic locomotion and manipulation tasks. The results show that the proposed method can efficiently learn near-optimal policies by adaptive learning from scores, while requiring less feedback compared to pairwise preference learning methods. The source codes are publicly available at https://github.com/SSKKai/Interactive-Scoring-IRL.

arxiv情報

著者 Shukai Liu,Chenming Wu,Ying Li,Liangjun Zhang
発行日 2023-07-11 16:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク