要約
強化学習(RL)は、近年、様々な領域で大きな成功を収めています。しかし、報酬関数の設計は、エージェントが望ましい行動を学習できるようにするために、詳細なドメイン専門知識と退屈な微調整を必要とします。スパース報酬を使用することで、これらの課題を簡便に軽減することができます。しかし、疎な報酬はそれ自体が課題であり、エージェントのトレーニングがうまくいかないことがよくあります。そこで、本論文では、RLにおける疎な報酬の問題を取り上げる。我々の目標は、コストのかかる人間の実演を用いずに、報酬形成に代わる効果的な方法を見つけることであり、また、幅広いドメインに適用可能であることである。そこで、報酬の少ない環境でRLエージェントを訓練するための経験源として、モデル予測制御(MPC)を用いることを提案する。報酬のシェーピングを必要としない本アプローチを、Kuboki Turtlebot 2を用いたシミュレーションと実世界実験の両方で、移動ロボットナビゲーションの分野に適用することに成功しました。さらに、成功率、衝突やタイムアウトの回数という点で、純粋なRLアルゴリズムよりも大きく改善されることを実証している。また、経験ソースとしてのMPCは、報酬が疎な場合に、与えられたタスクに対するエージェントの学習プロセスを改善することが実験で示された。
要約(オリジナル)
Reinforcement learning (RL) has recently proven great success in various domains. Yet, the design of the reward function requires detailed domain expertise and tedious fine-tuning to ensure that agents are able to learn the desired behaviour. Using a sparse reward conveniently mitigates these challenges. However, the sparse reward represents a challenge on its own, often resulting in unsuccessful training of the agent. In this paper, we therefore address the sparse reward problem in RL. Our goal is to find an effective alternative to reward shaping, without using costly human demonstrations, that would also be applicable to a wide range of domains. Hence, we propose to use model predictive control~(MPC) as an experience source for training RL agents in sparse reward environments. Without the need for reward shaping, we successfully apply our approach in the field of mobile robot navigation both in simulation and real-world experiments with a Kuboki Turtlebot 2. We furthermore demonstrate great improvement over pure RL algorithms in terms of success rate as well as number of collisions and timeouts. Our experiments show that MPC as an experience source improves the agent’s learning process for a given task in the case of sparse rewards.
arxiv情報
著者 | Murad Dawood,Nils Dengler,Jorge de Heuvel,Maren Bennewitz |
発行日 | 2023-03-03 16:00:35+00:00 |
arxivサイト | arxiv_id(pdf) |