Potential-based reward shaping for learning to play text-based adventure games

要約

テキストベースのゲームは、言語ベースの強化学習 (RL) の一般的なテストベッドです。
以前の研究では、ディープ Q ラーニングが学習エージェントとして一般的に使用されていました。
Q 学習アルゴリズムは、トレーニングが不安定なため、複雑な実世界のドメインに適用するのは困難です。
したがって、この論文では、ソフトアクタークリティック(SAC)アルゴリズムをテキストベースの環境に適応させます。
環境からのまばらな外的報酬に対処するために、それをポテンシャルベースの報酬シェーピング手法と組み合わせて、より有益な (密な) 報酬シグナルを RL エージェントに提供します。
難しいテキストベースのゲームをプレイするために私たちの方法を適用します。
SAC 法は、多くのゲームで Q 学習法よりも高いスコアを達成し、トレーニング ステップ数はわずか半分です。
これは、テキストベースのゲームに適していることを示しています。
さらに、報酬シェーピング手法は、エージェントがポリシーをより速く学習し、より高いスコアを達成するのに役立つことを示しています。
特に、動的に学習された値関数を、学習者の元のスパース報酬信号を形成するための潜在的な関数と見なします。

要約(オリジナル)

Text-based games are a popular testbed for language-based reinforcement learning (RL). In previous work, deep Q-learning is commonly used as the learning agent. Q-learning algorithms are challenging to apply to complex real-world domains due to, for example, their instability in training. Therefore, in this paper, we adapt the soft-actor-critic (SAC) algorithm to the text-based environment. To deal with sparse extrinsic rewards from the environment, we combine it with a potential-based reward shaping technique to provide more informative (dense) reward signals to the RL agent. We apply our method to play difficult text-based games. The SAC method achieves higher scores than the Q-learning methods on many games with only half the number of training steps. This shows that it is well-suited for text-based games. Moreover, we show that the reward shaping technique helps the agent to learn the policy faster and achieve higher scores. In particular, we consider a dynamically learned value function as a potential function for shaping the learner’s original sparse reward signals.

arxiv情報

著者 Weichen Li,Rati Devidze,Sophie Fellenz
発行日 2023-02-21 15:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク