Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning

要約

最近の研究では、深層強化学習 (DRL) エージェントは、トレーニングされたタスクに過剰適合する傾向があり、わずかな環境の変化に適応できないことが示されています。
目に見えないタスクに移行するときの学習を促進するために、現在のタスクの報酬とダイナミクスに基づいてサブタスクを誘発するステートマシンの抽象化である報酬マシン (RM) を使用して現在のタスクを表現する新しいアプローチを提案します。
私たちの方法は、エージェントに現在の抽象状態からの最適な遷移の記号表現を提供し、これらの遷移を達成することに対して報酬を与えます。
これらの表現はタスク間で共有されるため、エージェントは以前に遭遇したシンボルや遷移の知識を活用できるため、転送が強化されます。
私たちの経験的評価は、私たちの表現がさまざまな領域でサンプル効率と少数ショット転送を改善することを示しています。

要約(オリジナル)

Recent studies show that deep reinforcement learning (DRL) agents tend to overfit to the task on which they were trained and fail to adapt to minor environment changes. To expedite learning when transferring to unseen tasks, we propose a novel approach to representing the current task using reward machines (RM), state machine abstractions that induce subtasks based on the current task’s rewards and dynamics. Our method provides agents with symbolic representations of optimal transitions from their current abstract state and rewards them for achieving these transitions. These representations are shared across tasks, allowing agents to exploit knowledge of previously encountered symbols and transitions, thus enhancing transfer. Our empirical evaluation shows that our representations improve sample efficiency and few-shot transfer in a variety of domains.

arxiv情報

著者 Guy Azran,Mohamad H. Danesh,Stefano V. Albrecht,Sarah Keren
発行日 2023-07-11 12:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク