要約
強化学習では、利点関数はポリシーの改善にとって重要ですが、多くの場合、学習された Q 関数から抽出されます。
当然の疑問は、「なぜアドバンテージ関数を直接学ばないのか?」ということです。
この研究では、Q 関数を明示的に参照することなく、ブートストラップを使用して利点関数と価値関数を直接学習する VA 学習を紹介します。
VA 学習はオフポリシーで学習し、Q 学習と同様の理論的保証を享受します。
アドバンテージ関数と値関数の直接学習のおかげで、VA 学習は、表形式の実装と Atari-57 ゲームのディープ RL エージェントの両方において、Q 学習よりもサンプル効率が向上します。
また、VA 学習と決闘アーキテクチャの間に密接な関係があることも特定しました。これは、DQN エージェントに対する単純なアーキテクチャ変更がパフォーマンスを向上させる傾向がある理由を部分的に説明します。
要約(オリジナル)
In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which directly learns advantage function and value function using bootstrapping, without explicit reference to Q-functions. VA-learning learns off-policy and enjoys similar theoretical guarantees as Q-learning. Thanks to the direct learning of advantage function and value function, VA-learning improves the sample efficiency over Q-learning both in tabular implementations and deep RL agents on Atari-57 games. We also identify a close connection between VA-learning and the dueling architecture, which partially explains why a simple architectural change to DQN agents tends to improve performance.
arxiv情報
著者 | Yunhao Tang,Rémi Munos,Mark Rowland,Michal Valko |
発行日 | 2023-05-29 15:44:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google