VA-learning as a more efficient alternative to Q-learning

要約

強化学習では、利点関数はポリシーの改善にとって重要ですが、多くの場合、学習された Q 関数から抽出されます。
当然の疑問は、「なぜアドバンテージ関数を直接学ばないのか?」ということです。
この研究では、Q 関数を明示的に参照することなく、ブートストラップを使用して利点関数と価値関数を直接学習する VA 学習を紹介します。
VA 学習はオフポリシーで学習し、Q 学習と同様の理論的保証を享受します。
アドバンテージ関数と値関数の直接学習のおかげで、VA 学習は、表形式の実装と Atari-57 ゲームのディープ RL エージェントの両方において、Q 学習よりもサンプル効率が向上します。
また、VA 学習と決闘アーキテクチャの間に密接な関係があることも特定しました。これは、DQN エージェントに対する単純なアーキテクチャ変更がパフォーマンスを向上させる傾向がある理由を部分的に説明します。

要約(オリジナル)

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which directly learns advantage function and value function using bootstrapping, without explicit reference to Q-functions. VA-learning learns off-policy and enjoys similar theoretical guarantees as Q-learning. Thanks to the direct learning of advantage function and value function, VA-learning improves the sample efficiency over Q-learning both in tabular implementations and deep RL agents on Atari-57 games. We also identify a close connection between VA-learning and the dueling architecture, which partially explains why a simple architectural change to DQN agents tends to improve performance.

arxiv情報

著者 Yunhao Tang,Rémi Munos,Mark Rowland,Michal Valko
発行日 2023-05-29 15:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク