要約
強化学習におけるポリシー最適化アプローチの多くには、ポリシーが急激に変更されるのを防ぐために、以前のポリシーへのカルバック・レールブラー (KL) 発散が組み込まれています。
このアイデアは当初、TRPO やミュンヒハウゼン値反復 (MVI) などのアルゴリズムによって近似値が得られた、保守的な政策の反復に関する独創的な論文で提案されました。
私たちは、定義に $q$-logarithm を使用する一般化された KL 発散 (Tsallis KL 発散と呼ばれる) を調査することでこの一連の作業を続けます。
$q = 1$ は標準的な KL 発散に対応するため、このアプローチは厳密な一般化です。
$q > 1$ は、さまざまな新しいオプションを提供します。
私たちは、Tsallis KL の下で学習した政策の種類を特徴付け、$q >1$ が有益である可能性がある場合に動機づけます。
Tsallis KL 正則化を組み込んだ実用的なアルゴリズムを取得するために、KL 正則化を組み込む最も簡単なアプローチの 1 つである MVI を拡張します。
この一般化された MVI($q$) は、35 の Atari ゲームにわたって標準 MVI($q = 1$) よりも大幅に改善されていることを示します。
要約(オリジナル)
Many policy optimization approaches in reinforcement learning incorporate a Kullback-Leilbler (KL) divergence to the previous policy, to prevent the policy from changing too quickly. This idea was initially proposed in a seminal paper on Conservative Policy Iteration, with approximations given by algorithms like TRPO and Munchausen Value Iteration (MVI). We continue this line of work by investigating a generalized KL divergence — called the Tsallis KL divergence — which use the $q$-logarithm in the definition. The approach is a strict generalization, as $q = 1$ corresponds to the standard KL divergence; $q > 1$ provides a range of new options. We characterize the types of policies learned under the Tsallis KL, and motivate when $q >1$ could be beneficial. To obtain a practical algorithm that incorporates Tsallis KL regularization, we extend MVI, which is one of the simplest approaches to incorporate KL regularization. We show that this generalized MVI($q$) obtains significant improvements over the standard MVI($q = 1$) across 35 Atari games.
arxiv情報
著者 | Lingwei Zhu,Zheng Chen,Matthew Schlegel,Martha White |
発行日 | 2023-09-22 16:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google