Directly Attention Loss Adjusted Prioritized Experience Replay

要約

Prioritized Experience Replay (PER) を使用すると、アクセス頻度を人為的に変更することで、モデルが比較的重要なサンプルについてさらに学習できるようになります。
しかし、この不均一サンプリング法では、本来Q値関数を推定するために用いられる状態・動作分布がずれてしまうため、推定のずれが生じます。
この記事では、直接注意損失調整優先エクスペリエンス再生 (DALAP) と呼ばれる新しいオフポリシー強化学習トレーニング フレームワークを提案します。これは、並列セルフアテンション ネットワークを通じてシフトされた分布の変化範囲を直接定量化し、正確に補償することができます。
エラー。
さらに、サンプルのスクリーニング基準を最適化し、トレーニング効率をさらに向上させるために、優先順位の奨励メカニズムが同時に設計されています。
DALAP の有効性と一般性を検証するために、DALAP を値関数ベース、ポリシー勾配ベース、およびマルチエージェント強化学習アルゴリズムとそれぞれ統合します。
複数グループの比較実験により、DALAP には収束率の向上とトレーニングの分散の減少という両方の大きな利点があることが示されています。

要約(オリジナル)

Prioritized Experience Replay (PER) enables the model to learn more about relatively important samples by artificially changing their accessed frequencies. However, this non-uniform sampling method shifts the state-action distribution that is originally used to estimate Q-value functions, which brings about the estimation deviation. In this article, an novel off policy reinforcement learning training framework called Directly Attention Loss Adjusted Prioritized Experience Replay (DALAP) is proposed, which can directly quantify the changed extent of the shifted distribution through Parallel Self-Attention network, so as to accurately compensate the error. In addition, a Priority-Encouragement mechanism is designed simultaneously to optimize the sample screening criterion, and further improve the training efficiency. In order to verify the effectiveness and generality of DALAP, we integrate it with the value-function based, the policy-gradient based and multi-agent reinforcement learning algorithm, respectively. The multiple groups of comparative experiments show that DALAP has the significant advantages of both improving the convergence rate and reducing the training variance.

arxiv情報

著者 Zhuoying Chen,Huiping Li,Zhaoxu Wang
発行日 2023-11-24 10:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク