Revisiting Discrete Soft Actor-Critic

要約

我々は、連続アクション空間から離散アクション空間へのソフトアクタークリティック(SAC)の適応を研究します。
バニラ SAC を再検討し、離散設定に適用した場合の Q 値の過小評価とパフォーマンスの不安定性の問題について深く理解します。
したがって、これらの問題に対処するために、エントロピーペナルティと Q クリップを使用した二重平均 Q 学習を提案します。
Atari ゲームや大規模 MOBA ゲームなど、離散アクション空間を使用した典型的なベンチマークでの広範な実験により、提案した手法の有効性が示されています。
私たちのコードはhttps://github.com/coldSummerday/Revisiting-Discrete-SACにあります。

要約(オリジナル)

We study the adaption of soft actor-critic (SAC) from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.

arxiv情報

著者 Haibin Zhou,Zichuan Lin,Junyou Li,Qiang Fu,Wei Yang,Deheng Ye
発行日 2023-07-13 13:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク