要約
我々は、連続アクション空間から離散アクション空間へのソフトアクタークリティック(SAC)の適応を研究します。
バニラ SAC を再検討し、離散設定に適用した場合の Q 値の過小評価とパフォーマンスの不安定性の問題について深く理解します。
したがって、これらの問題に対処するために、エントロピーペナルティと Q クリップを使用した二重平均 Q 学習を提案します。
Atari ゲームや大規模 MOBA ゲームなど、離散アクション空間を使用した典型的なベンチマークでの広範な実験により、提案した手法の有効性が示されています。
私たちのコードはhttps://github.com/coldSummerday/Revisiting-Discrete-SACにあります。
要約(オリジナル)
We study the adaption of soft actor-critic (SAC) from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.
arxiv情報
著者 | Haibin Zhou,Zichuan Lin,Junyou Li,Qiang Fu,Wei Yang,Deheng Ye |
発行日 | 2023-07-13 13:55:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google