要約
この研究では、自動温度調整を使用してソフト アクター クリティカル (SAC) アルゴリズムを正規化するための包括的な分析を示します。
政策評価、政策改善、温度調整が再定式化され、特定の修正に対処し、より明確な方法で元の理論の明瞭さが向上します。
要約(オリジナル)
This work presents a comprehensive analysis to regularize the Soft Actor-Critic (SAC) algorithm with automatic temperature adjustment. The the policy evaluation, the policy improvement and the temperature adjustment are reformulated, addressing certain modification and enhancing the clarity of the original theory in a more explicit manner.
arxiv情報
著者 | Ben You |
発行日 | 2023-05-19 17:13:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google