要約
比例ステップサイズを使用し、アクター ステップごとに定常分布からの 1 つのサンプルを使用して 1 つのクリティックのみを更新するアクター-クリティックのバージョンを検討します。
小ゲイン定理を使用したこの方法の分析を提供します。
具体的には、この方法を使用して静止点を見つけることができること、および結果として得られるサンプルの複雑さにより、アクタークリティック手法の最先端技術が $O \left(\mu^{-2} \epsilon^{
-2} \right)$ は $\epsilon$ の近似静止点を見つけます。$\mu$ は批評家に関連付けられた条件番号です。
要約(オリジナル)
We consider a version of actor-critic which uses proportional step-sizes and only one critic update with a single sample from the stationary distribution per actor step. We provide an analysis of this method using the small-gain theorem. Specifically, we prove that this method can be used to find a stationary point, and that the resulting sample complexity improves the state of the art for actor-critic methods to $O \left(\mu^{-2} \epsilon^{-2} \right)$ to find an $\epsilon$-approximate stationary point where $\mu$ is the condition number associated with the critic.
arxiv情報
著者 | Alex Olshevsky,Bahman Gharesifard |
発行日 | 2023-05-25 17:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google