A Small Gain Analysis of Single Timescale Actor Critic

要約

比例ステップサイズを使用し、アクター ステップごとに定常分布からの 1 つのサンプルを使用して 1 つのクリティックのみを更新するアクター-クリティックのバージョンを検討します。
小ゲイン定理を使用したこの方法の分析を提供します。
具体的には、この方法を使用して静止点を見つけることができること、および結果として得られるサンプルの複雑さにより、アクタークリティック手法の最先端技術が $O \left(\mu^{-2} \epsilon^{
-2} \right)$ は $\epsilon$ の近似静止点を見つけます。$\mu$ は批評家に関連付けられた条件番号です。

要約(オリジナル)

We consider a version of actor-critic which uses proportional step-sizes and only one critic update with a single sample from the stationary distribution per actor step. We provide an analysis of this method using the small-gain theorem. Specifically, we prove that this method can be used to find a stationary point, and that the resulting sample complexity improves the state of the art for actor-critic methods to $O \left(\mu^{-2} \epsilon^{-2} \right)$ to find an $\epsilon$-approximate stationary point where $\mu$ is the condition number associated with the critic.

arxiv情報

著者 Alex Olshevsky,Bahman Gharesifard
発行日 2023-05-25 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク