要約
この論文では、適応逆強化学習 (IRL) を実現するために設計された受動的確率勾配ランジュバン ダイナミクス アルゴリズム (PSGLD) の有限サンプル解析を提供します。
パッシブとは、PSGLD アルゴリズム (逆学習プロセス) で利用可能なノイズの多い勾配が、コスト関数の最適化を目的とした外部の確率的勾配アルゴリズム (前方学習器) によってランダムに選択された点で評価されることを意味します。
PSGLD アルゴリズムは、ランジュバン拡散の定常測定からノンパラメトリックにこのコスト関数を再構築することにより、適応 IRL を実現するランダム化サンプラーとして機能します。
以前の研究では、弱い収束技術を使用して、この受動的アルゴリズムの漸近パフォーマンスを分析しました。
この論文では、対数ソボレフ不等式とオットー ヴィラーニの定理を使用して、非漸近 (有限サンプル) のパフォーマンスを分析します。
PSGLD アルゴリズムによって生成された推定値とコスト関数の間の 2-Wasserstein 距離に関する有限サンプル境界を取得します。
この研究は、適応型 IRL の有限サンプル保証の達成とは別に、受動的確率的勾配アルゴリズムの解析における一連の研究をランジュバン力学の有限サンプル領域に拡張します。
要約(オリジナル)
This paper provides a finite-sample analysis of a passive stochastic gradient Langevin dynamics algorithm (PSGLD) designed to achieve adaptive inverse reinforcement learning (IRL). By passive, we mean that the noisy gradients available to the PSGLD algorithm (inverse learning process) are evaluated at randomly chosen points by an external stochastic gradient algorithm (forward learner) that aims to optimize a cost function. The PSGLD algorithm acts as a randomized sampler to achieve adaptive IRL by reconstructing this cost function nonparametrically from the stationary measure of a Langevin diffusion. Previous work has analyzed the asymptotic performance of this passive algorithm using weak convergence techniques. This paper analyzes the non-asymptotic (finite-sample) performance using a logarithmic-Sobolev inequality and the Otto-Villani Theorem. We obtain finite-sample bounds on the 2-Wasserstein distance between the estimates generated by the PSGLD algorithm and the cost function. Apart from achieving finite-sample guarantees for adaptive IRL, this work extends a line of research in analysis of passive stochastic gradient algorithms to the finite-sample regime for Langevin dynamics.
arxiv情報
著者 | Luke Snow,Vikram Krishnamurthy |
発行日 | 2023-09-27 17:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google