Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators

要約

メタ学習は、近年、有望な機械学習トピックとして提案されており、画像分類、ロボット工学、コンピュータ ゲーム、制御システムへの重要な応用が期待されています。
この論文では、エルゴード線形二次調整器の不確実性と異質性に対処するためにメタ学習を使用する問題を研究します。
我々は、ゼロ次最適化手法を典型的なメタ学習手法と統合し、ポリシー ヘッセ行列の推定を省略するアルゴリズムを提案します。このアルゴリズムは、異種だが類似した線形動的システムのセットを学習するタスクに適用されます。
線形動的システムのセットがメタ学習可能である場合、誘導されたメタ目的関数は元のコスト関数の重要な特性を継承し、アルゴリズムが実現可能なセットに投影することなく学習可能なランドスケープ全体にわたって最適化できるようになります。
メタ目的の勾配の境界性と滑らかさを分析することにより、正確な勾配降下プロセスの収束結果を提供します。これは、勾配推定誤差が小さい提案されたアルゴリズムを正当化します。
この観点を裏付ける数値例も示します。

要約(オリジナル)

Meta-learning has been proposed as a promising machine learning topic in recent years, with important applications to image classification, robotics, computer games, and control systems. In this paper, we study the problem of using meta-learning to deal with uncertainty and heterogeneity in ergodic linear quadratic regulators. We integrate the zeroth-order optimization technique with a typical meta-learning method, proposing an algorithm that omits the estimation of policy Hessian, which applies to tasks of learning a set of heterogeneous but similar linear dynamic systems. The induced meta-objective function inherits important properties of the original cost function when the set of linear dynamic systems are meta-learnable, allowing the algorithm to optimize over a learnable landscape without projection onto the feasible set. We provide a convergence result for the exact gradient descent process by analyzing the boundedness and smoothness of the gradient for the meta-objective, which justify the proposed algorithm with gradient estimation error being small. We also provide a numerical example to corroborate this perspective.

arxiv情報

著者 Yunian Pan,Quanyan Zhu
発行日 2024-05-27 17:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク