Koopman Spectrum Nonlinear Regulators and Efficient Online Learning

要約

最新の強化学習アルゴリズムのほとんどは、軌道に沿った累積シングルステップ コストを最適化します。
最適化された動きは多くの場合「不自然」で、たとえば、エネルギーを浪費し、予測可能性に欠ける突然の加速を伴う動作を表します。
この研究では、クープマン スペクトル コスト、つまり制御されたダイナミクスのクープマン演算子を超えるコストの最小化を介して非線形システムを制御する新しいパラダイムを提示します。
これにより、非線形振動子、閉ループ、滑らかな動きなどの安定多様体にわたって展開する、より広範な種類の動的動作が誘発されます。
我々は、累積コストでは不可能ないくつかのダイナミクス特性評価が、古典的な固有構造と極の割り当てを非線形意思決定に一般化するこのパラダイムで実現可能であることを実証します。
さらに、いくつかの構造的な仮定の下で制限されるサブリニアリグレスを享受する問題に対するサンプルの効率的なオンライン学習アルゴリズムを提示します。

要約(オリジナル)

Most modern reinforcement learning algorithms optimize a cumulative single-step cost along a trajectory. The optimized motions are often ‘unnatural’, representing, for example, behaviors with sudden accelerations that waste energy and lack predictability. In this work, we present a novel paradigm of controlling nonlinear systems via the minimization of the Koopman spectrum cost: a cost over the Koopman operator of the controlled dynamics. This induces a broader class of dynamical behaviors that evolve over stable manifolds such as nonlinear oscillators, closed loops, and smooth movements. We demonstrate that some dynamics characterizations that are not possible with a cumulative cost are feasible in this paradigm, which generalizes the classical eigenstructure and pole assignments to nonlinear decision making. Moreover, we present a sample efficient online learning algorithm for our problem that enjoys a sub-linear regret bound under some structural assumptions.

arxiv情報

著者 Motoya Ohnishi,Isao Ishikawa,Kendall Lowrey,Masahiro Ikeda,Sham Kakade,Yoshinobu Kawahara
発行日 2024-07-02 08:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク