要約
強化学習(RL)はさまざまなドメインで大きな進歩を遂げており、近位政策最適化(PPO)などのポリシーグラデーション方法は、パフォーマンス、トレーニングの安定性、計算効率のバランスにより人気を博しています。
これらの方法は、勾配ベースの更新を通じてポリシーを直接最適化します。
ただし、複雑で非線形のダイナミクスを備えた環境の効果的な制御ポリシーの開発は依然として課題です。
勾配推定値と非凸の最適化環境の高いばらつきは、しばしば不安定な学習軌跡につながります。
Koopmanオペレーター理論は、測定関数の高次元空間に作用する無限の次元線形演算子を介して非線形システムを研究するための強力なフレームワークとして浮上しています。
非線形の対応物とは対照的に、線形システムはよりシンプルで、より予測可能で、分析が容易です。
この論文では、Koopmanにインスパイアされた近位政策最適化(KIPPO)を紹介します。これは、効果的な政策学習のための重要な機能を保持しながら、基礎となるシステムのダイナミクスのほぼ線形潜在スペース表現を学習します。
これは、コアポリシーまたは値関数のアーキテクチャを変更せずにベースラインポリシー最適化アルゴリズムに追加できるKoopman-Approximation Auxiliary Networkを通じて達成されます。
広範な実験結果は、PPOベースラインで一貫した改善を示し、パフォーマンスは6〜60%増加し、さまざまな連続制御タスクで評価されると変動性を最大91%減らします。
要約(オリジナル)
Reinforcement Learning (RL) has made significant strides in various domains, and policy gradient methods like Proximal Policy Optimization (PPO) have gained popularity due to their balance in performance, training stability, and computational efficiency. These methods directly optimize policies through gradient-based updates. However, developing effective control policies for environments with complex and non-linear dynamics remains a challenge. High variance in gradient estimates and non-convex optimization landscapes often lead to unstable learning trajectories. Koopman Operator Theory has emerged as a powerful framework for studying non-linear systems through an infinite-dimensional linear operator that acts on a higher-dimensional space of measurement functions. In contrast with their non-linear counterparts, linear systems are simpler, more predictable, and easier to analyze. In this paper, we present Koopman-Inspired Proximal Policy Optimization (KIPPO), which learns an approximately linear latent-space representation of the underlying system’s dynamics while retaining essential features for effective policy learning. This is achieved through a Koopman-approximation auxiliary network that can be added to the baseline policy optimization algorithms without altering the architecture of the core policy or value function. Extensive experimental results demonstrate consistent improvements over the PPO baseline with 6-60% increased performance while reducing variability by up to 91% when evaluated on various continuous control tasks.
arxiv情報
著者 | Andrei Cozma,Landon Harris,Hairong Qi |
発行日 | 2025-05-20 16:25:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google