要約
インタラクティブな環境におけるダイナミクスの正確なモデリングは、長距離予測を成功させるために重要です。
このような機能により、強化学習 (RL) および計画アルゴリズムが進歩する可能性がありますが、それを達成するのは困難です。
モデル推定の不正確さがさらに重なり、長期にわたって誤差が増加する可能性があります。
我々は、環境の非線形ダイナミクスを高次元の潜在空間で線形化できるコープマン理論のレンズからこの問題にアプローチします。
これにより、各タイム ステップでのエージェントのアクションを考慮しながら、畳み込みを使用して長距離予測の逐次問題を効率的に並列化することができます。
私たちのアプローチにより、安定性分析と経時的な勾配のより適切な制御も可能になります。
これらの利点を総合すると、長期にわたるダイナミクスのモデリングの効率と精度の両方において、既存のアプローチに比べて大幅な改善がもたらされます。
また、モデルベースの計画とモデルフリー RL の両方のシナリオに対するダイナミクス モデリングにおける有望な実験結果も報告します。
要約(オリジナル)
The accurate modeling of dynamics in interactive environments is critical for successful long-range prediction. Such a capability could advance Reinforcement Learning (RL) and Planning algorithms, but achieving it is challenging. Inaccuracies in model estimates can compound, resulting in increased errors over long horizons. We approach this problem from the lens of Koopman theory, where the nonlinear dynamics of the environment can be linearized in a high-dimensional latent space. This allows us to efficiently parallelize the sequential problem of long-range prediction using convolution, while accounting for the agent’s action at every time step. Our approach also enables stability analysis and better control over gradients through time. Taken together, these advantages result in significant improvement over the existing approaches, both in the efficiency and the accuracy of modeling dynamics over extended horizons. We also report promising experimental results in dynamics modeling for the scenarios of both model-based planning and model-free RL.
arxiv情報
著者 | Arnab Kumar Mondal,Siba Smarak Panigrahi,Sai Rajeswar,Kaleem Siddiqi,Siamak Ravanbakhsh |
発行日 | 2023-07-12 15:44:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google