RoboKoop: Efficient Control Conditioned Representations from Visual Input in Robotics using Koopman Operator

要約

高次元の観察に基づいて複雑な制御タスクを実行できるエージェントを開発することは、基礎となる堅牢なタス​​ク制御ポリシーと、基礎となる視覚表現をタスクに適応させる必要がある自律エージェントの中核的な能力です。
既存のポリシーのほとんどは、大量のトレーニング サンプルを必要とし、事前トレーニングされたビジョン モデルに基づいて学習されたコントローラーを使用した 2 段階学習の観点からこの問題を扱います。
私たちは、クープマン理論のレンズからこの問題にアプローチし、エージェントの安定化制御を学習するという文脈で、特定の下流タスクを条件としたロボットエージェントからの視覚表現を学習します。
私たちは、高次元潜在空間内のエージェントの視覚データから効率的な線形化された視覚表現を学習できるようにする Contrastive Spectral Koopman Embedding ネットワークを導入します。また、強化学習を利用して、線形コントローラーで抽出された表現に基づいてオフポリシー制御を実行します。
私たちの方法は、時間の経過とともに勾配ダイナミクスの安定性と制御を強化し、長期にわたるタスクポリシーの学習の効率と精度を向上させることで、既存のアプローチを大幅に上回ります。

要約(オリジナル)

Developing agents that can perform complex control tasks from high-dimensional observations is a core ability of autonomous agents that requires underlying robust task control policies and adapting the underlying visual representations to the task. Most existing policies need a lot of training samples and treat this problem from the lens of two-stage learning with a controller learned on top of pre-trained vision models. We approach this problem from the lens of Koopman theory and learn visual representations from robotic agents conditioned on specific downstream tasks in the context of learning stabilizing control for the agent. We introduce a Contrastive Spectral Koopman Embedding network that allows us to learn efficient linearized visual representations from the agent’s visual data in a high dimensional latent space and utilizes reinforcement learning to perform off-policy control on top of the extracted representations with a linear controller. Our method enhances stability and control in gradient dynamics over time, significantly outperforming existing approaches by improving efficiency and accuracy in learning task policies over extended horizons.

arxiv情報

著者 Hemant Kumawat,Biswadeep Chakraborty,Saibal Mukhopadhyay
発行日 2024-09-04 22:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク