SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels

要約

潜在的なダイナミクスモデルを学習すると、エージェントの環境に対する理解のタスクに依存しない表現が提供されます。
モデルベースの強化学習(RL)のこの知識を活用すると、想像上のロールアウトから学習することにより、モデルのない方法よりもサンプル効率を改善する可能性があります。
さらに、潜在空間は行動モデルへの入力として機能するため、世界モデルによって学んだ有益な表現は、望ましいスキルの効率的な学習を促進します。
ほとんどの既存の方法は、環境状態の全体的な表現に依存しています。
対照的に、人間はオブジェクトとその相互作用についての理由で、行動が周囲の特定の部分にどのように影響するかを予測します。
これに触発されて、オブジェクト中心のダイナミクス(販売)のスロットアテンションを提案します。これは、ピクセル入力から監視されていない方法でオブジェクト中心のダイナミクスモデルを学習する新しいモデルベースのRLアルゴリズムです。
構造化された潜在スペースは、モデルの解釈性を向上させるだけでなく、行動モデルが推論するための貴重な入力空間を提供することを実証します。
我々の結果は、販売が、リレーショナル推論と操作機能を必要とするさまざまなベンチマークロボット環境にわたって、最先端のモデルベースのRLアルゴリズムを超えるDreamerV3およびTD-MPC2を上回ることを示しています。
ビデオはhttps://slot-latent-dynamics.github.io/で入手できます。

要約(オリジナル)

Learning a latent dynamics model provides a task-agnostic representation of an agent’s understanding of its environment. Leveraging this knowledge for model-based reinforcement learning (RL) holds the potential to improve sample efficiency over model-free methods by learning from imagined rollouts. Furthermore, because the latent space serves as input to behavior models, the informative representations learned by the world model facilitate efficient learning of desired skills. Most existing methods rely on holistic representations of the environment’s state. In contrast, humans reason about objects and their interactions, predicting how actions will affect specific parts of their surroundings. Inspired by this, we propose Slot-Attention for Object-centric Latent Dynamics (SOLD), a novel model-based RL algorithm that learns object-centric dynamics models in an unsupervised manner from pixel inputs. We demonstrate that the structured latent space not only improves model interpretability but also provides a valuable input space for behavior models to reason over. Our results show that SOLD outperforms DreamerV3 and TD-MPC2 – state-of-the-art model-based RL algorithms – across a range of benchmark robotic environments that require relational reasoning and manipulation capabilities. Videos are available at https://slot-latent-dynamics.github.io/.

arxiv情報

著者 Malte Mosbach,Jan Niklas Ewertz,Angel Villar-Corrales,Sven Behnke
発行日 2025-02-07 10:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク