SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics

要約

潜在的なダイナミクス モデルを学習すると、エージェントによる環境の理解のタスクに依存しない表現が得られます。
この知識をモデルベースの強化学習に活用すると、想像上のロールアウト内で学習することで、モデルフリーの方法よりもサンプル効率を向上させる可能性があります。
さらに、潜在空間は行動モデルへの入力として機能するため、ワールド モデルによって学習された情報表現により、必要なスキルの効率的な学習が促進されます。
既存の手法のほとんどは、環境の状態の全体的な表現に依存しています。
対照的に、人間は物体とその相互作用について推論し、行動が周囲の特定の部分にどのような影響を与えるかを予測します。
これに触発されて、ピクセル入力から教師なしの方法でオブジェクト中心のダイナミクス モデルを学習する新しいアルゴリズムであるオブジェクト中心の潜在ダイナミクス (SOLD) に対するスロット アテンションを提案します。
構造化された潜在空間はモデルの解釈可能性を向上させるだけでなく、動作モデルが推論するための貴重な入力空間も提供することを実証します。
私たちの結果は、リレーショナル推論と低レベルの操作能力の両方を評価するさまざまなベンチマーク ロボット環境において、SOLD が最先端のモデルベースの RL アルゴリズムである DreamerV3 よりも優れていることを示しています。
ビデオは https://slot-latent-dynamics.github.io/ でご覧いただけます。

要約(オリジナル)

Learning a latent dynamics model provides a task-agnostic representation of an agent’s understanding of its environment. Leveraging this knowledge for model-based reinforcement learning holds the potential to improve sample efficiency over model-free methods by learning inside imagined rollouts. Furthermore, because the latent space serves as input to behavior models, the informative representations learned by the world model facilitate efficient learning of desired skills. Most existing methods rely on holistic representations of the environment’s state. In contrast, humans reason about objects and their interactions, forecasting how actions will affect specific parts of their surroundings. Inspired by this, we propose Slot-Attention for Object-centric Latent Dynamics (SOLD), a novel algorithm that learns object-centric dynamics models in an unsupervised manner from pixel inputs. We demonstrate that the structured latent space not only improves model interpretability but also provides a valuable input space for behavior models to reason over. Our results show that SOLD outperforms DreamerV3, a state-of-the-art model-based RL algorithm, across a range of benchmark robotic environments that evaluate for both relational reasoning and low-level manipulation capabilities. Videos are available at https://slot-latent-dynamics.github.io/.

arxiv情報

著者 Malte Mosbach,Jan Niklas Ewertz,Angel Villar-Corrales,Sven Behnke
発行日 2024-10-11 14:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク