Representing Positional Information in Generative World Models for Object Manipulation

要約

オブジェクト操作能力は、特にロボット工学の分野で、世界と関わる具体化されたエージェントを際立たせる必須のスキルです。
この設定では、オブジェクトとのインタラクションの結果を予測する機能が最も重要です。
モデルベースの制御手法は操作タスクに取り組むために採用され始めていますが、オブジェクトを正確に操作するという課題に直面しています。
この制限の原因を分析すると、現在の世界モデルが重要な位置情報、特にオブジェクトの位置決めタスクに対するターゲットの目標仕様を表現する方法におけるパフォーマンス低下の原因が特定されます。
ワールド モデルベースのエージェントがオブジェクトの位置決めタスクを効果的に解決できるようにする一般的なアプローチを紹介します。
我々は、生成世界モデルに対するこのアプローチの 2 つの傾向、つまり位置条件付き (PCP) および潜在条件付き (LCP) のポリシー学習を提案します。
特に、LCP は、目標指定のためにオブジェクトの位置情報を明示的に取得するオブジェクト中心の潜在表現を採用します。
これは当然、マルチモーダル機能の出現につながり、空間座標または視覚的な目標を通じて目標を指定できるようになります。
私たちの手法はいくつかの操作環境にわたって厳密に評価されており、現在のモデルベースの制御アプローチと比較して良好なパフォーマンスを示しています。

要約(オリジナル)

Object manipulation capabilities are essential skills that set apart embodied agents engaging with the world, especially in the realm of robotics. The ability to predict outcomes of interactions with objects is paramount in this setting. While model-based control methods have started to be employed for tackling manipulation tasks, they have faced challenges in accurately manipulating objects. As we analyze the causes of this limitation, we identify the cause of underperformance in the way current world models represent crucial positional information, especially about the target’s goal specification for object positioning tasks. We introduce a general approach that empowers world model-based agents to effectively solve object-positioning tasks. We propose two declinations of this approach for generative world models: position-conditioned (PCP) and latent-conditioned (LCP) policy learning. In particular, LCP employs object-centric latent representations that explicitly capture object positional information for goal specification. This naturally leads to the emergence of multimodal capabilities, enabling the specification of goals through spatial coordinates or a visual goal. Our methods are rigorously evaluated across several manipulation environments, showing favorable performance compared to current model-based control approaches.

arxiv情報

著者 Stefano Ferraro,Pietro Mazzaglia,Tim Verbelen,Bart Dhoedt,Sai Rajeswar
発行日 2024-09-19 07:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク