要約
オブジェクトの操作は日常業務の一般的な要素ですが、高次元の観察からオブジェクトを操作する方法を学ぶには大きな課題が伴います。
マルチオブジェクト環境では、状態空間と望ましい動作の組み合わせが複雑になるため、これらの課題はさらに高まります。
最近のアプローチでは、大規模なオフライン データを利用してピクセル観察からモデルをトレーニングし、スケーリングによるパフォーマンスの向上を達成していますが、これらの方法は、ネットワークとデータセットのサイズが制約されている目に見えないオブジェクト構成での構成の一般化に苦労しています。
これらの問題に対処するために、オブジェクト中心の表現と拡散ベースの最適化を備えたエンティティ中心の Transformer を活用し、オフライン画像データからの効率的な学習を可能にする新しい動作クローニング (BC) アプローチを提案します。
私たちの方法では、まず観察をオブジェクト中心の表現に分解し、次にそれをオブジェクトレベルで注意を計算するエンティティ中心の Transformer によって処理し、オブジェクトのダイナミクスとエージェントのアクションを同時に予測します。
マルチモーダルな動作分布を捕捉する拡散モデルの機能と組み合わせることで、マルチオブジェクト タスクのパフォーマンスが大幅に向上し、さらに重要なことに、構成的な一般化が可能になります。
我々は、トレーニング中に見られたものよりも多数のオブジェクトを含む、オブジェクトと目標の新しい構成を持つタスクをゼロショット一般化できる BC エージェントを提示します。
当社のウェブページ: https://sites.google.com/view/ec-diffuser でビデオ公開を提供しています。
要約(オリジナル)
Object manipulation is a common component of everyday tasks, but learning to manipulate objects from high-dimensional observations presents significant challenges. These challenges are heightened in multi-object environments due to the combinatorial complexity of the state space as well as of the desired behaviors. While recent approaches have utilized large-scale offline data to train models from pixel observations, achieving performance gains through scaling, these methods struggle with compositional generalization in unseen object configurations with constrained network and dataset sizes. To address these issues, we propose a novel behavioral cloning (BC) approach that leverages object-centric representations and an entity-centric Transformer with diffusion-based optimization, enabling efficient learning from offline image data. Our method first decomposes observations into an object-centric representation, which is then processed by our entity-centric Transformer that computes attention at the object level, simultaneously predicting object dynamics and the agent’s actions. Combined with the ability of diffusion models to capture multi-modal behavior distributions, this results in substantial performance improvements in multi-object tasks and, more importantly, enables compositional generalization. We present BC agents capable of zero-shot generalization to tasks with novel compositions of objects and goals, including larger numbers of objects than seen during training. We provide video rollouts on our webpage: https://sites.google.com/view/ec-diffuser.
arxiv情報
著者 | Carl Qi,Dan Haramati,Tal Daniel,Aviv Tamar,Amy Zhang |
発行日 | 2024-12-25 13:50:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google