Object-centric Inference for Language Conditioned Placement: A Foundation Model based Approach

要約

【タイトル】
言語に基づく物体配置のためのオブジェクト中心の推論:基盤モデルに基づくアプローチ

【要約】
– この論文は、ロボットが言語指示に基づいて、すべての空間的関係の制約を満たす配置を生成するタスクに焦点を当てている。
– 従来のルールベースの言語解析やシーン中心の視覚表現に基づく先行研究は、指示の形式や参照オブジェクトに制限があり、また大量のトレーニングデータが必要であった。
– 本研究では、参照オブジェクトと空間的関係を基礎モデルに基づいて接地化し、よりサンプル効率が高く一般的なオブジェクト中心のフレームワークを提案している。
– 実験の結果、本モデルは、約0.26Mのトレーニング可能なパラメーターで97.75%の配置成功率を達成することができ、未知のオブジェクトや指示に対しても一般化能力が高いことが示された。
– また、トップの競合手法を25%のトレーニングデータで上回る成果を収めた。

要約(オリジナル)

We focus on the task of language-conditioned object placement, in which a robot should generate placements that satisfy all the spatial relational constraints in language instructions. Previous works based on rule-based language parsing or scene-centric visual representation have restrictions on the form of instructions and reference objects or require large amounts of training data. We propose an object-centric framework that leverages foundation models to ground the reference objects and spatial relations for placement, which is more sample efficient and generalizable. Experiments indicate that our model can achieve a 97.75% success rate of placement with only ~0.26M trainable parameters. Besides, our method generalizes better to both unseen objects and instructions. Moreover, with only 25% training data, we still outperform the top competing approach.

arxiv情報

著者 Zhixuan Xu,Kechun Xu,Yue Wang,Rong Xiong
発行日 2023-04-06 06:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク