Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

要約

特定の部分で物体を掴むことは、多くの場合、安全性と下流のタスクの実行にとって重要です。
しかし、学習ベースの把握プランナーには、特定のオブジェクト部分のデータについてトレーニングされていない限り、この動作が欠けており、オブジェクトの多様性を拡張することが大きな課題となっています。
代わりに、我々は LERF-TOGO (オブジェクトのタスク指向把握のための言語埋め込み放射フィールド) を提案します。これは、ビジョン言語モデルのゼロショットを使用して、自然言語クエリが与えられたオブジェクト全体にわたる把握分布を出力します。
これを達成するために、まずシーンの LERF を再構築します。これにより、CLIP 埋め込みがテキストでクエリ可能なマルチスケール 3D 言語フィールドに抽出されます。
ただし、LERF にはオブジェクト性の感覚がありません。つまり、その関連性出力は、後続の部分クエリには不十分な、オブジェクトに対する不完全なアクティベーションを返すことがよくあります。
LERF-TOGO は、DINO 機能を介して 3D オブジェクト マスクを抽出し、このマスクに対して条件付きで LERF にクエリを実行して、既製の把握プランナーから把握をランク付けするためのオブジェクト全体の意味論的分布を取得することで、この空間グループ化の欠如を軽減します。
31 の異なる物理的オブジェクトのタスク指向オブジェクト部分を把握する LERF-TOGO の能力を評価したところ、全試行の 81% で正しい部分の把握が選択され、69% で正常に把握できることがわかりました。
プロジェクトの Web サイトを参照してください: lerftogo.github.io

要約(オリジナル)

Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO’s ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io

arxiv情報

著者 Adam Rashid,Satvik Sharma,Chung Min Kim,Justin Kerr,Lawrence Chen,Angjoo Kanazawa,Ken Goldberg
発行日 2023-09-18 06:17:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク