要約
ロボットが器用な手やグリッパーを使って物体を掴むときは、さまざまなタスクで物体の特定の部分に注意を払う必要があることが多いため、ロボットはオブジェクトのタスク指向アフォーダンス (TOAO) を理解する必要があります。
この課題に対処するために、私たちはオブジェクトのタスク指向アフォーダンスのためのガウスベースのフレームワークである GauTOAO を提案します。これは、視覚言語モデルをゼロショット方式で活用して、自然言語クエリが与えられた場合にオブジェクトのアフォーダンス関連領域を予測します。
私たちのアプローチは、「静止カメラ、移動物体」という新しいパラダイムを導入し、ロボットが操作中に手元にある物体をよりよく観察して理解できるようにします。
GauTOAO は、DINO 機能を使用して包括的な 3D オブジェクト マスクを抽出することで、効果的な空間グループ化が欠けていることが多い既存の方法の制限に対処します。
次に、このマスクを使用してガウス分布を条件付きでクエリし、指定されたタスクのオブジェクト全体にわたる洗練されたセマンティック分布を生成します。
このアプローチにより、TOAO 抽出がより正確になり、ロボットによるオブジェクトの理解が強化され、タスクのパフォーマンスが向上します。
私たちは実際の実験を通じて GauTOAO の有効性を検証し、さまざまなタスクにわたって一般化できる GauTOAO の機能を実証します。
要約(オリジナル)
When your robot grasps an object using dexterous hands or grippers, it should understand the Task-Oriented Affordances of the Object(TOAO), as different tasks often require attention to specific parts of the object. To address this challenge, we propose GauTOAO, a Gaussian-based framework for Task-Oriented Affordance of Objects, which leverages vision-language models in a zero-shot manner to predict affordance-relevant regions of an object, given a natural language query. Our approach introduces a new paradigm: ‘static camera, moving object,’ allowing the robot to better observe and understand the object in hand during manipulation. GauTOAO addresses the limitations of existing methods, which often lack effective spatial grouping, by extracting a comprehensive 3D object mask using DINO features. This mask is then used to conditionally query gaussians, producing a refined semantic distribution over the object for the specified task. This approach results in more accurate TOAO extraction, enhancing the robot’s understanding of the object and improving task performance. We validate the effectiveness of GauTOAO through real-world experiments, demonstrating its capability to generalize across various tasks.
arxiv情報
著者 | Jiawen Wang,Dingsheng Luo |
発行日 | 2024-09-18 12:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google