要約
ロボットが物体と効果的に対話するには、遭遇する各物体の形状と機能を理解する必要があります。
基本的に、ロボットは各オブジェクトがどのようなアクションを実行できるのか、またそれらのアフォーダンスがどこで実行できるのかを理解する必要があります。
ロボットは最終的に、展開前にオブジェクトとアフォーダンスのセットがロボットに知られていない非構造化人間環境 (つまり、オープンな語彙設定) で動作することが期待されています。
この研究では、RGB-D 画像におけるオープンボキャブラリーアフォーダンスローカリゼーションのためのプロンプトベースのアプローチである OVAL-Prompt を紹介します。
OVAL-Prompt は、オープン語彙のオブジェクト部分セグメンテーションのためのビジョン言語モデル (VLM) と、各部分セグメント アフォーダンスを基盤とする大規模言語モデル (LLM) を活用することにより、ドメインなしで新しいオブジェクト インスタンス、カテゴリ、およびアフォーダンスへの一般化可能性を実証します。
具体的な微調整。
定量的な実験により、OVAL-Prompt は微調整を行わなくても、教師付きベースライン モデルと競合する位置特定精度を達成できることが実証されています。
さらに、定性的な実験では、OVAL-Prompt により、オープンボキャブラリーのオブジェクトインスタンスとカテゴリーのアフォーダンスベースのロボット操作が可能になることが示されています。
要約(オリジナル)
In order for robots to interact with objects effectively, they must understand the form and function of each object they encounter. Essentially, robots need to understand which actions each object affords, and where those affordances can be acted on. Robots are ultimately expected to operate in unstructured human environments, where the set of objects and affordances is not known to the robot before deployment (i.e. the open-vocabulary setting). In this work, we introduce OVAL-Prompt, a prompt-based approach for open-vocabulary affordance localization in RGB-D images. By leveraging a Vision Language Model (VLM) for open-vocabulary object part segmentation and a Large Language Model (LLM) to ground each part-segment-affordance, OVAL-Prompt demonstrates generalizability to novel object instances, categories, and affordances without domain-specific finetuning. Quantitative experiments demonstrate that without any finetuning, OVAL-Prompt achieves localization accuracy that is competitive with supervised baseline models. Moreover, qualitative experiments show that OVAL-Prompt enables affordance-based robot manipulation of open-vocabulary object instances and categories.
arxiv情報
著者 | Edmond Tong,Anthony Opipari,Stanley Lewis,Zhen Zeng,Odest Chadwicke Jenkins |
発行日 | 2024-04-17 02:19:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google