Task-Oriented Grasp Prediction with Visual-Language Inputs

要約

家事のタスクを実行するために、支援ロボットはツール操作のためのユーザー言語の指示の形でコマンドを受け取ります。
初期段階では、目的のツールを選択し (つまり、オブジェクト グラウンディング)、タスク指向の方法でそれを把握します (つまり、タスク グラウンディング)。
それにもかかわらず、視覚言語把握 (VLG) に関する先行研究は、オブジェクトのグラウンディングに焦点を当てており、オブジェクトの把握に対するタスクのきめの細かい影響を無視しています。
ツールのタスク互換性のない把握は、必然的に後続の操作手順の成功を制限します。
この問題に動機付けられて、この論文ではGraspCLIPを提案します。これは、視覚言語入力によるタスク指向の把握予測を可能にするために、オブジェクトグラウンディングに加えてタスクグラウンディングの課題に対処します。
カスタム データセットでの評価は、GraspCLIP がオブジェクト グラウンディングのみで確立されたベースラインよりも優れたパフォーマンスを達成することを示しています。
提案された方法の有効性は、タスクの仕様が与えられた以前に見えなかったキッチン ツールを把握するための補助ロボット アーム プラットフォームでさらに検証されます。
プレゼンテーション ビデオは、https://www.youtube.com/watch?v=e1wfYQPeAXU でご覧いただけます。

要約(オリジナル)

To perform household tasks, assistive robots receive commands in the form of user language instructions for tool manipulation. The initial stage involves selecting the intended tool (i.e., object grounding) and grasping it in a task-oriented manner (i.e., task grounding). Nevertheless, prior researches on visual-language grasping (VLG) focus on object grounding, while disregarding the fine-grained impact of tasks on object grasping. Task-incompatible grasping of a tool will inevitably limit the success of subsequent manipulation steps. Motivated by this problem, this paper proposes GraspCLIP, which addresses the challenge of task grounding in addition to object grounding to enable task-oriented grasp prediction with visual-language inputs. Evaluation on a custom dataset demonstrates that GraspCLIP achieves superior performance over established baselines with object grounding only. The effectiveness of the proposed method is further validated on an assistive robotic arm platform for grasping previously unseen kitchen tools given the task specification. Our presentation video is available at: https://www.youtube.com/watch?v=e1wfYQPeAXU.

arxiv情報

著者 Chao Tang,Dehao Huang,Lingxiao Meng,Weiyu Liu,Hong Zhang
発行日 2023-02-28 07:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク