Target-Oriented Object Grasping via Multimodal Human Guidance

要約

人間とロボットの対話やコラボレーションのシナリオにおいて、ロボットによる把握は依然として多くの課題に直面しています。
従来の掴み検出方法は一般にシーン全体を分析して掴みを予測するため、冗長性と非効率性が生じます。
この研究では、ターゲット参照の観点から 6-DoF 把握検出を再考し、ターゲット指向把握ネットワーク (TOGNet) を提案します。
TOGNet は、より効率的に把握を予測するために、オブジェクトに依存しないローカルな領域パッチを特にターゲットとしています。
言語指示、ポインティングジェスチャー、インタラクティブなクリックなど、マルチモーダルな人間によるガイダンスとシームレスに統合されます。
したがって、私たちのシステムは 2 つの主要な機能モジュールで構成されています。1 つは 3D 空間でターゲット オブジェクトを識別するガイダンス モジュール、もう 1 つはターゲットの周囲の領域焦点の 6-DoF 把握を検出し、その後の動作計画を容易にする TOGNet です。
乱雑なシーンでの 50 回のターゲット把握シミュレーション実験を通じて、当社のシステムは約 13.7% の成功率の向上を達成しました。
実際の実験では、私たちの方法がさまざまなターゲット指向の把握シナリオで優れていることを実証します。

要約(オリジナル)

In the context of human-robot interaction and collaboration scenarios, robotic grasping still encounters numerous challenges. Traditional grasp detection methods generally analyze the entire scene to predict grasps, leading to redundancy and inefficiency. In this work, we reconsider 6-DoF grasp detection from a target-referenced perspective and propose a Target-Oriented Grasp Network (TOGNet). TOGNet specifically targets local, object-agnostic region patches to predict grasps more efficiently. It integrates seamlessly with multimodal human guidance, including language instructions, pointing gestures, and interactive clicks. Thus our system comprises two primary functional modules: a guidance module that identifies the target object in 3D space and TOGNet, which detects region-focal 6-DoF grasps around the target, facilitating subsequent motion planning. Through 50 target-grasping simulation experiments in cluttered scenes, our system achieves a success rate improvement of about 13.7%. In real-world experiments, we demonstrate that our method excels in various target-oriented grasping scenarios.

arxiv情報

著者 Pengwei Xie,Siang Chen,Dingchang Hu,Yixiang Dai,Kaiqin Yang,Guijin Wang
発行日 2024-08-20 18:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク