Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping

要約

ロボットによる把握は、複雑なタスクのための原始的なスキルであり、知能の基礎です。
一般的な 6-Dof 把握の場合、これまでの手法のほとんどはシーンレベルの意味論的情報や幾何学的情報を直接抽出していましたが、ターゲット指向の把握など、さまざまな下流アプリケーションへの適合性を考慮した手法はほとんどありませんでした。
この問題に対処するために、我々は把握中心の観点から 6-Dof 把握検出を再考し、シーンレベルとターゲット指向の両方の把握を処理できる汎用性の高い把握フレームワークを提案します。
私たちのフレームワーク FlexLoG は、フレキシブル ガイダンス モジュールとローカル把握モデルで構成されています。
具体的には、フレキシブル ガイダンス モジュールは、グローバル (例: 把握ヒートマップ) とローカル (例: 視覚的接地) ガイダンスの両方と互換性があり、さまざまなタスクにわたって高品質の把握を生成できます。
ローカル把握モデルは、オブジェクトに依存しない局所的な点に焦点を当て、局所的かつ集中的に把握を予測します。
実験の結果、私たちのフレームワークは GraspNet-1Billion データセットの目に見えない分割で 18% 以上の改善と 23% 以上の改善を達成したことが明らかになりました。
さらに、3 つの異なる設定における実際のロボット テストでは、95% の成功率が得られました。

要約(オリジナル)

Robotic grasping is a primitive skill for complex tasks and is fundamental to intelligence. For general 6-Dof grasping, most previous methods directly extract scene-level semantic or geometric information, while few of them consider the suitability for various downstream applications, such as target-oriented grasping. Addressing this issue, we rethink 6-Dof grasp detection from a grasp-centric view and propose a versatile grasp framework capable of handling both scene-level and target-oriented grasping. Our framework, FlexLoG, is composed of a Flexible Guidance Module and a Local Grasp Model. Specifically, the Flexible Guidance Module is compatible with both global (e.g., grasp heatmap) and local (e.g., visual grounding) guidance, enabling the generation of high-quality grasps across various tasks. The Local Grasp Model focuses on object-agnostic regional points and predicts grasps locally and intently. Experiment results reveal that our framework achieves over 18% and 23% improvement on unseen splits of the GraspNet-1Billion Dataset. Furthermore, real-world robotic tests in three distinct settings yield a 95% success rate.

arxiv情報

著者 Wei Tang,Siang Chen,Pengwei Xie,Dingchang Hu,Wenming Yang,Guijin Wang
発行日 2024-03-22 09:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク