LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion

要約

この論文は、視覚を通じて完全な物体の形状を認識するという課題に取り組みます。
これまでの研究では、シーン内のオブジェクトの可視部分をセグメント化する際に有望な結果が示されていますが、特にアモーダル セグメンテーションでは、ロボットがオブジェクトの遮蔽された部分を推測できるようにする可能性があります。
この目的を達成するために、この論文では、乱雑なシーンでのロボットによる把握のためのアモーダル セグメンテーションを検討する新しいフレームワークを導入し、ロボットによる把握能力を大幅に強化します。
最初に、従来のセグメンテーション アルゴリズムを使用して、ターゲット オブジェクトの可視セグメントを検出します。これにより、完全なオブジェクト マスクを完成させるための事前形状が提供されます。
特に、RGB 画像からの意味特徴と深度画像からの幾何学的情報を利用する方法を探るために、線形融合注意誘導畳み込みネットワーク (LAC-Net) を提案します。
LAC-Net は、線形融合戦略を利用してこのクロスモーダル データを効果的に融合し、以前の可視マスクをアテンション マップとして使用して、ネットワークがターゲット フィーチャの位置に焦点を合わせてさらに完全にマスクを回復できるようにガイドします。
ターゲット オブジェクトのアモーダル マスクを使用すると、可視セグメントのみに依存する場合と比較して、より正確で堅牢な把握点を選択できるという利点があります。
さまざまなデータセットの結果は、私たちの方法が最先端のパフォーマンスを達成していることを示しています。
さらに、ロボット実験により、現実世界でのこの方法の実現可能性と堅牢性が検証されます。
私たちのコードとデモはプロジェクト ページ https://jrryzh.github.io/LAC-Net で入手できます。

要約(オリジナル)

This paper addresses the challenge of perceiving complete object shapes through visual perception. While prior studies have demonstrated encouraging outcomes in segmenting the visible parts of objects within a scene, amodal segmentation, in particular, has the potential to allow robots to infer the occluded parts of objects. To this end, this paper introduces a new framework that explores amodal segmentation for robotic grasping in cluttered scenes, thus greatly enhancing robotic grasping abilities. Initially, we use a conventional segmentation algorithm to detect the visible segments of the target object, which provides shape priors for completing the full object mask. Particularly, to explore how to utilize semantic features from RGB images and geometric information from depth images, we propose a Linear-fusion Attention-guided Convolutional Network (LAC-Net). LAC-Net utilizes the linear-fusion strategy to effectively fuse this cross-modal data, and then uses the prior visible mask as attention map to guide the network to focus on target feature locations for further complete mask recovery. Using the amodal mask of the target object provides advantages in selecting more accurate and robust grasp points compared to relying solely on the visible segments. The results on different datasets show that our method achieves state-of-the-art performance. Furthermore, the robot experiments validate the feasibility and robustness of this method in the real world. Our code and demonstrations are available on the project page: https://jrryzh.github.io/LAC-Net.

arxiv情報

著者 Jinyu Zhang,Yongchong Gu,Jianxiong Gao,Haitao Lin,Qiang Sun,Xinwei Sun,Xiangyang Xue,Yanwei Fu
発行日 2024-08-06 14:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク