RGB-D Grasp Detection via Depth Guided Learning with Cross-modal Attention

要約

平面把持検出は、ロボット操作の最も基本的なタスクの 1 つであり、コンシューマー グレードの RGB-D センサーの最近の進歩により、テクスチャと形状の両方のモダリティからより包括的な機能を提供できるようになりました。
ただし、深度マップは一般に、RGB 画像に比べてノイズがはるかに強く、比較的低品質であるため、深度を把握してマルチモーダルの手がかりを融合することは困難です。
この 2 つの問題に対処するために、このペーパーでは、RGB-D 把握検出に対する新しい学習ベースのアプローチ、つまり深度ガイド付きクロスモーダル注意ネットワーク (DGCAN) を提案します。
深さチャネルに記録されたジオメトリ情報をより有効に活用するために、一般的な 5 次元のもので定義されているものに加えて、把握の深さが特に考慮された完全な 6 次元の長方形表現が採用されています。
余分な握りの深さを予測すると、特徴学習が大幅に強化され、より正確な結果が得られます。
さらに、2 つのモダリティでのデータ品質の不一致によって引き起こされる悪影響を軽減するために、Local Cross-modal Attention (LCA) モジュールが設計されています。このモジュールでは、深さの特徴がクロスモーダルの関係に従って洗練され、RGB のものに連結されます。
より十分な融合。
広範なシミュレーションと物理的評価が実施され、実験結果は提案されたアプローチの優位性を強調しています。

要約(オリジナル)

Planar grasp detection is one of the most fundamental tasks to robotic manipulation, and the recent progress of consumer-grade RGB-D sensors enables delivering more comprehensive features from both the texture and shape modalities. However, depth maps are generally of a relatively lower quality with much stronger noise compared to RGB images, making it challenging to acquire grasp depth and fuse multi-modal clues. To address the two issues, this paper proposes a novel learning based approach to RGB-D grasp detection, namely Depth Guided Cross-modal Attention Network (DGCAN). To better leverage the geometry information recorded in the depth channel, a complete 6-dimensional rectangle representation is adopted with the grasp depth dedicatedly considered in addition to those defined in the common 5-dimensional one. The prediction of the extra grasp depth substantially strengthens feature learning, thereby leading to more accurate results. Moreover, to reduce the negative impact caused by the discrepancy of data quality in two modalities, a Local Cross-modal Attention (LCA) module is designed, where the depth features are refined according to cross-modal relations and concatenated to the RGB ones for more sufficient fusion. Extensive simulation and physical evaluations are conducted and the experimental results highlight the superiority of the proposed approach.

arxiv情報

著者 Ran Qin,Haoxiang Ma,Boyang Gao,Di Huang
発行日 2023-02-28 02:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク