Language-driven Grasp Detection with Mask-guided Attention

要約

把持検出は、さまざまな産業用途のロボット工学において不可欠なタスクです。
ただし、従来の方法では咬合に問題があり、把握に言語を使用しないことがよくあります。
自然言語を把握検出に組み込むことは依然として困難な作業であり、ほとんど解明されていません。
このギャップに対処するために、セマンティック セグメンテーション機能を備えたトランスフォーマー アテンション メカニズムを利用することにより、マスクに誘導されたアテンションを備えた言語駆動の把握検出の新しい方法を提案します。
私たちのアプローチは、視覚データ、セグメンテーション マスク機能、自然言語命令を統合し、把握検出の精度を大幅に向上させます。
私たちの研究は、言語駆動型の把握検出のための新しいフレームワークを導入し、言語駆動型のロボット アプリケーションへの道を切り開きます。
集中的な実験の結果、私たちの方法は他の最近のベースラインよりも明らかに優れており、成功スコアが 10.0% 向上したことがわかりました。
さらに、実世界のロボット実験で方法を検証し、アプローチの有効性を確認します。

要約(オリジナル)

Grasp detection is an essential task in robotics with various industrial applications. However, traditional methods often struggle with occlusions and do not utilize language for grasping. Incorporating natural language into grasp detection remains a challenging task and largely unexplored. To address this gap, we propose a new method for language-driven grasp detection with mask-guided attention by utilizing the transformer attention mechanism with semantic segmentation features. Our approach integrates visual data, segmentation mask features, and natural language instructions, significantly improving grasp detection accuracy. Our work introduces a new framework for language-driven grasp detection, paving the way for language-driven robotic applications. Intensive experiments show that our method outperforms other recent baselines by a clear margin, with a 10.0% success score improvement. We further validate our method in real-world robotic experiments, confirming the effectiveness of our approach.

arxiv情報

著者 Tuan Van Vo,Minh Nhat Vu,Baoru Huang,An Vuong,Ngan Le,Thieu Vo,Anh Nguyen
発行日 2024-07-29 10:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク