HMT-Grasp: A Hybrid Mamba-Transformer Approach for Robot Grasping in Cluttered Environments

要約

ロボットの把持は、孤立した物体、乱雑に置かれた物体、積み重ねられた物体のいずれを扱うかに関わらず、産業やサービス用途において重要な役割を果たしている。しかし、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)に基づく現在の視覚的把持検出手法は、局所的特徴抽出と大域的特徴抽出の間の不均衡のため、様々な把持シナリオに適応するのに苦労している。本論文では、このような課題を解決するために、マンバとトランスフォーマのハイブリッドアプローチを提案する。本手法は、Vision Mambaと並列畳み込み変換器ブロックの統合により、大局的情報と局所的情報の両方を効果的に取り込むことで、ロボットの視覚的把持を改善する。このハイブリッド・アーキテクチャは、様々なロボットタスクに対する適応性、精度、柔軟性を大幅に向上させる。公正な評価を確実にするため、コーネル、ジャカード、OCID-Graspのデータセットで、単純なシナリオから複雑なシナリオまで、広範な実験を行った。さらに、シミュレーションと実世界のロボット実験の両方を行った。その結果、我々の手法が標準的な把持データセットにおいて最先端技術を凌駕するだけでなく、シミュレーションと実世界のロボットアプリケーションの両方において強力な性能を発揮することが実証された。

要約(オリジナル)

Robot grasping, whether handling isolated objects, cluttered items, or stacked objects, plays a critical role in industrial and service applications. However, current visual grasp detection methods based on Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) struggle to adapt across various grasping scenarios due to the imbalance between local and global feature extraction. In this paper, we propose a novel hybrid Mamba-Transformer approach to address these challenges. Our method improves robotic visual grasping by effectively capturing both global and local information through the integration of Vision Mamba and parallel convolutional-transformer blocks. This hybrid architecture significantly improves adaptability, precision, and flexibility across various robotic tasks. To ensure a fair evaluation, we conducted extensive experiments on the Cornell, Jacquard, and OCID-Grasp datasets, ranging from simple to complex scenarios. Additionally, we performed both simulated and real-world robotic experiments. The results demonstrate that our method not only surpasses state-of-the-art techniques on standard grasping datasets but also delivers strong performance in both simulation and real-world robot applications.

arxiv情報

著者 Songsong Xiong,Hamidreza Kasaei
発行日 2024-10-04 15:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク