When Transformer Meets Robotic Grasping: Exploits Context for Efficient Grasp Detection

要約

この論文では、ロボット把持検出のためのトランスフォーマーベースのアーキテクチャ、つまり TF-Grasp を紹介します。
開発された TF-Grasp フレームワークには、視覚的な把握タスクに適した 2 つの精巧な設計があります。
最初の重要な設計は、ローカル ウィンドウの注意を採用して、ローカルのコンテキスト情報と把握可能なオブジェクトの詳細な機能をキャプチャすることです。
次に、クロス ウィンドウの注意を適用して、離れたピクセル間の長期的な依存関係をモデル化します。
オブジェクトの知識、環境構成、および異なる視覚エンティティ間の関係は、その後の把握検出のために集約されます。
2 番目の重要な設計は、スキップ接続を使用して階層的なエンコーダー/デコーダー アーキテクチャを構築し、エンコーダーからデコーダーに浅い機能を提供して、マルチスケールの機能融合を可能にすることです。
強力な注意メカニズムにより、TF-Grasp はローカル情報 (つまり、オブジェクトの輪郭) を同時に取得し、クラッター内の異なる視覚的概念間の関係などの長期的なつながりをモデル化できます。
広範な計算実験により、TF-Grasp が最先端の把握畳み込みモデルよりも優れた結果を達成し、Cornell および Jacquard 把握データセットでそれぞれ 97.99% および 94.6% の高い精度を達成することが実証されています。
7DoF の Franka Emika Panda ロボットを使用した実世界の実験では、さまざまなシナリオで見えない物体をつかむ能力も実証されています。
コードと事前トレーニング済みのモデルは、https://github.com/WangShaoSUN/grasp-transformer で入手できます。

要約(オリジナル)

In this paper, we present a transformer-based architecture, namely TF-Grasp, for robotic grasp detection. The developed TF-Grasp framework has two elaborate designs making it well suitable for visual grasping tasks. The first key design is that we adopt the local window attention to capture local contextual information and detailed features of graspable objects. Then, we apply the cross window attention to model the long-term dependencies between distant pixels. Object knowledge, environmental configuration, and relationships between different visual entities are aggregated for subsequent grasp detection. The second key design is that we build a hierarchical encoder-decoder architecture with skip-connections, delivering shallow features from encoder to decoder to enable a multi-scale feature fusion. Due to the powerful attention mechanism, the TF-Grasp can simultaneously obtain the local information (i.e., the contours of objects), and model long-term connections such as the relationships between distinct visual concepts in clutter. Extensive computational experiments demonstrate that the TF-Grasp achieves superior results versus state-of-art grasping convolutional models and attain a higher accuracy of 97.99% and 94.6% on Cornell and Jacquard grasping datasets, respectively. Real-world experiments using a 7DoF Franka Emika Panda robot also demonstrate its capability of grasping unseen objects in a variety of scenarios. The code and pre-trained models will be available at https://github.com/WangShaoSUN/grasp-transformer

arxiv情報

著者 Shaochen Wang,Zhangli Zhou,Zhen Kan
発行日 2022-09-13 09:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク