Grasp Stability Assessment Through Attention-Guided Cross-Modality Fusion and Transfer Learning

要約

最小力把握ポリシーを含む、最適な把握戦略を達成するための重要な前提条件である把握の安定性を評価することについて広範な研究が行われてきました。
しかし、既存の研究では、視覚モダリティと触覚モダリティを組み合わせるために基本的な特徴レベルの融合技術が採用されており、その結果、相補的な情報が適切に活用されず、単峰性の特徴間の相互作用をモデル化することができません。
この研究は、視覚的特徴と触覚的特徴を包括的に統合するための、注意誘導型クロスモダリティ融合アーキテクチャを提案しています。
このモデルは主に、畳み込みニューラル ネットワーク (CNN)、セルフ アテンション、クロス アテンション メカニズムで構成されます。
さらに、既存の方法のほとんどは実世界のシステムからデータセットを収集しますが、これには時間とコストがかかり、収集されるデータセットのサイズは比較的限られています。
この研究では、物理シミュレーションを通じてロボットによる把握システムを確立し、マルチモーダルなデータセットを収集します。
シミュレーションとリアルの転送ギャップに対処するために、ドメインのランダム化とドメイン適応技術を含む移行戦略を提案します。
実験結果は、提案された融合フレームワークが他のベースラインと比較して顕著に向上した予測パフォーマンス (約 10%) を達成することを示しています。
さらに、私たちの調査結果は、トレーニングされたモデルを実際のロボットシステムに確実に転送できることを示唆しており、現実世界の課題に対処できる可能性を示しています。

要約(オリジナル)

Extensive research has been conducted on assessing grasp stability, a crucial prerequisite for achieving optimal grasping strategies, including the minimum force grasping policy. However, existing works employ basic feature-level fusion techniques to combine visual and tactile modalities, resulting in the inadequate utilization of complementary information and the inability to model interactions between unimodal features. This work proposes an attention-guided cross-modality fusion architecture to comprehensively integrate visual and tactile features. This model mainly comprises convolutional neural networks (CNNs), self-attention, and cross-attention mechanisms. In addition, most existing methods collect datasets from real-world systems, which is time-consuming and high-cost, and the datasets collected are comparatively limited in size. This work establishes a robotic grasping system through physics simulation to collect a multimodal dataset. To address the sim-to-real transfer gap, we propose a migration strategy encompassing domain randomization and domain adaptation techniques. The experimental results demonstrate that the proposed fusion framework achieves markedly enhanced prediction performance (approximately 10%) compared to other baselines. Moreover, our findings suggest that the trained model can be reliably transferred to real robotic systems, indicating its potential to address real-world challenges.

arxiv情報

著者 Zhuangzhuang Zhang,Zhenning Zhou,Haili Wang,Zhinan Zhang,Huang Huang,Qixin Cao
発行日 2023-08-02 07:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク