Adaptive Visuo-Tactile Fusion with Predictive Force Attention for Dexterous Manipulation

要約

ロボットが多様なタスク全体に一般化するには、多感覚データを効果的に利用することが重要です。
しかし、これらのモダリティの不均一な性質により、融合は困難になります。
既存の方法は、包括的に融合した機能を取得するための戦略を提案しますが、多くの場合、各モダリティは異なる操作段階で異なるレベルの注意を必要とするという事実を無視します。
これに対処するために、人間のラベル付けなしで視覚的および触覚的な特徴の重みを適応的に調整する力​​誘導注意融合モジュールを提案します。
また、触覚のモダリティを強化し、データの不均衡を改善し、適切な調整を促進するために、自己監督の将来の力予測補助タスクを導入します。
私たちの方法では、実際の実験で3つのきめの細かい一時的なタスクで93%の平均成功率を達成します。
さらなる分析により、当社のポリシーは、さまざまな操作段階で各モダリティに適切に注意を合わせて調整することが示されています。
ビデオはhttps://adaptac-dex.github.io/で見ることができます。

要約(オリジナル)

Effectively utilizing multi-sensory data is important for robots to generalize across diverse tasks. However, the heterogeneous nature of these modalities makes fusion challenging. Existing methods propose strategies to obtain comprehensively fused features but often ignore the fact that each modality requires different levels of attention at different manipulation stages. To address this, we propose a force-guided attention fusion module that adaptively adjusts the weights of visual and tactile features without human labeling. We also introduce a self-supervised future force prediction auxiliary task to reinforce the tactile modality, improve data imbalance, and encourage proper adjustment. Our method achieves an average success rate of 93% across three fine-grained, contactrich tasks in real-world experiments. Further analysis shows that our policy appropriately adjusts attention to each modality at different manipulation stages. The videos can be viewed at https://adaptac-dex.github.io/.

arxiv情報

著者 Jinzhou Li,Tianhao Wu,Jiyao Zhang,Zeyuan Chen,Haotian Jin,Mingdong Wu,Yujun Shen,Yaodong Yang,Hao Dong
発行日 2025-05-20 06:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク