要約
Visuotactile Sensingは、特に曖昧な視覚キューや閉塞などの視覚制限条件下で、模倣学習でパフォーマンスのボトルネックを軽減するのに役立つ豊富な連絡先情報を提供します。
ただし、視覚的および視覚的なモダリティを効果的に融合させ、継続的な課題を提示します。
Gelfusionは、特に高解像度のGelsishセンサーから視覚操作フィードバックを統合することにより、ポリシーを強化するように設計されたフレームワークを紹介します。
視力が支配的なクロスアテンション融合メカニズムを使用した総合には、視覚操作情報がポリシー学習に組み込まれています。
豊富な連絡先情報をより適切に提供するために、フレームワークのコアコンポーネントは、テクスチャ幾何および動的インタラクション機能の両方を同時に活用して、デュアルチャネル視型機能表現です。
表面の拭き取り、PEG挿入、および壊れやすいオブジェクトのピックアンドプレイスの3つの接触豊富なタスクで、総合的なタスクを評価しました。
ベースラインを上回ると、GELFUSIONは、政策学習の成功率を改善する際の構造の価値を示しています。
要約(オリジナル)
Visuotactile sensing offers rich contact information that can help mitigate performance bottlenecks in imitation learning, particularly under vision-limited conditions, such as ambiguous visual cues or occlusions. Effectively fusing visual and visuotactile modalities, however, presents ongoing challenges. We introduce GelFusion, a framework designed to enhance policies by integrating visuotactile feedback, specifically from high-resolution GelSight sensors. GelFusion using a vision-dominated cross-attention fusion mechanism incorporates visuotactile information into policy learning. To better provide rich contact information, the framework’s core component is our dual-channel visuotactile feature representation, simultaneously leveraging both texture-geometric and dynamic interaction features. We evaluated GelFusion on three contact-rich tasks: surface wiping, peg insertion, and fragile object pick-and-place. Outperforming baselines, GelFusion shows the value of its structure in improving the success rate of policy learning.
arxiv情報
著者 | Shulong Jiang,Shiqi Zhao,Yuxuan Fan,Peng Yin |
発行日 | 2025-05-12 11:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google