要約
ビジョン言語モデルでは大きな進歩が遂げられています。
ただし、特に触覚センシングの観点から、接触豊富なタスクの言語条件付きロボット操作は未定です。
このギャップに対処するために、触覚言語アクション(TLA)モデルを導入します。これは、接触集中シナリオで堅牢なポリシー生成を可能にするために、クロスモーダル言語の接地を介してシーケンシャルな触覚フィードバックを効果的に処理します。
さらに、指先ペグインホールアセンブリ用にカスタマイズされた24Kペアの触覚アクション命令データを含む包括的なデータセットを構築し、TLAトレーニングと評価に不可欠なリソースを提供します。
我々の結果は、TLAが効果的なアクションの生成とアクションの精度の観点から、従来の模倣学習方法(拡散ポリシーなど)を大幅に上回ると同時に、以前に見えたアセンブリクリアランスとPEG形状で85 \%の成功率を達成することにより、強力な一般化能力を実証することを示しています。
言語条件付きの触覚操作スキル学習の研究を進めることを期待して、すべてのデータとコードを公開します。
プロジェクトWebサイト:https://sites.google.com/view/tactile-language-comtion/
要約(オリジナル)
Significant progress has been made in vision-language models. However, language-conditioned robotic manipulation for contact-rich tasks remains underexplored, particularly in terms of tactile sensing. To address this gap, we introduce the Tactile-Language-Action (TLA) model, which effectively processes sequential tactile feedback via cross-modal language grounding to enable robust policy generation in contact-intensive scenarios. In addition, we construct a comprehensive dataset that contains 24k pairs of tactile action instruction data, customized for fingertip peg-in-hole assembly, providing essential resources for TLA training and evaluation. Our results show that TLA significantly outperforms traditional imitation learning methods (e.g., diffusion policy) in terms of effective action generation and action accuracy, while demonstrating strong generalization capabilities by achieving over 85\% success rate on previously unseen assembly clearances and peg shapes. We publicly release all data and code in the hope of advancing research in language-conditioned tactile manipulation skill learning. Project website: https://sites.google.com/view/tactile-language-action/
arxiv情報
著者 | Peng Hao,Chaofan Zhang,Dingzhe Li,Xiaoge Cao,Xiaoshuai Hao,Shaowei Cui,Shuo Wang |
発行日 | 2025-03-11 15:36:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google