ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

要約

Vision-Language-active(VLA)モデルは、前処理された視覚的および言語表現を活用することにより、汎用ロボット操作を進めています。
しかし、彼らは、特に視覚的閉塞または動的な不確実性の下で、力を含む細かい制御を必要とする接触豊富なタスクと格闘しています。
これらの制限に対処するために、\ textBf {forcevla}を提案します。これは、外力センシングをVLAシステム内のファーストクラスモダリティとして扱う新しいエンドツーエンド操作フレームワークです。
Forcevlaは、アクションデコード中にリアルタイムの6軸力フィードバックを前駆した視覚言語埋め込みと動的に統合する、力を認識しているエクスペル融合モジュールである\ textBf {fvlmoe}を導入します。
これにより、モダリティ固有の専門家間のコンテキスト対応ルーティングが可能になり、微妙な接触ダイナミクスに適応するロボットの能力が向上します。
また、5つの接触豊富な操作タスクにわたって同期されたビジョン、固有受容、およびフォーストルク信号を含む新しいデータセットである\ textbf {forcevla-data}も紹介します。
ForceVLAは、平均タスクの成功を強力な$ \ PI_0 $ベースのベースラインよりも23.2 \%改善し、プラグ挿入などのタスクで最大80 \%の成功を達成します。
私たちのアプローチは、器用な操作のためのマルチモーダル統合の重要性を強調し、物理的にインテリジェントなロボット制御のための新しいベンチマークを設定します。
コードとデータはhttps://sites.google.com/view/forcevla2025でリリースされます。

要約(オリジナル)

Vision-Language-Action (VLA) models have advanced general-purpose robotic manipulation by leveraging pretrained visual and linguistic representations. However, they struggle with contact-rich tasks that require fine-grained control involving force, especially under visual occlusion or dynamic uncertainty. To address these limitations, we propose \textbf{ForceVLA}, a novel end-to-end manipulation framework that treats external force sensing as a first-class modality within VLA systems. ForceVLA introduces \textbf{FVLMoE}, a force-aware Mixture-of-Experts fusion module that dynamically integrates pretrained visual-language embeddings with real-time 6-axis force feedback during action decoding. This enables context-aware routing across modality-specific experts, enhancing the robot’s ability to adapt to subtle contact dynamics. We also introduce \textbf{ForceVLA-Data}, a new dataset comprising synchronized vision, proprioception, and force-torque signals across five contact-rich manipulation tasks. ForceVLA improves average task success by 23.2\% over strong $\pi_0$-based baselines, achieving up to 80\% success in tasks such as plug insertion. Our approach highlights the importance of multimodal integration for dexterous manipulation and sets a new benchmark for physically intelligent robotic control. Code and data will be released at https://sites.google.com/view/forcevla2025.

arxiv情報

著者 Jiawen Yu,Hairuo Liu,Qiaojun Yu,Jieji Ren,Ce Hao,Haitong Ding,Guangyu Huang,Guofan Huang,Yan Song,Panpan Cai,Cewu Lu,Wenqiang Zhang
発行日 2025-05-28 09:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク