DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

要約

ロボットがさまざまな環境で多様なタスクを実行できるようにすることは、ロボット学習の中心的な課題です。
Vision-Language-action(VLA)モデルは、一般化可能なロボットスキルの有望を示していますが、彼らの潜在能力を最大限に発揮するには、アクション表現と効率的なトレーニングの制限に対処する必要があります。
現在のVLAモデルは、多くの場合、Vision-Language Model(VLM)コンポーネントのスケーリングに焦点を当てていますが、アクション空間表現は重要なボトルネックのままです。
このペーパーでは、多様なロボットの実施形態全体で複雑で長期のタスクのVLAの効率と一般化能力を強化するために設計された新しいフレームワークであるDexVLAを紹介します。
DexVLAは、交差体拡散学習用に設計された10億パラメーターに拡大された、新しい拡散ベースのアクションエキスパートを特徴としています。
新しい実施形態カリキュラム学習戦略により、効率的なトレーニングが促進されます。(1)交差体存在データでVLAから分離できる拡散専門家、(2)VLAモデルを特定の実施形態に合わせ、(3)新しいタスクへの迅速な適応のためのトレーニング後のトレーニング。
私たちは、単一腕、二近、および器用な手を含む複数の実施形態にわたって包括的な実験を実施し、タスク固有の適応なしで挑戦的なタスクに対するDexvlaの適応性を実証します。
すべての設定で、私たちの方法は、Octo、OpenVLA、拡散ポリシーなどの最先端のモデルと比較して優れたパフォーマンスを示しています。

要約(オリジナル)

Enabling robots to perform diverse tasks across varied environments is a central challenge in robot learning. While vision-language-action (VLA) models have shown promise for generalizable robot skills, realizing their full potential requires addressing limitations in action representation and efficient training. Current VLA models often focus on scaling the vision-language model (VLM) component, while the action space representation remains a critical bottleneck. This paper introduces DexVLA, a novel framework designed to enhance the efficiency and generalization capabilities of VLAs for complex, long-horizon tasks across diverse robot embodiments. DexVLA features a novel diffusion-based action expert, scaled to one billion parameters, designed for cross-embodiment learning. A novel embodiment curriculum learning strategy facilitates efficient training: (1) pre-training the diffusion expert that is separable from the VLA on cross-embodiment data, (2) aligning the VLA model to specific embodiments, and (3) post-training for rapid adaptation to new tasks. We conduct comprehensive experiments across multiple embodiments, including single-arm, bimanual, and dexterous hand, demonstrating DexVLA’s adaptability to challenging tasks without task-specific adaptation, its ability to learn dexterous skills on novel embodiments with limited data, and its capacity to complete complex, long-horizon tasks using only direct language prompting, such as laundry folding. In all settings, our method demonstrates superior performance compared to state-of-the-art models like Octo, OpenVLA, and Diffusion Policy.

arxiv情報

著者 Junjie Wen,Yichen Zhu,Jinming Li,Zhibin Tang,Chaomin Shen,Feifei Feng
発行日 2025-05-13 10:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク