要約
多様なロボットシステムが多様で動的な環境で動作するための需要の増加は、一般主義政策の重要性を強調しており、大規模な交差体拡大データコーパスを活用して、広範な適応性と高レベルの推論を促進します。
ただし、ジェネラリストは非効率的な推論とコストの高価なトレーニングに苦労します。
代わりに、スペシャリストポリシーは特定のドメインデータに対してキュレーションされており、効率的にタスクレベルの精度で優れています。
しかし、幅広いアプリケーションの一般化能力がありません。
これらの観察に触発されて、私たちは、ジェネラリストと専門政策の両方のメリットを補完する相乗的な二重システムであるRobodualを紹介します。
拡散トランスベースの専門家は、マルチステップアクションロールアウトのために考案され、高レベルのタスクの理解と視覚言語アクション(VLA)ベースのジェネラリストの離散化アクション出力を絶妙に条件付けられます。
OpenVLAと比較して、Robodualは、わずか20mのトレーニング可能なパラメーターを備えた専門政策を導入することにより、現実世界の設定で26.7%の改善とCalvinの12%の増加を達成します。
デモデータの5%のみで強力なパフォーマンスを維持し、実際の展開で3.8倍の制御周波数を有効にします。
コードは公開されます。
プロジェクトページは、https://opendrivelab.com/robodual/でホストされています
要約(オリジナル)
The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/
arxiv情報
著者 | Qingwen Bu,Hongyang Li,Li Chen,Jisong Cai,Jia Zeng,Heming Cui,Maoqing Yao,Yu Qiao |
発行日 | 2025-02-06 12:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google