Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

要約

多様で動的な環境で動作する汎用性の高いロボット システムに対する需要が高まっているため、大規模な実施形態にまたがるデータ コーパスを活用して広範な適応性と高度な推論を促進するジェネラリスト ポリシーの重要性が強調されています。
ただし、ジェネラリストは非効率な推論とコストのかかるトレーニングに苦労するでしょう。
代わりに、スペシャリスト ポリシーは特定のドメイン データ用に厳選されており、タスク レベルの精度と効率性に優れています。
しかし、広範囲のアプリケーションに対する一般化能力が欠けています。
これらの観察に触発されて、ジェネラリスト ポリシーとスペシャリスト ポリシーの両方のメリットを補完する相乗効果のあるデュアル システムである RoboDual を紹介します。
拡散トランスフォーマーベースのスペシャリストは、ビジョン言語アクション (VLA) ベースのジェネラリストの高レベルのタスク理解と離散化されたアクション出力を絶妙に条件付けた、複数ステップのアクションのロールアウト用に考案されています。
OpenVLA と比較して、RoboDual は、トレーニング可能なパラメーターがわずか 2,000 万個の専門ポリシーを導入することにより、現実世界の設定で 26.7% の改善と、CALVIN で 12% の向上を達成しました。
5% のデモンストレーション データのみで強力なパフォーマンスを維持し、実際の展開では 3.8 倍高い制御頻度を可能にします。
コードは公開される予定です。
私たちのプロジェクト ページは https://opendrivelab.com/RoboDual/ でホストされています。

要約(オリジナル)

The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/

arxiv情報

著者 Qingwen Bu,Hongyang Li,Li Chen,Jisong Cai,Jia Zeng,Heming Cui,Maoqing Yao,Yu Qiao
発行日 2024-10-10 14:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク