要約
この論文では、視覚運動政策を学習するために自己回帰モデルと拡散モデルをシームレスに組み合わせる新しいフレームワークである DiffusionVLA を紹介します。
私たちのアプローチの中心となるのは、次のトークンの予測目標であり、これにより、モデルが現在の観察のコンテキストでユーザーのクエリを効果的に推論できるようになります。
続いて、拡散モデルがアタッチされ、堅牢なアクション出力が生成されます。
自己推論によるポリシー学習を強化するために、推論フレーズをポリシー学習プロセスに直接統合する新しい推論注入モジュールを導入します。
フレームワーク全体がシンプルかつ柔軟なので、導入とアップグレードが簡単です。
DiffusionVLA の有効性を検証するために、複数の実際のロボットを使用して広範な実験を実施します。
私たちのテストには、工場での難しい仕分けタスクが含まれており、DifffusionVLA は、トレーニング中に表示されなかったオブジェクトも含めて、オブジェクトを正常に分類します。
推論モジュールによってモデルが解釈可能になっていることがわかります。
これにより、観察者はモデルの思考プロセスを理解し、政策失敗の潜在的な原因を特定できます。
さらに、ゼロショット ビンピッキング タスクで DiffusionVLA をテストし、102 個の未確認オブジェクトで 63.7% の精度を達成しました。
私たちの方法は、気が散るものや新しい背景などの視覚的な変化に対する堅牢性を実証し、新しい実施形態に容易に適応します。
さらに、DiffusionVLA は新しい指示に従い、会話能力を維持できます。
特に、DiffusionVLA はデータ効率が高く、推論が高速です。
当社の最小の DiffusionVLA-2B は、単一の A6000 GPU で 82Hz で動作し、複雑なタスクの 50 未満のデモンストレーションを最初からトレーニングできます。
最後に、モデルを 2B パラメーターから 72B パラメーターにスケールし、モデル サイズの増加による汎化機能の向上を示します。
要約(オリジナル)
In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason effectively over the user’s query in the context of current observations. Subsequently, a diffusion model is attached to generate robust action outputs. To enhance policy learning through self-reasoning, we introduce a novel reasoning injection module that integrates reasoning phrases directly into the policy learning process. The whole framework is simple and flexible, making it easy to deploy and upgrade. We conduct extensive experiments using multiple real robots to validate the effectiveness of DiffusionVLA. Our tests include a challenging factory sorting task, where DiffusionVLA successfully categorizes objects, including those not seen during training. We observe that the reasoning module makes the model interpretable. It allows observers to understand the model thought process and identify potential causes of policy failures. Additionally, we test DiffusionVLA on a zero-shot bin-picking task, achieving 63.7\% accuracy on 102 previously unseen objects. Our method demonstrates robustness to visual changes, such as distractors and new backgrounds, and easily adapts to new embodiments. Furthermore, DiffusionVLA can follow novel instructions and retain conversational ability. Notably, DiffusionVLA is data-efficient and fast at inference; our smallest DiffusionVLA-2B runs 82Hz on a single A6000 GPU and can train from scratch on less than 50 demonstrations for a complex task. Finally, we scale the model from 2B to 72B parameters, showcasing improved generalization capabilities with increased model size.
arxiv情報
著者 | Junjie Wen,Minjie Zhu,Yichen Zhu,Zhibin Tang,Jinming Li,Zhongyi Zhou,Chengmeng Li,Xiaoyu Liu,Yaxin Peng,Chaomin Shen,Feifei Feng |
発行日 | 2024-12-04 13:11:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google