Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

要約

この論文では、自己網性モデルと視覚運動ポリシーを学習するための拡散モデルをシームレスに組み合わせる新しいフレームワークであるdiffusionVlaを紹介します。
私たちのアプローチの中心は、次のトークン予測目標であり、モデルが現在の観測のコンテキストでユーザーのクエリを効果的に推論できるようにします。
その後、拡散モデルが取り付けられ、堅牢なアクション出力が生成されます。
自己融合を通じてポリシー学習を強化するために、推論フレーズをポリシー学習プロセスに直接統合する新しい推論インジェクションモジュールを紹介します。
フレームワーク全体がシンプルで柔軟であるため、簡単に展開してアップグレードできます。
複数の実際のロボットを使用して広範な実験を実施して、拡散vlaの有効性を検証します。
私たちのテストには、困難な工場選別タスクが含まれます。このタスクでは、拡散vlaがトレーニング中に見られなかったものを含むオブジェクトを正常に分類します。
推論モジュールにより、モデルが解釈可能になることがわかります。
オブザーバーは、モデルの思考プロセスを理解し、ポリシーの障害の潜在的な原因を特定することができます。
さらに、ゼロショットビンピッキングタスクでDiffusionVlaをテストし、以前に見えない102のオブジェクトで63.7%の精度を達成しました。
私たちの方法は、ディストラクタや新しい背景などの視覚的な変化に対する堅牢性を示し、新しい実施形態に簡単に適応します。
さらに、DiffusionVlaは新しい指示に従い、会話能力を維持できます。
特に、diffusionVlaはデータ効率が高く、推論で高速です。
私たちの最小の拡散Vla-2Bは、単一のA6000 GPUで82Hzを実行し、複雑なタスクのために50未満のデモンストレーションでゼロからトレーニングできます。
最後に、モデルを2Bから72Bのパラメーターから72Bパラメーターにスケーリングし、モデルサイズの増加により改善された一般化機能を紹介します。

要約(オリジナル)

In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason effectively over the user’s query in the context of current observations. Subsequently, a diffusion model is attached to generate robust action outputs. To enhance policy learning through self-reasoning, we introduce a novel reasoning injection module that integrates reasoning phrases directly into the policy learning process. The whole framework is simple and flexible, making it easy to deploy and upgrade. We conduct extensive experiments using multiple real robots to validate the effectiveness of DiffusionVLA. Our tests include a challenging factory sorting task, where DiffusionVLA successfully categorizes objects, including those not seen during training. We observe that the reasoning module makes the model interpretable. It allows observers to understand the model thought process and identify potential causes of policy failures. Additionally, we test DiffusionVLA on a zero-shot bin-picking task, achieving 63.7\% accuracy on 102 previously unseen objects. Our method demonstrates robustness to visual changes, such as distractors and new backgrounds, and easily adapts to new embodiments. Furthermore, DiffusionVLA can follow novel instructions and retain conversational ability. Notably, DiffusionVLA is data-efficient and fast at inference; our smallest DiffusionVLA-2B runs 82Hz on a single A6000 GPU and can train from scratch on less than 50 demonstrations for a complex task. Finally, we scale the model from 2B to 72B parameters, showcasing improved generalization capabilities with increased model size.

arxiv情報

著者 Junjie Wen,Minjie Zhu,Yichen Zhu,Zhibin Tang,Jinming Li,Zhongyi Zhou,Chengmeng Li,Xiaoyu Liu,Yaxin Peng,Chaomin Shen,Feifei Feng
発行日 2025-06-04 08:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク