Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning

要約

多様なロボットデータセットで前提とされた最近の大きなビジョン言語アクションモデルは、いくつかのドメインデータを使用して新しい環境に一般化する可能性を実証しています。
ただし、これらのアプローチは通常、小さなアクションヘッドによって個々の離散化または連続的なアクションを予測します。これにより、多様なアクションスペースの処理能力が制限されます。
対照的に、拡散トランスポリシーと呼ばれる大きなマルチモーダル拡散トランスで連続作用シーケンスをモデル化します。このポリシーでは、アクションの埋め込みのための小さなアクションヘッドではなく、大規模なトランスモデルによって作用チャンクを直接除去します。
トランスのスケーリング機能を活用することにより、提案されたアプローチは、大規模な多様なロボットデータセット全体で連続エンドエフェクターアクションを効果的にモデル化し、より良い一般化パフォーマンスを実現できます。
広範な実験は、Maniskill2、Libero、Calvin、Simplerenvの拡散トランスポリシーの有効性と一般化を実証し、実世界のフランカアームと同様に、現実のベンチマークSimplerenv、現実世界のフランカアーム、リベロで一貫したパフォーマンスを達成します
OpenVlaとOctoと比較してください。
具体的には、ベルとホイッスルなしでは、提案されたアプローチは、CalvinタスクABC-> Dに1つのサードビューカメラストリームのみで最先端のパフォーマンスを実現し、5列に記入されたタスクの平均数を改善します。
3.6、および事前トレーニングステージは、カルバンの成功シーケンスの長さを1.2以上容易に促進します。
プロジェクトページ:https://zhihou7.github.io/dit_policy_vla/

要約(オリジナル)

Recent large vision-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict individual discretized or continuous action by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action sequence with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head for action embedding. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate the effectiveness and generalization of Diffusion Transformer Policy on Maniskill2, Libero, Calvin and SimplerEnv, as well as the real-world Franka arm, achieving consistent better performance on Real-to-Sim benchmark SimplerEnv, real-world Franka Arm and Libero compared to OpenVLA and Octo. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin task ABC->D, improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. Project Page: https://zhihou7.github.io/dit_policy_vla/

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2025-02-13 15:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク