Diffusion Transformer Policy

要約

多様なロボット データセットで事前トレーニングされた最近の大規模な視覚言語アクション モデルは、少数のドメイン内データを持つ新しい環境に一般化できる可能性を示しています。
ただし、これらのアプローチは通常、小さなアクション ヘッドによる離散的または連続的なアクションを予測するため、多様なアクション スペースを処理する能力が制限されます。
対照的に、拡散トランス ポリシーと呼ばれる大きなマルチモーダル拡散トランスを使用して連続アクションをモデル化します。この場合、小さなアクション ヘッドではなく大きなトランス モデルによってアクション チャンクのノイズを直接除去します。
トランスフォーマーのスケーリング機能を活用することで、提案されたアプローチは、大規模で多様なロボット データセットにわたる連続的なエンドエフェクターのアクションを効果的にモデル化し、より優れた汎化パフォーマンスを達成できます。
広範な実験により、多様なロボット データで事前トレーニングされた拡散トランスフォーマー ポリシーが、Maniskill2 や Calvin などのシミュレーション環境や現実世界の Franka アームなど、さまざまな実施形態に一般化できることが実証されています。
具体的には、提案されたアプローチは、追加機能なしで、Calvin の新しいタスク設定 (ABC->D) で 1 つのサードビュー カメラ ストリームのみで最先端のパフォーマンスを達成し、1 回のタスクで完了する平均タスク数を向上させます。
列は 5 から 3.6 であり、事前トレーニング段階により、Calvin の成功シーケンスの長さが 1.2 以上大幅に短縮されます。
コードは公開されます。

要約(オリジナル)

Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2024-10-21 12:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク