Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation

要約

Diffusion Policy は、エンドツーエンドの視覚モーター ロボット制御を学習するための強力なテクニック ツールです。
拡散ポリシーは、ディープ ニューラル ネットワークの重要な属性であるスケーラビリティを備えていることが期待されており、通常、モデル サイズの増加がパフォーマンスの向上につながることを示唆しています。
ただし、私たちの観察によると、変圧器アーキテクチャ (\DP) の拡散ポリシーは効果的に拡張するのに苦労していることがわかります。
レイヤーを少し追加しただけでも、トレーニングの結果が悪化する可能性があります。
この問題に対処するために、視覚運動学習のためのスケーラブルな拡散トランス ポリシーを導入します。
私たちが提案するメソッド、つまり \textbf{\methodname} は、拡散ポリシーのトレーニング ダイナミクスを改善し、ネットワークがマルチモーダルなアクション配信をより適切に処理できるようにする 2 つのモジュールを導入しています。
まず、\DP~ が大きな勾配の問題に悩まされており、拡散ポリシーの最適化が不安定になっていることがわかります。
この問題を解決するために、観測の特徴埋め込みを複数のアフィン層に因数分解し、それを変換ブロックに統合します。
さらに、非因果的注意を利用することで、ポリシー ネットワークが予測中に将来のアクションを引用{参照}できるようになり、複合エラーの削減に役立ちます。
私たちの提案した方法が拡散ポリシーを 1,000 万パラメータから 10 億パラメータにスケールアップすることに成功したことを示します。
\methodname という名前のこの新しいモデルは、パフォーマンスと一般化が向上し、モデルのサイズを効果的にスケールアップできます。
MetaWorld の 50 の異なるタスクにわたって \methodname~ベンチマークを行ったところ、最大の \methodname~パフォーマンスが \DP~ を上回り、平均 21.6\% の向上が見られました。
7 つの現実世界のロボット タスク全体で、当社の ScaleDP は、4 つの片手タスクで DP-T と比較して 36.25\%、3 つの両手タスクで 75\% の平均改善を示しました。
私たちは、私たちの研究が視覚運動学習用モデルのスケールアップへの道を開くと信じています。
プロジェクト ページは、scaling-diffusion-policy.github.io で入手できます。

要約(オリジナル)

Diffusion Policy is a powerful technique tool for learning end-to-end visuomotor robot control. It is expected that Diffusion Policy possesses scalability, a key attribute for deep neural networks, typically suggesting that increasing model size would lead to enhanced performance. However, our observations indicate that Diffusion Policy in transformer architecture (\DP) struggles to scale effectively; even minor additions of layers can deteriorate training outcomes. To address this issue, we introduce Scalable Diffusion Transformer Policy for visuomotor learning. Our proposed method, namely \textbf{\methodname}, introduces two modules that improve the training dynamic of Diffusion Policy and allow the network to better handle multimodal action distribution. First, we identify that \DP~suffers from large gradient issues, making the optimization of Diffusion Policy unstable. To resolve this issue, we factorize the feature embedding of observation into multiple affine layers, and integrate it into the transformer blocks. Additionally, our utilize non-causal attention which allows the policy network to \enquote{see} future actions during prediction, helping to reduce compounding errors. We demonstrate that our proposed method successfully scales the Diffusion Policy from 10 million to 1 billion parameters. This new model, named \methodname, can effectively scale up the model size with improved performance and generalization. We benchmark \methodname~across 50 different tasks from MetaWorld and find that our largest \methodname~outperforms \DP~with an average improvement of 21.6\%. Across 7 real-world robot tasks, our ScaleDP demonstrates an average improvement of 36.25\% over DP-T on four single-arm tasks and 75\% on three bimanual tasks. We believe our work paves the way for scaling up models for visuomotor learning. The project page is available at scaling-diffusion-policy.github.io.

arxiv情報

著者 Minjie Zhu,Yichen Zhu,Jinming Li,Junjie Wen,Zhiyuan Xu,Ning Liu,Ran Cheng,Chaomin Shen,Yaxin Peng,Feifei Feng,Jian Tang
発行日 2024-11-14 11:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク