要約
主流の視覚運動ポリシーは、主に全体的なアクション予測の生成モデルに依存していますが、次のトークンまたはチャンクを予測する現在の自己回帰ポリシーは、最適ではない結果を示しています。
これにより、ロボット操作のための自己回帰ポリシーの可能性を解き放つための、より効果的な学習方法の検索が動機付けられます。
このペーパーでは、密集した政策と呼ばれる双方向に拡張された学習アプローチを紹介し、アクション予測における自己回帰ポリシーの新しいパラダイムを確立します。
軽量のエンコーダのみのアーキテクチャを使用して、対数時間推論を使用して、初期の単一フレームから粗から洗練された方法でアクションシーケンスをターゲットシーケンスに繰り返し展開します。
広範な実験では、密集したポリシーが優れた自己回帰学習能力を持ち、既存の全体的な生成ポリシーを上回ることができることを検証します。
当社のポリシー、例データ、およびトレーニングコードは、公開時に公開されます。
プロジェクトページ:https://selen-suyue.github.io/dspnet/。
要約(オリジナル)
Mainstream visuomotor policies predominantly rely on generative models for holistic action prediction, while current autoregressive policies, predicting the next token or chunk, have shown suboptimal results. This motivates a search for more effective learning methods to unleash the potential of autoregressive policies for robotic manipulation. This paper introduces a bidirectionally expanded learning approach, termed Dense Policy, to establish a new paradigm for autoregressive policies in action prediction. It employs a lightweight encoder-only architecture to iteratively unfold the action sequence from an initial single frame into the target sequence in a coarse-to-fine manner with logarithmic-time inference. Extensive experiments validate that our dense policy has superior autoregressive learning capabilities and can surpass existing holistic generative policies. Our policy, example data, and training code will be publicly available upon publication. Project page: https: //selen-suyue.github.io/DspNet/.
arxiv情報
著者 | Yue Su,Xinyu Zhan,Hongjie Fang,Han Xue,Hao-Shu Fang,Yong-Lu Li,Cewu Lu,Lixin Yang |
発行日 | 2025-03-17 14:28:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google