CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

要約

ロボットの視覚運動ポリシー学習において、拡散ベースのモデルは、従来の自己回帰モデルと比較して、動作軌道生成の精度を向上させるという点で大きな成功を収めています。
ただし、複数のノイズ除去ステップによる非効率性と、複雑な制約による柔軟性の制限があります。
この論文では、自己回帰アクション生成プロセスを粗いから細かい、次のスケールのアプローチとして再定義する視覚運動ポリシー学習の新しいパラダイムである、粗いから細かいへの自己回帰ポリシー (CARP) を紹介します。
CARP はアクション生成を 2 つの段階に分離します。まず、アクション オートエンコーダーがアクション シーケンス全体のマルチスケール表現を学習します。
次に、GPT スタイルのトランスフォーマーが、粗いものから細かいものへの自己回帰プロセスを通じてシーケンス予測を改良します。
この単純かつ直観的なアプローチは、自己回帰ポリシーと同等の効率を維持しながら、拡散ベースのポリシーのパフォーマンスに匹敵する、またはそれを上回る、非常に正確でスムーズなアクションを生成します。
私たちは、現実世界のタスクだけでなく、状態ベースおよびイメージベースのシミュレーション ベンチマークに関するシングルタスクおよびマルチタスクのシナリオを含む、さまざまな設定にわたって広範な評価を実施します。
CARP は、最大 10% 向上する競争力のある成功率を達成し、最先端のポリシーと比較して 10 倍高速な推論を実現し、ロボット タスクでのアクション生成のための高性能、効率的、柔軟なパラダイムを確立します。

要約(オリジナル)

In robotic visuomotor policy learning, diffusion-based models have achieved significant success in improving the accuracy of action trajectory generation compared to traditional autoregressive models. However, they suffer from inefficiency due to multiple denoising steps and limited flexibility from complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive Policy (CARP), a novel paradigm for visuomotor policy learning that redefines the autoregressive action generation process as a coarse-to-fine, next-scale approach. CARP decouples action generation into two stages: first, an action autoencoder learns multi-scale representations of the entire action sequence; then, a GPT-style transformer refines the sequence prediction through a coarse-to-fine autoregressive process. This straightforward and intuitive approach produces highly accurate and smooth actions, matching or even surpassing the performance of diffusion-based policies while maintaining efficiency on par with autoregressive policies. We conduct extensive evaluations across diverse settings, including single-task and multi-task scenarios on state-based and image-based simulation benchmarks, as well as real-world tasks. CARP achieves competitive success rates, with up to a 10% improvement, and delivers 10x faster inference compared to state-of-the-art policies, establishing a high-performance, efficient, and flexible paradigm for action generation in robotic tasks.

arxiv情報

著者 Zhefei Gong,Pengxiang Ding,Shangke Lyu,Siteng Huang,Mingyang Sun,Wei Zhao,Zhaoxin Fan,Donglin Wang
発行日 2024-12-09 18:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク