Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

要約

軌跡の自己回帰モデリングに基づいて構築された新しいVisuo-MotorポリシーパラダイムであるChain-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-motorのパラダイムを紹介します。
次のステップアクションを前進させる従来のアプローチとは異なり、COAは、アクションレベルのチェーンオブサベート(COT)プロセスを通じて、タスク固有の目標を持つ明示的な逆方向の推論により軌道全体を生成します。
このプロセスは、単一の自己回帰構造内で統一されています。(1)最初のトークンは、タスク固有の目標をコードする安定したキーフレームアクションに対応します。
(2)その後のアクショントークンは、最初のキーフレームに条件付けられ、以前に予測されたアクションを条件付けして、自動網目上生成されます。
この後方アクション推論により、グローバルからローカルへの構造が実施され、各ローカルアクションが最終目標によって厳密に制約されるようになります。
アクション推論構造をさらに実現するために、COAには4つの補完的な設計が組み込まれています。連続アクショントークン表現。
可変長軌道生成の動的停止。
逆時間アンサンブル;
アクションチャンクモデリングとグローバル構造のバランスを取るためのマルチトークン予測。
その結果、COAは視覚運動ポリシーの柔軟性とシンプルさを維持しながら、強力な空間一般化能力を提供します。
経験的には、COAが60のRLBenchタスクと8つの実際の操作タスクで最先端のパフォーマンスを達成することを観察します。

要約(オリジナル)

We present Chain-of-Action (CoA), a novel visuo-motor policy paradigm built upon Trajectory Autoregressive Modeling. Unlike conventional approaches that predict next step action(s) forward, CoA generates an entire trajectory by explicit backward reasoning with task-specific goals through an action-level Chain-of-Thought (CoT) process. This process is unified within a single autoregressive structure: (1) the first token corresponds to a stable keyframe action that encodes the task-specific goals; and (2) subsequent action tokens are generated autoregressively, conditioned on the initial keyframe and previously predicted actions. This backward action reasoning enforces a global-to-local structure, allowing each local action to be tightly constrained by the final goal. To further realize the action reasoning structure, CoA incorporates four complementary designs: continuous action token representation; dynamic stopping for variable-length trajectory generation; reverse temporal ensemble; and multi-token prediction to balance action chunk modeling with global structure. As a result, CoA gives strong spatial generalization capabilities while preserving the flexibility and simplicity of a visuo-motor policy. Empirically, we observe CoA achieves the state-of-the-art performance across 60 RLBench tasks and 8 real-world manipulation tasks.

arxiv情報

著者 Wenbo Zhang,Tianrun Hu,Yanyuan Qiao,Hanbo Zhang,Yuchu Qin,Yang Li,Jiajun Liu,Tao Kong,Lingqiao Liu,Xiao Ma
発行日 2025-06-11 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク