Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation

要約

最近、Vision-Language-active Models(VLA)には高度なロボット模倣学習がありますが、高いデータ収集コストと限られたデモンストレーションは、特に長老のタスクで、分散型シナリオで一般化と現在の模倣学習方法の闘争を妨げています。
重要な課題は、模倣学習の複合エラーを緩和する方法です。
これらの課題に対処するために、拡散軌跡誘導ポリシー(DTP)フレームワークを提案します。これは、拡散モデルを介して2D軌道を生成し、長期式タスクのポリシー学習をガイドします。
タスク関連の軌跡を活用することにより、DTPはエラーの蓄積を減らすための軌跡レベルのガイダンスを提供します。
私たちの2段階のアプローチは、最初に拡散ベースの軌跡を作成するための生成的ビジョン言語モデルをトレーニングし、それらを使用して模倣ポリシーを改良します。
Calvinベンチマークでの実験は、DTPが外部の事前トレーニングなしでゼロから始まる最先端のベースラインを25%上回ることを示しています。
さらに、DTPは現実世界のロボットのパフォーマンスを大幅に改善します。

要約(オリジナル)

Recently, Vision-Language-Action models (VLA) have advanced robot imitation learning, but high data collection costs and limited demonstrations hinder generalization and current imitation learning methods struggle in out-of-distribution scenarios, especially for long-horizon tasks. A key challenge is how to mitigate compounding errors in imitation learning, which lead to cascading failures over extended trajectories. To address these challenges, we propose the Diffusion Trajectory-guided Policy (DTP) framework, which generates 2D trajectories through a diffusion model to guide policy learning for long-horizon tasks. By leveraging task-relevant trajectories, DTP provides trajectory-level guidance to reduce error accumulation. Our two-stage approach first trains a generative vision-language model to create diffusion-based trajectories, then refines the imitation policy using them. Experiments on the CALVIN benchmark show that DTP outperforms state-of-the-art baselines by 25% in success rate, starting from scratch without external pretraining. Moreover, DTP significantly improves real-world robot performance.

arxiv情報

著者 Shichao Fan,Quantao Yang,Yajie Liu,Kun Wu,Zhengping Che,Qingjie Liu,Min Wan
発行日 2025-02-14 09:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク