要約
一般化されたロボット制御ポリシーをモデル化すると、言語ガイドによるロボット操作タスクに継続的な課題が生じます。
既存の手法は、多くの場合、データセット間のリソースを効率的に利用したり、リソース集約型のビジョン言語モデルに依存したりするのが難しいため、マルチタスクのパフォーマンスや実用的なアプリケーションが制限されます。
本研究では、潜在動作軌跡空間を活用することでロボット動作軌跡のエンコーディングと制御ポリシー生成を分離し、マルチタスク操作タスクにおけるポリシー生成の一般化能力を強化する新しいアプローチを提案します。
まず、タスクに依存しないオートエンコーダを事前にトレーニングして、観察を伴ういくつかのフレームの行動軌跡を、さまざまな環境で複数の実施形態で収集された大規模データセット上の潜在的な行動軌跡空間に投影します。
次に、潜在的な行動軌跡空間に基づいて拡散モデルを学習し、次のステップの行動を生成することを提案します。
広く使用されている 2 つのベンチマークでの実験を通じて、結果は、8 つのタスクにわたる平均成功率の点で、私たちが提案した方法がベースラインを 7% ~ 29% 上回っていることを示しています。
私たちのメソッドは事前トレーニングから一貫して恩恵を受けることができますが、ベースラインではそれができません。
私たちの方法はベースラインよりも 2 倍以上高速です。
要約(オリジナル)
Modeling generalized robot control policies poses ongoing challenges for language-guided robot manipulation tasks. Existing methods often struggle to efficiently utilize cross-dataset resources or rely on resource-intensive vision-language models, thus limiting their multi-task performance and practical applications. In this study, we propose a novel approach that decouples robot action trajectory encoding and control policy generation by leveraging latent action trajectory spaces, enhancing the generalization ability of policy generation on multi-task manipulation tasks. First, we pre-train a task-agnostic auto-encoder to project an action trajectory of several frames accompanied with observations into a latent action trajectory space on large-scale datasets collected with multiple embodiments in various environments. Then we propose learning a diffusion model based on the latent action trajectory space to generate actions of next steps. Through experiments on two widely used benchmarks, results demonstrate that our proposed method outperforms baselines by 7%-29% in terms of average success rate across eight tasks. Our method can consistently benefit from pre-training while baselines cannot. Our method is more than two times faster than our baseline.
arxiv情報
著者 | Wenhui Tan,Bei Liu,Junbo Zhang,Ruihua Song,Jianlong Fu |
発行日 | 2024-11-04 15:26:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google