要約
タイトル:言語制御拡散:空間、時間、タスクを効率的に拡大する
要約:
– 一般的なエージェントのトレーニングは、高次元の入力(空間)、長期的視野(時間)、および複数の新しいタスクを扱う必要があるため、困難です。
– 最近のアーキテクチャの進歩により、これらの次元の1つまたは2つに沿ってスケールを拡大することができるようになりましたが、計算的にも制約があります。
– この論文では、言語を条件とした階層的なプランナーである言語制御拡散モデル(LCD)を活用することで、拡張された時間的、状態的、およびタスク的次元における計画を拡大することで、すべての3つの軸に対処します。
– CALVIN言語ロボティクスベンチマークで他の最先端のモデルと比較し、LCDがマルチタスクの成功率で他のSOTA方法を上回り、シングルタスク成功率(SR)が88.7%であることが分かりました。これは過去最高の82.6%を大幅に上回ります。
– LCDは拡散モデルの特異な強みを効果的に活用し、長期的な計画を生み出す一方で、低レベルの詳細と制御を生成するという弱点に対処することができます。
– コードとモデルは、https://github.com/ezhang7423/language-control-diffusionで公開されています。
要約(オリジナル)
Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and multiple and new tasks. Recent advances with architectures have allowed for improved scaling along one or two of these dimensions, but are still prohibitive computationally. In this paper, we propose to address all three axes by leveraging Language to Control Diffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions. We compare LCD with other state-of-the-art models on the CALVIN language robotics benchmark and find that LCD outperforms other SOTA methods in multi task success rates while dramatically improving computational efficiency with a single task success rate (SR) of 88.7% against the previous best of 82.6%. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness at generating low-level details and control. We release our code and models at https://github.com/ezhang7423/language-control-diffusion.
arxiv情報
著者 | Edwin Zhang,Yujie Lu,William Wang,Amy Zhang |
発行日 | 2023-04-11 02:15:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI