Language-Guided Manipulation with Diffusion Policies and Constrained Inpainting

要約

普及政策は生成モデリングにおいて堅牢なパフォーマンスを実証しており、言語記述を介して制御されるロボット操作への応用を促しています。
この論文では、ロボット操作のためのゼロショット、オープン語彙拡散政策手法を紹介します。
ビジョン言語モデル (VLM) を使用して、私たちの手法は言語タスクの説明を 3D 空間の実行可能なキーフレームに変換します。
これらのキーフレームは、修復による拡散プロセスをガイドする役割を果たします。
ただし、生成されたキーフレームに準拠するように拡散プロセスを単純に強制することには問題があります。VLM からのキーフレームが正しくない可能性があり、拡散モデルのパフォーマンスが低下する配布範囲外 (OOD) アクション シーケンスが発生する可能性があります。
これらの課題に対処するために、キーフレームへの準拠とキーフレームへの準拠のバランスをとる修復最適化戦略を開発します。
トレーニングデータの分布。
実験による評価は、私たちのアプローチが、シミュレーション設定と現実世界の設定の両方で、従来の微調整された言語条件付きメソッドのパフォーマンスを上回ることを示しています。

要約(オリジナル)

Diffusion policies have demonstrated robust performance in generative modeling, prompting their application in robotic manipulation controlled via language descriptions. In this paper, we introduce a zero-shot, open-vocabulary diffusion policy method for robot manipulation. Using Vision-Language Models (VLMs), our method transforms linguistic task descriptions into actionable keyframes in 3D space. These keyframes serve to guide the diffusion process via inpainting. However, naively enforcing the diffusion process to adhere to the generated keyframes is problematic: the keyframes from the VLMs may be incorrect and lead to out-of-distribution (OOD) action sequences where the diffusion model performs poorly. To address these challenges, we develop an inpainting optimization strategy that balances adherence to the keyframes v.s. the training data distribution. Experimental evaluations demonstrate that our approach surpasses the performance of traditional fine-tuned language-conditioned methods in both simulated and real-world settings.

arxiv情報

著者 Ce Hao,Kelvin Lin,Siyuan Luo,Harold Soh
発行日 2024-06-14 07:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク