Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control

要約

身体化された AI エージェントには、視覚と言語の入力を介して物理世界をきめ細かく理解する必要があります。
このような機能は、タスク固有のデータのみから学習するのは困難です。
これにより、インターネット規模のデータから学習した表現を下流のタスクや新しいドメインに転送するためのツールとして、事前にトレーニングされたビジョン言語モデルが登場しました。
しかし、CLIP などで一般的に使用される対照的に訓練された表現は、身体化されたエージェントが十分にきめの細かいシーンの理解を可能にすること、つまり制御に不可欠な能力を獲得できないことが示されています。
この欠点に対処するために、事前トレーニングされたテキストから画像への拡散モデルからの表現を考慮します。このモデルは、テキスト プロンプトから画像を生成するように明示的に最適化されており、非常にきめの細かい視空間情報を反映するテキスト条件付き表現を含みます。
事前トレーニングされたテキストから画像への拡散モデルを使用して、複雑で制限のない環境に一般化する下流の制御ポリシーを学習できる安定した制御表現を構築します。
我々は、安定した制御表現を使用して学習したポリシーが、困難な操作やナビゲーションのタスクを含む、広範囲のシミュレートされた制御設定にわたって最先端の表現学習アプローチと競合できることを示します。
最も注目すべき点は、安定した制御表現によ​​り、困難なオープン語彙ナビゲーション ベンチマークである OVMM 上で最先端のパフォーマンスを示す学習ポリシーが可能になることを示しています。

要約(オリジナル)

Embodied AI agents require a fine-grained understanding of the physical world mediated through visual and language inputs. Such capabilities are difficult to learn solely from task-specific data. This has led to the emergence of pre-trained vision-language models as a tool for transferring representations learned from internet-scale data to downstream tasks and new domains. However, commonly used contrastively trained representations such as in CLIP have been shown to fail at enabling embodied agents to gain a sufficiently fine-grained scene understanding — a capability vital for control. To address this shortcoming, we consider representations from pre-trained text-to-image diffusion models, which are explicitly optimized to generate images from text prompts and as such, contain text-conditioned representations that reflect highly fine-grained visuo-spatial information. Using pre-trained text-to-image diffusion models, we construct Stable Control Representations which allow learning downstream control policies that generalize to complex, open-ended environments. We show that policies learned using Stable Control Representations are competitive with state-of-the-art representation learning approaches across a broad range of simulated control settings, encompassing challenging manipulation and navigation tasks. Most notably, we show that Stable Control Representations enable learning policies that exhibit state-of-the-art performance on OVMM, a difficult open-vocabulary navigation benchmark.

arxiv情報

著者 Gunshi Gupta,Karmesh Yadav,Yarin Gal,Dhruv Batra,Zsolt Kira,Cong Lu,Tim G. J. Rudner
発行日 2024-05-09 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, stat.ML パーマリンク