LanGWM: Language Grounded World Model

要約

深層強化学習の最近の進歩により、複雑なタスクへの取り組みにおけるその可能性が実証されました。
しかし、視覚制御タスクに関する実験では、最先端の強化学習モデルが分布外一般化に苦戦していることが明らかになりました。
逆に、より高いレベルの概念やグローバルなコンテキストを表現することは、言語を使用することで比較的簡単です。
大規模言語モデルの最近の成功に基づいて、私たちの主な目的は、堅牢なアクション選択のために言語を活用することにより、強化学習における状態抽象化手法を改善することです。
具体的には、モデルベースの強化学習手法であるワールド モデル学習を強化するために、言語に基づいた視覚的特徴の学習に焦点を当てています。
仮説を明示的に実行するために、画像観察内のいくつかのオブジェクトの境界ボックスをマスクし、これらのマスクされたオブジェクトの説明としてテキスト プロンプトを提供します。
その後、トランスフォーマーベースのマスクされたオートエンコーダーのアプローチと同様に、ピクセル再構成としてマスクされたオブジェクトと周囲の領域を予測します。
私たちが提案する LanGWM: Language Grounded World Model は、iGibson ポイント ナビゲーション タスクの 100K インタラクション ステップ ベンチマークにおける配布外テストで最先端のパフォーマンスを達成します。
さらに、私たちが提案した明示的な言語に基づいた視覚表現学習の手法は、抽出された視覚的特徴が言語に基づいているため、人間とロボットの相互作用のモデルを改善する可能性があります。

要約(オリジナル)

Recent advances in deep reinforcement learning have showcased its potential in tackling complex tasks. However, experiments on visual control tasks have revealed that state-of-the-art reinforcement learning models struggle with out-of-distribution generalization. Conversely, expressing higher-level concepts and global contexts is relatively easy using language. Building upon recent success of the large language models, our main objective is to improve the state abstraction technique in reinforcement learning by leveraging language for robust action selection. Specifically, we focus on learning language-grounded visual features to enhance the world model learning, a model-based reinforcement learning technique. To enforce our hypothesis explicitly, we mask out the bounding boxes of a few objects in the image observation and provide the text prompt as descriptions for these masked objects. Subsequently, we predict the masked objects along with the surrounding regions as pixel reconstruction, similar to the transformer-based masked autoencoder approach. Our proposed LanGWM: Language Grounded World Model achieves state-of-the-art performance in out-of-distribution test at the 100K interaction steps benchmarks of iGibson point navigation tasks. Furthermore, our proposed technique of explicit language-grounded visual representation learning has the potential to improve models for human-robot interaction because our extracted visual features are language grounded.

arxiv情報

著者 Rudra P. K. Poudel,Harit Pandya,Chao Zhang,Roberto Cipolla
発行日 2023-11-29 12:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク