Zero-Shot Compositional Policy Learning via Language Grounding

要約

タイトル:言語グラウンディングによるゼロショットの構成方針学習

要約:
– 従来の強化学習(RL)や模倣学習(IL)のアルゴリズムはトレーニング環境を超えて一般化できないため、言語説明など、世界に関する前提知識を利用して新しいタスクに素早く適応できる人間の現実の能力を模倣するエージェントの研究を促進するために、新しいゼロショット構成方針学習タスクを提案する。
– このタスクでは、環境がさまざまな属性の組み合わせで特徴付けられている。この研究をサポートする公共の環境がないため、研究プラットフォームであるBabyAI++を導入し、環境のダイナミクスが視覚的な外観から分離される。
– BabyAI++では、各エピソードで、様々なビジョン・ダイナミクスの組み合わせとそれに対応する説明的なテキストが提供される。学習されたエージェントの適応能力を評価するために、一部のビジョン・ダイナミクスのペアをBabyAI++でテストする。
– 現在の言語ガイドRL/IL技術は、トレーニング環境にオーバーフィットし、見たことのない組み合わせに直面すると大きな性能低下を引き起こすことがわかった。そのため、ビジュアル言語グラウンディングを実行するためのマルチモーダル融合手法とアテンションメカニズムを提案する。
– 大規模な実験により、言語グラウンディングは、ダイナミクスが異なる環境間でエージェントの一般化を改善することができることが確認された。

要約(オリジナル)

Despite recent breakthroughs in reinforcement learning (RL) and imitation learning (IL), existing algorithms fail to generalize beyond the training environments. In reality, humans can adapt to new tasks quickly by leveraging prior knowledge about the world such as language descriptions. To facilitate the research on language-guided agents with domain adaption, we propose a novel zero-shot compositional policy learning task, where the environments are characterized as a composition of different attributes. Since there are no public environments supporting this study, we introduce a new research platform BabyAI++ in which the dynamics of environments are disentangled from visual appearance. At each episode, BabyAI++ provides varied vision-dynamics combinations along with corresponding descriptive texts. To evaluate the adaption capability of learned agents, a set of vision-dynamics pairings are held-out for testing on BabyAI++. Unsurprisingly, we find that current language-guided RL/IL techniques overfit to the training environments and suffer from a huge performance drop when facing unseen combinations. In response, we propose a multi-modal fusion method with an attention mechanism to perform visual language-grounding. Extensive experiments show strong evidence that language grounding is able to improve the generalization of agents across environments with varied dynamics.

arxiv情報

著者 Tianshi Cao,Jingkang Wang,Yining Zhang,Sivabalan Manivasagam
発行日 2023-04-17 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク