要約
目に見えない環境に適応できるエージェントを開発することは、模倣学習において依然として困難な課題です。
この研究では、自然言語タスク記述と事前トレーニングされたマルチモーダル エンコーダーを使用してエージェントの汎化能力を強化するように設計された効率的なフレームワークである、適応型復帰条件付きポリシー (ARP) を紹介します。
私たちの重要なアイデアは、事前にトレーニングされたマルチモーダル埋め込み空間 (CLIP など) で視覚的観察と自然言語命令の間の類似性を計算し、それを報酬信号として使用することです。
次に、マルチモーダルな報酬でラベル付けされた専門家のデモンストレーションを使用して、返品条件付きポリシーをトレーニングします。
マルチモーダル報酬は各タイムステップで適応信号を提供するため、ARP は目標の誤った一般化を効果的に軽減します。
これにより、目に見えないテキスト命令に直面した場合でも、既存のテキスト条件付きポリシーと比較して、優れた汎化パフォーマンスが得られます。
報酬の品質を向上させるために、事前トレーニングされたマルチモーダル エンコーダーの微調整方法も導入し、パフォーマンスをさらに向上させます。
ビデオ デモンストレーションとソース コードは、プロジェクト Web サイト (https://sites.google.com/view/2023arp) で入手できます。
要約(オリジナル)
Developing an agent capable of adapting to unseen environments remains a difficult challenge in imitation learning. In this work, we present Adaptive Return-conditioned Policy (ARP), an efficient framework designed to enhance the agent’s generalization ability using natural language task descriptions and pre-trained multimodal encoders. Our key idea is to calculate a similarity between visual observations and natural language instructions in the pre-trained multimodal embedding space (such as CLIP) and use it as a reward signal. We then train a return-conditioned policy using expert demonstrations labeled with multimodal rewards. Because the multimodal rewards provide adaptive signals at each timestep, our ARP effectively mitigates the goal misgeneralization. This results in superior generalization performances even when faced with unseen text instructions, compared to existing text-conditioned policies. To improve the quality of rewards, we also introduce a fine-tuning method for pre-trained multimodal encoders, further enhancing the performance. Video demonstrations and source code are available on the project website: https://sites.google.com/view/2023arp.
arxiv情報
著者 | Changyeon Kim,Younggyo Seo,Hao Liu,Lisa Lee,Jinwoo Shin,Honglak Lee,Kimin Lee |
発行日 | 2023-09-19 17:39:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google