要約
RL の過学習は、強化学習 (RL) への応用に対する主な障害の 1 つとなっています。
既存の方法では、特徴抽出器に明示的なセマンティック制約が提供されていないため、エージェントが統一されたクロスドメイン表現を学習することが妨げられ、目に見えないドメインでのパフォーマンスの低下が生じます。
さらに、複数のドメインからの豊富なデータが必要です。
これらの問題に対処するために、この研究では、ゼロショット ポリシー転送のためのイメージ内の有害なドメイン バイアスを軽減する堅牢なフレームワークであるプロンプトベースのビジュアル アライメント (PVA) を提案します。
Visual-Language Model (VLM) がテキスト空間と画像空間の両方を接続するブリッジとして機能できることに着想を得て、テキスト シーケンスに含まれる意味情報を明示的な制約として利用して、ビジュアル アライナーをトレーニングします。
したがって、ビジュアル アライナは、複数のドメインから統一されたドメインに画像をマッピングし、良好な汎化パフォーマンスを達成できます。
セマンティック情報をより適切に表現するために、学習可能なトークンのシーケンスを学習するためにプロンプト チューニングが適用されます。
セマンティック情報の明示的な制約により、PVA はクロスドメイン データへの制限されたアクセスの下で統一されたクロスドメイン表現を学習し、目に見えないドメインで優れたゼロショット汎化能力を実現します。
CARLAシミュレータを用いてビジョンベースの自動運転タスクにおけるPVAを検証します。
実験では、マルチドメイン データへのアクセスが制限されている場合でも、エージェントが目に見えないドメインをうまく一般化することが示されています。
要約(オリジナル)
Overfitting in RL has become one of the main obstacles to applications in reinforcement learning(RL). Existing methods do not provide explicit semantic constrain for the feature extractor, hindering the agent from learning a unified cross-domain representation and resulting in performance degradation on unseen domains. Besides, abundant data from multiple domains are needed. To address these issues, in this work, we propose prompt-based visual alignment (PVA), a robust framework to mitigate the detrimental domain bias in the image for zero-shot policy transfer. Inspired that Visual-Language Model (VLM) can serve as a bridge to connect both text space and image space, we leverage the semantic information contained in a text sequence as an explicit constraint to train a visual aligner. Thus, the visual aligner can map images from multiple domains to a unified domain and achieve good generalization performance. To better depict semantic information, prompt tuning is applied to learn a sequence of learnable tokens. With explicit constraints of semantic information, PVA can learn unified cross-domain representation under limited access to cross-domain data and achieves great zero-shot generalization ability in unseen domains. We verify PVA on a vision-based autonomous driving task with CARLA simulator. Experiments show that the agent generalizes well on unseen domains under limited access to multi-domain data.
arxiv情報
| 著者 | Haihan Gao,Rui Zhang,Qi Yi,Hantao Yao,Haochen Li,Jiaming Guo,Shaohui Peng,Yunkai Gao,QiCheng Wang,Xing Hu,Yuanbo Wen,Zihao Zhang,Zidong Du,Ling Li,Qi Guo,Yunji Chen |
| 発行日 | 2024-06-05 13:26:30+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google