要約
視覚入力を使用してオフライン強化学習 (RL) モデルをトレーニングすると、2 つの重大な課題が生じます。つまり、表現学習における過剰適合の問題と、予想される将来の報酬の過大評価バイアスです。
最近の研究では、保守的な行動を奨励することで過大評価バイアスを軽減しようとしています。
対照的に、この論文では、潜在的な利点の探求を妨げることなく、価値推定のためのより柔軟な制約を構築しようとしています。
重要なアイデアは、オンラインで簡単に操作できる既製の RL シミュレーターを、オフライン ポリシーの「テスト ベッド」として活用することです。
オンラインからオフラインへの効果的な知識伝達を可能にするために、状態と報酬空間におけるクロスドメインの不一致を軽減するモデルベースの RL アプローチである CoWorld を導入します。
実験結果は、CoWorld の有効性が実証されており、既存の RL アプローチを大幅に上回っています。
要約(オリジナル)
Training offline reinforcement learning (RL) models using visual inputs poses two significant challenges, i.e., the overfitting problem in representation learning and the overestimation bias for expected future rewards. Recent work has attempted to alleviate the overestimation bias by encouraging conservative behaviors. This paper, in contrast, tries to build more flexible constraints for value estimation without impeding the exploration of potential advantages. The key idea is to leverage off-the-shelf RL simulators, which can be easily interacted with in an online manner, as the ‘test bed’ for offline policies. To enable effective online-to-offline knowledge transfer, we introduce CoWorld, a model-based RL approach that mitigates cross-domain discrepancies in state and reward spaces. Experimental results demonstrate the effectiveness of CoWorld, outperforming existing RL approaches by large margins.
arxiv情報
著者 | Qi Wang,Junming Yang,Yunbo Wang,Xin Jin,Wenjun Zeng,Xiaokang Yang |
発行日 | 2024-01-26 14:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google