要約
オフライン データセットで視覚強化学習 (RL) モデルをトレーニングすることは、表現学習における過剰適合の問題と価値関数における過大評価の問題により困難です。
この論文では、オフライン条件下でビジュアル RL のパフォーマンスを向上させるために、Collaborative World Models (CoWorld) と呼ばれる転移学習手法を提案します。
中心となるアイデアは、操作が簡単な既製のシミュレーターを使用して、ターゲット ドメインで学習したオフライン ポリシーのオンライン「テスト ベッド」として補助 RL モデルをトレーニングすることです。これにより、柔軟な制約が提供されます。
価値関数 — 直感的には、潜在的な利点を持つアクションの探索を妨げることなく、オフライン データ配布の外側で価値関数の過大評価の問題を軽減したいと考えています。
具体的には、CoWorld はドメイン協調表現学習を実行して、オンラインとオフラインの隠れ状態分布の間のギャップを埋めます。
さらに、ソース RL エージェントがターゲットを認識した値の推定を提供できるようにするドメイン協調動作学習を実行し、効果的なオフライン ポリシーの正規化を可能にします。
実験の結果、DeepMind Control および Meta-World のオフライン視覚制御タスクにおいて、CoWorld が既存の手法を大幅に上回るパフォーマンスを示しました。
要約(オリジナル)
Training visual reinforcement learning (RL) models in offline datasets is challenging due to overfitting issues in representation learning and overestimation problems in value function. In this paper, we propose a transfer learning method called Collaborative World Models (CoWorld) to improve the performance of visual RL under offline conditions. The core idea is to use an easy-to-interact, off-the-shelf simulator to train an auxiliary RL model as the online “test bed” for the offline policy learned in the target domain, which provides a flexible constraint for the value function — Intuitively, we want to mitigate the overestimation problem of value functions outside the offline data distribution without impeding the exploration of actions with potential advantages. Specifically, CoWorld performs domain-collaborative representation learning to bridge the gap between online and offline hidden state distributions. Furthermore, it performs domain-collaborative behavior learning that enables the source RL agent to provide target-aware value estimation, allowing for effective offline policy regularization. Experiments show that CoWorld significantly outperforms existing methods in offline visual control tasks in DeepMind Control and Meta-World.
arxiv情報
著者 | Qi Wang,Junming Yang,Yunbo Wang,Xin Jin,Wenjun Zeng,Xiaokang Yang |
発行日 | 2023-05-24 15:45:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google