要約
最近のモデルフリーの強化学習 (RL) 手法は、ゲーム環境において人間レベルの有効性を実証しましたが、視覚的なナビゲーションなどの日常的なタスクにおけるその成功は、特に外観が大きく異なる場合には限定的でした。
この制限は、(i) サンプル効率が低いこと、および (ii) トレーニング シナリオへの過剰適合から発生します。
これらの課題に対処するために、(i) 対比教師なし学習と (ii) 介入不変正則化子を使用して不変特徴を学習する世界モデルを提示します。
ワールドダイナミクスの明示的な表現、つまりワールドモデルを学習すると、サンプル効率が向上しますが、対照学習は暗黙的に不変特徴の学習を強制するため、一般化が向上します。
ただし、ワールド モデルに基づく RL 手法は表現学習とエージェント ポリシーを独立して最適化するため、ビジュアル エンコーダーへの監視信号が不足しているため、ワールド モデルへの対照的損失の単純な統合は失敗します。
この問題を克服するために、スタイル介入に対する不変性を明示的に強制する、奥行き予測、画像ノイズ除去などの補助タスクの形で介入不変正則化を提案します。
私たちの手法は、現在の最先端のモデルベースおよびモデルフリー RL 手法を上回り、iGibson ベンチマークで評価された分布外ポイント ナビゲーション タスクにおいて大幅に優れています。
さらに、視覚的な観察のみを用いた私たちのアプローチが、計算能力が限られたロボットへの展開に不可欠なポイントナビゲーション用の最近の言語ガイド基盤モデルよりも優れていることを実証します。
最後に、提案したモデルが、Gibson ベンチマークでの知覚モジュールの sim-to-real 転送において優れていることを実証します。
要約(オリジナル)
While recent model-free Reinforcement Learning (RL) methods have demonstrated human-level effectiveness in gaming environments, their success in everyday tasks like visual navigation has been limited, particularly under significant appearance variations. This limitation arises from (i) poor sample efficiency and (ii) over-fitting to training scenarios. To address these challenges, we present a world model that learns invariant features using (i) contrastive unsupervised learning and (ii) an intervention-invariant regularizer. Learning an explicit representation of the world dynamics i.e. a world model, improves sample efficiency while contrastive learning implicitly enforces learning of invariant features, which improves generalization. However, the naive integration of contrastive loss to world models fails due to a lack of supervisory signals to the visual encoder, as world-model-based RL methods independently optimize representation learning and agent policy. To overcome this issue, we propose an intervention-invariant regularizer in the form of an auxiliary task such as depth prediction, image denoising, etc., that explicitly enforces invariance to style-interventions. Our method outperforms current state-of-the-art model-based and model-free RL methods and significantly on out-of-distribution point navigation task evaluated on the iGibson benchmark. We further demonstrate that our approach, with only visual observations, outperforms recent language-guided foundation models for point navigation, which is essential for deployment on robots with limited computation capabilities. Finally, we demonstrate that our proposed model excels at the sim-to-real transfer of its perception module on Gibson benchmark.
arxiv情報
著者 | Rudra P. K. Poudel,Harit Pandya,Stephan Liwicki,Roberto Cipolla |
発行日 | 2023-12-14 15:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google