Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning

要約

特徴表現を抽出する能力を考慮すると、対照的自己教師あり学習は (深層) 強化学習 (RL) の実践にうまく統合されており、さまざまなアプリケーションで効率的なポリシー学習につながります。
実証的には多大な成功を収めているにもかかわらず、RL における対照学習の理解は依然としてとらえどころがありません。
このようなギャップを縮めるために、私たちは、低ランク遷移を伴うマルコフ決定プロセス (MDP) およびマルコフ ゲーム (MG) のクラスでの対照学習によって RL をどのように強化できるかを研究します。
両方のモデルについて、コントラスト損失を最小限に抑えることによって、低ランク モデルの正しい特徴表現を抽出することを提案します。
さらに、オンライン設定では、MDP または MG 用のオンライン RL アルゴリズムとこのような対照的な損失を組み込んだ新しい信頼限界 (UCB) タイプのアルゴリズムを提案します。
さらに、私たちのアルゴリズムが真の表現を回復し、同時に MDP と MG における最適なポリシーとナッシュ均衡を学習する際のサンプル効率を達成することを理論的に証明します。
また、RL に対する UCB ベースの対照学習法の有効性を実証するための実証研究も提供します。
私たちの知る限り、私たちは、表現学習に対照学習を組み込んだ、証明された効率的なオンライン RL アルゴリズムを初めて提供します。
私たちのコードは https://github.com/Baichenjia/Contrastive-UCB で入手できます。

要約(オリジナル)

In view of its power in extracting feature representation, contrastive self-supervised learning has been successfully integrated into the practice of (deep) reinforcement learning (RL), leading to efficient policy learning in various applications. Despite its tremendous empirical successes, the understanding of contrastive learning for RL remains elusive. To narrow such a gap, we study how RL can be empowered by contrastive learning in a class of Markov decision processes (MDPs) and Markov games (MGs) with low-rank transitions. For both models, we propose to extract the correct feature representations of the low-rank model by minimizing a contrastive loss. Moreover, under the online setting, we propose novel upper confidence bound (UCB)-type algorithms that incorporate such a contrastive loss with online RL algorithms for MDPs or MGs. We further theoretically prove that our algorithm recovers the true representations and simultaneously achieves sample efficiency in learning the optimal policy and Nash equilibrium in MDPs and MGs. We also provide empirical studies to demonstrate the efficacy of the UCB-based contrastive learning method for RL. To the best of our knowledge, we provide the first provably efficient online RL algorithm that incorporates contrastive learning for representation learning. Our codes are available at https://github.com/Baichenjia/Contrastive-UCB.

arxiv情報

著者 Shuang Qiu,Lingxiao Wang,Chenjia Bai,Zhuoran Yang,Zhaoran Wang
発行日 2024-04-05 16:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク