要約
生のピクセル データからの強化学習 (RL) は最近進歩していますが、サンプルの非効率性が依然として大きな障害となっています。
これまでの研究では、将来の状態を予測するための制御関連情報でエージェントの学習表現を強化することを目的として、自己教師付き補助タスクを作成することでこの課題に対処しようとしました。
しかし、これらの目標は、最適なポリシーや価値関数を表現できる表現を学習するには不十分であることが多く、小さく抽象的な離散アクション空間を持つタスクを考慮することが多いため、連続制御におけるアクション表現学習の重要性が見落とされています。
この論文では、エージェントの潜在状態とアクション表現の同時取得を促進する、シンプルかつ強力な時間対比学習アプローチである TACO: 時間アクション駆動対比学習を紹介します。
TACO は、アクション シーケンスとペアになった現在の状態の表現と、対応する将来の状態の表現の間の相互情報を最適化することで、状態とアクションの表現を同時に学習します。
理論的には、TACO は制御に十分な情報を含む状態とアクションの表現を学習し、それによってサンプル効率を向上させることが示されています。
オンライン RL の場合、TACO は、Deepmind Control Suite からの 9 つの困難な視覚的連続制御タスク全体で平均 100 万回の環境インタラクション ステップを実行した後、パフォーマンスの 40% 向上を達成しました。
さらに、TACO が既存のオフライン ビジュアル RL 手法に追加するプラグアンドプレイ モジュールとしても機能し、さまざまな品質のオフライン データセットにわたるオフライン ビジュアル RL の新しい最先端のパフォーマンスを確立できることを示します。
要約(オリジナル)
Despite recent progress in reinforcement learning (RL) from raw pixel data, sample inefficiency continues to present a substantial obstacle. Prior works have attempted to address this challenge by creating self-supervised auxiliary tasks, aiming to enrich the agent’s learned representations with control-relevant information for future state prediction. However, these objectives are often insufficient to learn representations that can represent the optimal policy or value function, and they often consider tasks with small, abstract discrete action spaces and thus overlook the importance of action representation learning in continuous control. In this paper, we introduce TACO: Temporal Action-driven Contrastive Learning, a simple yet powerful temporal contrastive learning approach that facilitates the concurrent acquisition of latent state and action representations for agents. TACO simultaneously learns a state and an action representation by optimizing the mutual information between representations of current states paired with action sequences and representations of the corresponding future states. Theoretically, TACO can be shown to learn state and action representations that encompass sufficient information for control, thereby improving sample efficiency. For online RL, TACO achieves 40% performance boost after one million environment interaction steps on average across nine challenging visual continuous control tasks from Deepmind Control Suite. In addition, we show that TACO can also serve as a plug-and-play module adding to existing offline visual RL methods to establish the new state-of-the-art performance for offline visual RL across offline datasets with varying quality.
arxiv情報
著者 | Ruijie Zheng,Xiyao Wang,Yanchao Sun,Shuang Ma,Jieyu Zhao,Huazhe Xu,Hal Daumé III,Furong Huang |
発行日 | 2023-06-22 22:21:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google