要約
このペーパーでは、エンドツーエンドの強化学習 (RL) モデルのパフォーマンスを向上させることを目的として、視覚的特徴表現学習の問題に対処します。
具体的には、CRC損失と呼ばれる異種損失関数を使用して改善された視覚的特徴を学習し、その後RLでのポリシー学習に使用できる新しいアーキテクチャが提案されています。
CRC 損失関数は、3 つの個別の損失関数、つまり、対照的損失、再構成損失、および一貫性損失の組み合わせです。
シャム ツイン エンコーダー モデルを介して重みの更新を共有しながら、ポリシー学習と並行して特徴表現が学習されます。
このエンコーダー モデルは、上記の損失コンポーネントの計算を容易にするために、デコーダー ネットワークと特徴投影ネットワークで拡張されます。
潜在機能の視覚化を含む経験的分析を通じて、新しいアクション依存機能の学習においてこの損失関数が果たす役割と、それらが解決される問題の複雑さにどのように関連しているかについての洞察を提供する試みが行われます。
CRC-RL と呼ばれる提案されたアーキテクチャは、挑戦的なディープ マインド コントロール スイート環境で既存の最先端の方法よりも大幅に優れていることが示されているため、この分野で新しいベンチマークが作成されます。
要約(オリジナル)
This paper addresses the problem of visual feature representation learning with an aim to improve the performance of end-to-end reinforcement learning (RL) models. Specifically, a novel architecture is proposed that uses a heterogeneous loss function, called CRC loss, to learn improved visual features which can then be used for policy learning in RL. The CRC-loss function is a combination of three individual loss functions, namely, contrastive, reconstruction and consistency loss. The feature representation is learned in parallel to the policy learning while sharing the weight updates through a Siamese Twin encoder model. This encoder model is augmented with a decoder network and a feature projection network to facilitate computation of the above loss components. Through empirical analysis involving latent feature visualization, an attempt is made to provide an insight into the role played by this loss function in learning new action-dependent features and how they are linked to the complexity of the problems being solved. The proposed architecture, called CRC-RL, is shown to outperform the existing state-of-the-art methods on the challenging Deep mind control suite environments by a significant margin thereby creating a new benchmark in this field.
arxiv情報
著者 | Darshita Jain,Anima Majumder,Samrat Dutta,Swagat Kumar |
発行日 | 2023-03-01 04:41:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google