要約
深層強化学習は、シミュレーションによる視覚制御課題において優れた効率を発揮するにもかかわらず、入力学習画像の外乱に対する汎化能力は期待外れであることが示されている。画像の統計量の変化や、気が散る背景要素は、そのような制御方針の汎化や実世界での適用を妨げる落とし穴である。我々は、優れた視覚的政策は、どの画素がその判断に重要であるかを識別でき、この重要な情報源の識別を画像間で維持できるべきであるという直観を精緻化する。このことは、汎化ギャップの小さいポリシーの学習は、そのような重要な画素に焦点を当て、他の画素を無視すべきであることを意味する。これは、視覚強化学習の汎用的な手法であり、あらゆる価値関数学習手法と互換性のあるSaliency-guided Q-networks (SGQN) の導入につながる。SGQNはソフトアクター・クリティック・エージェントの汎化能力を大幅に向上させ、Deepmind Control Generalizationベンチマークにおいて既存の最先端手法を上回り、学習効率、汎化ギャップ、ポリシー解釈可能性の面で新たな基準を打ち立てた。
要約(オリジナル)
Deep reinforcement learning policies, despite their outstanding efficiency in simulated visual control tasks, have shown disappointing ability to generalize across disturbances in the input training images. Changes in image statistics or distracting background elements are pitfalls that prevent generalization and real-world applicability of such control policies. We elaborate on the intuition that a good visual policy should be able to identify which pixels are important for its decision, and preserve this identification of important sources of information across images. This implies that training of a policy with small generalization gap should focus on such important pixels and ignore the others. This leads to the introduction of saliency-guided Q-networks (SGQN), a generic method for visual reinforcement learning, that is compatible with any value function learning method. SGQN vastly improves the generalization capability of Soft Actor-Critic agents and outperforms existing stateof-the-art methods on the Deepmind Control Generalization benchmark, setting a new reference in terms of training efficiency, generalization gap, and policy interpretability.
arxiv情報
著者 | David Bertoin,Adil Zouitine,Mehdi Zouitine,Emmanuel Rachelson |
発行日 | 2023-02-08 14:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |