要約
Q 値推定の発散は、エージェントが実際のダイナミクスにアクセスできないオフライン RL では顕著な問題です。
従来の考えでは、この不安定性は、値ターゲットをブートストラップする際の分布外アクションのクエリに起因すると考えられています。
この問題は政策上の制約や保守的な Q 推定によって軽減できますが、乖離を引き起こす根本的なメカニズムについての理論的な理解はまだ行われていません。
本研究では、このメカニズムを徹底的に理解し、改善された解決策を達成することを目指します。
まず、オフライン RL における Q 値推定の発散の主な原因として、基本的なパターンである自己励起を特定します。
次に、ニューラル タンジェント カーネル (NTK) に基づく新しい自己励起固有値測定 (SEEM) メトリクスを提案し、トレーニング時に Q ネットワークの進化する特性を測定します。これは、発散の出現について興味深い説明を提供します。
初めて、私たちの理論は、トレーニングが初期段階で発散するかどうかを確実に判断できるようになり、SGD オプティマイザーを使用した場合の推定 Q 値の増加の順序、モデルのノルム、およびクラッシュ ステップを予測することもできます。
実験は、この理論分析と完全に一致していることを示しています。
私たちは洞察に基づいて、新しい観点から発散を解決すること、つまりより良い外挿動作のためにモデルのアーキテクチャを改善することを提案します。
広範な実証研究を通じて、有害なバイアスを導入することなく発散を効果的に回避し、優れたパフォーマンスをもたらす優れたソリューションとして LayerNorm が特定されました。
実験結果は、いくつかの最も困難な設定、つまり、以前のすべての方法が失敗するデータセットの遷移を 1 つだけ使用する場合でも機能できることを証明しています。
さらに、最新のオフライン RL メソッドに簡単に組み込むことができ、多くの困難なタスクで SOTA の結果を達成できます。
また、その有効性についての独自の洞察も提供します。
要約(オリジナル)
The divergence of the Q-value estimation has been a prominent issue in offline RL, where the agent has no access to real dynamics. Traditional beliefs attribute this instability to querying out-of-distribution actions when bootstrapping value targets. Though this issue can be alleviated with policy constraints or conservative Q estimation, a theoretical understanding of the underlying mechanism causing the divergence has been absent. In this work, we aim to thoroughly comprehend this mechanism and attain an improved solution. We first identify a fundamental pattern, self-excitation, as the primary cause of Q-value estimation divergence in offline RL. Then, we propose a novel Self-Excite Eigenvalue Measure (SEEM) metric based on Neural Tangent Kernel (NTK) to measure the evolving property of Q-network at training, which provides an intriguing explanation of the emergence of divergence. For the first time, our theory can reliably decide whether the training will diverge at an early stage, and even predict the order of the growth for the estimated Q-value, the model’s norm, and the crashing step when an SGD optimizer is used. The experiments demonstrate perfect alignment with this theoretic analysis. Building on our insights, we propose to resolve divergence from a novel perspective, namely improving the model’s architecture for better extrapolating behavior. Through extensive empirical studies, we identify LayerNorm as a good solution to effectively avoid divergence without introducing detrimental bias, leading to superior performance. Experimental results prove that it can still work in some most challenging settings, i.e. using only 1 transitions of the dataset, where all previous methods fail. Moreover, it can be easily plugged into modern offline RL methods and achieve SOTA results on many challenging tasks. We also give unique insights into its effectiveness.
arxiv情報
著者 | Yang Yue,Rui Lu,Bingyi Kang,Shiji Song,Gao Huang |
発行日 | 2023-11-07 16:32:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google