要約
価値関数における認識論的不確実性の推定は、効率的な調査、安全な意思決定、オフラインRLなど、強化学習の多くの側面(RL)にとって重要な課題です。
ディープアンサンブルは、値の不確実性を定量化するための堅牢な方法を提供しますが、重要な計算オーバーヘッドが付属しています。
シングルモデルの方法は、計算的に有利ですが、多くの場合、ヒューリスティックに依存しており、通常、近視の不確実性の推定に追加の伝播メカニズムが必要です。
この作業では、ランダムネットワーク蒸留(RND)に類似したスピリットで類似しているユニバーサルバリュー機能不確実性(UVU)を導入します。
RNDとは異なり、UVUエラーは、特定のポリシーが遭遇する可能性のある将来の不確実性を組み込んだポリシー条件の価値の不確実性を反映しています。
これは、UVUで採用されているトレーニング手順によるものです。オンラインネットワークは、固定されたランダムに初期化されたターゲットネットワークから派生した合成報酬を使用して、時間差学習を使用してトレーニングされています。
神経接線カーネル(NTK)理論を使用したアプローチの広範な理論分析を提供し、無限のネットワーク幅の限界では、UVUエラーが独立したユニバーサル値関数のアンサンブルの分散とまったく同等であることを示しています。
経験的には、UVUが挑戦的なマルチタスクオフラインRL設定で大規模なアンサンブルと同等のパフォーマンスを達成し、シンプルさと実質的な計算の節約を提供することを示しています。
要約(オリジナル)
Estimating epistemic uncertainty in value functions is a crucial challenge for many aspects of reinforcement learning (RL), including efficient exploration, safe decision-making, and offline RL. While deep ensembles provide a robust method for quantifying value uncertainty, they come with significant computational overhead. Single-model methods, while computationally favorable, often rely on heuristics and typically require additional propagation mechanisms for myopic uncertainty estimates. In this work we introduce universal value-function uncertainties (UVU), which, similar in spirit to random network distillation (RND), quantify uncertainty as squared prediction errors between an online learner and a fixed, randomly initialized target network. Unlike RND, UVU errors reflect policy-conditional value uncertainty, incorporating the future uncertainties any given policy may encounter. This is due to the training procedure employed in UVU: the online network is trained using temporal difference learning with a synthetic reward derived from the fixed, randomly initialized target network. We provide an extensive theoretical analysis of our approach using neural tangent kernel (NTK) theory and show that in the limit of infinite network width, UVU errors are exactly equivalent to the variance of an ensemble of independent universal value functions. Empirically, we show that UVU achieves equal performance to large ensembles on challenging multi-task offline RL settings, while offering simplicity and substantial computational savings.
arxiv情報
著者 | Moritz A. Zanger,Max Weltevrede,Yaniv Oren,Pascal R. Van der Vaart,Caroline Horsch,Wendelin Böhmer,Matthijs T. J. Spaan |
発行日 | 2025-06-02 16:01:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google