Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model

要約

不確実性の定量化は、効率的な探索や安定したオフライン強化学習から、医療診断における外れ値検出に至るまで、多数のアプリケーションが多数のアプリケーションを備えています。
しかし、最新のニューラルネットワークの規模は、完全なベイジアン推論などの多くの理論的によく動機付けられたアプローチの使用を複雑にします。
ディープアンサンブルのようなおおよその方法は、信頼できる不確実性の推定値を提供できますが、それでも計算上高価なままです。
この作業では、コンテキストの類似性蒸留を提案します。これは、そもそもそのようなアンサンブルを学習または評価することなく、単一のモデルを使用して、深い神経ネットワークのアンサンブルの分散を明示的に推定する新しいアプローチです。
私たちの方法は、無限のアンサンブルの予測分散の効率的な近似を導き出すために、神経接線カーネルによって支配された、広いニューラルネットワークの予測可能な学習ダイナミクスに基づいています。
具体的には、回帰ターゲットとしてのカーネルの類似性を伴う監視された回帰問題としてのアンサンブル分散の計算を再解釈します。
結果のモデルは、単一のフォワードパスで推論時間に予測分散を推定することができ、無効なターゲットドメインデータまたはデータの増強を使用して、その不確実性の推定値を改善することができます。
さまざまな分散除外検出ベンチマークとまばらな補強学習環境で、私たちの方法を経験的に検証します。
シングルモデルの方法は、アンサンブルベースのベースラインよりも競争力があり、時には優れたパフォーマンスを発揮し、効率的な調査の信頼できるシグナルとして機能することがわかります。
これらの結果は、補強学習と一般的な深い学習における不確実性の定量化の原則的でスケーラブルな代替として、文脈的類似性の蒸留を位置づけていると考えています。

要約(オリジナル)

Uncertainty quantification is a critical aspect of reinforcement learning and deep learning, with numerous applications ranging from efficient exploration and stable offline reinforcement learning to outlier detection in medical diagnostics. The scale of modern neural networks, however, complicates the use of many theoretically well-motivated approaches such as full Bayesian inference. Approximate methods like deep ensembles can provide reliable uncertainty estimates but still remain computationally expensive. In this work, we propose contextual similarity distillation, a novel approach that explicitly estimates the variance of an ensemble of deep neural networks with a single model, without ever learning or evaluating such an ensemble in the first place. Our method builds on the predictable learning dynamics of wide neural networks, governed by the neural tangent kernel, to derive an efficient approximation of the predictive variance of an infinite ensemble. Specifically, we reinterpret the computation of ensemble variance as a supervised regression problem with kernel similarities as regression targets. The resulting model can estimate predictive variance at inference time with a single forward pass, and can make use of unlabeled target-domain data or data augmentations to refine its uncertainty estimates. We empirically validate our method across a variety of out-of-distribution detection benchmarks and sparse-reward reinforcement learning environments. We find that our single-model method performs competitively and sometimes superior to ensemble-based baselines and serves as a reliable signal for efficient exploration. These results, we believe, position contextual similarity distillation as a principled and scalable alternative for uncertainty quantification in reinforcement learning and general deep learning.

arxiv情報

著者 Moritz A. Zanger,Pascal R. Van der Vaart,Wendelin Böhmer,Matthijs T. J. Spaan
発行日 2025-03-14 12:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク