Maximum Weight Entropy

要約

この論文では、ベイジアン法とアンサンブル法を使用した深層学習における不確実性の定量化と分布外の検出について説明します。
これは、標準的なアプローチを配布外で使用した場合に最近観察された予測多様性の欠如に対する実用的な解決策を提案しています (Ovadia et al., 2019; Liu et al., 2021)。
この問題が主に重みの多様性の欠如に関係していることを考慮すると、標準的な手法では、重みの減衰やゼロなどの「過剰な正則化」プロセスの使用により、重み空間の「過度に制限された」領域でサンプリングが行われると主張します。
平均中心ガウス事前分布。
我々は、重みの多様性を最大化するという基本的な考え方を用いて、重み分布に最大エントロピー原理を採用することによって問題を解決することを提案します。
このパラダイムの下では、認識論的不確実性は、トレーニング観察と「一致する」ニューラル ネットワークを生成する最大エントロピーの重み分布によって記述されます。
確率的ニューラル ネットワークを考慮すると、平均経験的リスクと重み分布エントロピーの間のトレードオフとして定義される、このような分布を構築するための実際的な最適化が導出されます。
ニューラル ネットワークの隠れた表現の特異値分解に基づいて、確率モデルの新しい重みパラメータ化を開発します。これにより、小さな経験的リスク ペナルティで重みエントロピーを大幅に増加できます。
アプローチの効率を評価するために、理論的結果と数値的結果の両方を提供します。
特に、提案されたアルゴリズムは、30 社を超える競合他社を含む広範な分布外検出ベンチマークのすべての構成において、上位 3 つの最良の方法に含まれています。

要約(オリジナル)

This paper deals with uncertainty quantification and out-of-distribution detection in deep learning using Bayesian and ensemble methods. It proposes a practical solution to the lack of prediction diversity observed recently for standard approaches when used out-of-distribution (Ovadia et al., 2019; Liu et al., 2021). Considering that this issue is mainly related to a lack of weight diversity, we claim that standard methods sample in ‘over-restricted’ regions of the weight space due to the use of ‘over-regularization’ processes, such as weight decay and zero-mean centered Gaussian priors. We propose to solve the problem by adopting the maximum entropy principle for the weight distribution, with the underlying idea to maximize the weight diversity. Under this paradigm, the epistemic uncertainty is described by the weight distribution of maximal entropy that produces neural networks ‘consistent’ with the training observations. Considering stochastic neural networks, a practical optimization is derived to build such a distribution, defined as a trade-off between the average empirical risk and the weight distribution entropy. We develop a novel weight parameterization for the stochastic model, based on the singular value decomposition of the neural network’s hidden representations, which enables a large increase of the weight entropy for a small empirical risk penalization. We provide both theoretical and numerical results to assess the efficiency of the approach. In particular, the proposed algorithm appears in the top three best methods in all configurations of an extensive out-of-distribution detection benchmark including more than thirty competitors.

arxiv情報

著者 Antoine de Mathelin,François Deheeger,Mathilde Mougeot,Nicolas Vayatis
発行日 2023-09-27 14:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク