要約
本稿では、平均分散推定ネットワーク(MVEネットワーク)(Nix and Weigend, 1994)の最適な実装に焦点を当てる。このタイプのネットワークは、例えばコンクリート・ドロップアウト(Gal et al., 2017)やディープ・アンサンブル(Lakshminarayanan et al.)具体的には、MVEネットワークは、データが平均関数と分散関数を持つ正規分布から生成されると仮定する。MVEネットワークは平均と分散の推定値を出力し、負の対数尤度を最小化することでネットワークパラメータを最適化する。我々の論文では、2つの重要な洞察を提示する。第一に、最近の研究で報告されている収束の困難さは、ウォームアップ期間を設けるという、シンプルでありながら見過ごされがちな原著者の勧告に従うことで、比較的容易に防ぐことができる。この期間中、分散を固定したまま平均値のみを最適化する。我々は実験を通してこのステップの有効性を実証し、これが標準的なプラクティスであるべきであることを強調する。補足として、ウォームアップの後、分散を最適化しながら平均を固定することが有益か、あるいは両方を同時に最適化することが有益かを検証する。ここでは、実質的な違いは観察されなかった。第二に、MVEネットワークの新しい改良を紹介する:平均と分散推定値の別々の正則化である。我々は、おもちゃの例と多くのベンチマークUCI回帰データセットの両方で、元の推奨と新しい別々の正則化に従うことで、大幅な改善につながることを実証する。
要約(オリジナル)
This paper focusses on the optimal implementation of a Mean Variance Estimation network (MVE network) (Nix and Weigend, 1994). This type of network is often used as a building block for uncertainty estimation methods in a regression setting, for instance Concrete dropout (Gal et al., 2017) and Deep Ensembles (Lakshminarayanan et al., 2017). Specifically, an MVE network assumes that the data is produced from a normal distribution with a mean function and variance function. The MVE network outputs a mean and variance estimate and optimizes the network parameters by minimizing the negative loglikelihood. In our paper, we present two significant insights. Firstly, the convergence difficulties reported in recent work can be relatively easily prevented by following the simple yet often overlooked recommendation from the original authors that a warm-up period should be used. During this period, only the mean is optimized with a fixed variance. We demonstrate the effectiveness of this step through experimentation, highlighting that it should be standard practice. As a sidenote, we examine whether, after the warm-up, it is beneficial to fix the mean while optimizing the variance or to optimize both simultaneously. Here, we do not observe a substantial difference. Secondly, we introduce a novel improvement of the MVE network: separate regularization of the mean and the variance estimate. We demonstrate, both on toy examples and on a number of benchmark UCI regression data sets, that following the original recommendations and the novel separate regularization can lead to significant improvements.
arxiv情報
著者 | Laurens Sluijterman,Eric Cator,Tom Heskes |
発行日 | 2023-08-03 12:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |