Functional Ensemble Distillation

要約

ベイジアンモデルには多くの望ましい特性がありますが、最も注目すべきは、限られたデータから一般化し、予測の不確実性を適切に推定する能力です。
ただし、ほとんどの場合、ベイズ推定は計算が困難であるため、これらの利点には計算コストがかかります。
この問題を軽減するための一般的なアプローチの1つは、後部からサンプリングされたモデルのアンサンブルを使用したモンテカルロ推定を使用することです。
ただし、テスト時に複数のモデルを保存して実行する必要があるため、このアプローチには依然としてかなりの計算コストがかかります。
この作業では、効率的なモデルを使用して、アンサンブルの予測を最適に抽出する方法を調査します。
まず、予測全体の分布を単純に返す現在のアプローチでは、予測間の共分散などの重要なプロパティを計算できないと主張します。これは、さらなる処理に役立つ可能性があります。
第2に、多くの限られたデータ設定では、すべてのアンサンブルメンバーがほぼゼロのトレーニング損失を達成します。つまり、トレーニングセットでほぼ同一の予測を生成し、最適ではない蒸留モデルを生成します。
両方の問題に対処するために、Functional Ensemble Distillation(FED)という名前の新しい一般的な蒸留アプローチを提案し、この設定でアンサンブルを最適に蒸留する方法を調査します。
混合拡張の形で単純な拡張スキームを介して蒸留モデルを学習すると、パフォーマンスが大幅に向上することがわかります。
いくつかのタスクでこの方法を評価し、現在のアプローチと比較して、精度と不確実性の両方の推定で優れた結果が得られることを示しました。

要約(オリジナル)

Bayesian models have many desirable properties, most notable is their ability to generalize from limited data and to properly estimate the uncertainty in their predictions. However, these benefits come at a steep computational cost as Bayesian inference, in most cases, is computationally intractable. One popular approach to alleviate this problem is using a Monte-Carlo estimation with an ensemble of models sampled from the posterior. However, this approach still comes at a significant computational cost, as one needs to store and run multiple models at test time. In this work, we investigate how to best distill an ensemble’s predictions using an efficient model. First, we argue that current approaches that simply return distribution over predictions cannot compute important properties, such as the covariance between predictions, which can be valuable for further processing. Second, in many limited data settings, all ensemble members achieve nearly zero training loss, namely, they produce near-identical predictions on the training set which results in sub-optimal distilled models. To address both problems, we propose a novel and general distillation approach, named Functional Ensemble Distillation (FED), and we investigate how to best distill an ensemble in this setting. We find that learning the distilled model via a simple augmentation scheme in the form of mixup augmentation significantly boosts the performance. We evaluated our method on several tasks and showed that it achieves superior results in both accuracy and uncertainty estimation compared to current approaches.

arxiv情報

著者 Coby Penso,Idan Achituve,Ethan Fetaya
発行日 2022-06-05 14:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク