Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift

要約

ベイジアン ディープ ラーニング (BDL) は、分布がシフトしたデータに対して適切に調整された予測を達成するための有望なアプローチです。
それにもかかわらず、多様で現実的かつ困難なベンチマーク タスクに関する最近の SOTA 手法を体系的に評価した大規模な調査は存在しません。
BDL 研究の現状を明確に把握するために、私たちは分布シフトの下での一般化機能とキャリブレーションに焦点を当てて、困難な分類および回帰タスクを含む WILDS コレクションからの実世界のデータセットに対する最新の BDL アルゴリズムを評価します。
広範囲にわたる大規模な畳み込みおよびトランスフォーマーベースのニューラル ネットワーク アーキテクチャのアルゴリズムを比較します。
特に、予測される校正誤差の署名付きバージョンを調査して、メソッドの信頼度が過大か過小かを明らかにし、メソッドの動作についてのさらなる洞察を提供します。
さらに、最初からトレーニングするのは法外にコストがかかる、大規模な事前トレーニング済みモデルを微調整するための BDL の最初の体系的な評価を提供します。
最後に、Deep Ensembles の最近の成功を考慮して、アンサンブルを使用して、一般的な単一モードの事後近似を複数のモードに拡張します。
シングルモード近似のアンサンブル化により一般にモデルの汎化能力と校正が大幅に改善されることがわかりましたが、大規模なトランスフォーマーベースの言語モデルを微調整する際のアンサンブルの故障モードも特定しました。
この設定では、最終層の Bayes By Backprop などの変分推論ベースのアプローチが精度の点で他の方法よりも大幅に優れており、SWAG などの最新の近似推論アルゴリズムが最良のキャリブレーションを実現します。

要約(オリジナル)

Bayesian deep learning (BDL) is a promising approach to achieve well-calibrated predictions on distribution-shifted data. Nevertheless, there exists no large-scale survey that evaluates recent SOTA methods on diverse, realistic, and challenging benchmark tasks in a systematic manner. To provide a clear picture of the current state of BDL research, we evaluate modern BDL algorithms on real-world datasets from the WILDS collection containing challenging classification and regression tasks, with a focus on generalization capability and calibration under distribution shift. We compare the algorithms on a wide range of large, convolutional and transformer-based neural network architectures. In particular, we investigate a signed version of the expected calibration error that reveals whether the methods are over- or under-confident, providing further insight into the behavior of the methods. Further, we provide the first systematic evaluation of BDL for fine-tuning large pre-trained models, where training from scratch is prohibitively expensive. Finally, given the recent success of Deep Ensembles, we extend popular single-mode posterior approximations to multiple modes by the use of ensembles. While we find that ensembling single-mode approximations generally improves the generalization capability and calibration of the models by a significant margin, we also identify a failure mode of ensembles when finetuning large transformer-based language models. In this setting, variational inference based approaches such as last-layer Bayes By Backprop outperform other methods in terms of accuracy by a large margin, while modern approximate inference algorithms such as SWAG achieve the best calibration.

arxiv情報

著者 Florian Seligmann,Philipp Becker,Michael Volpp,Gerhard Neumann
発行日 2023-06-22 10:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク