Robust PAC$^m$: Training Ensemble Models Under Model Misspecification and Outliers

要約

標準的なベイジアン学習は、モデルの仕様ミスや外れ値が存在する場合、次善の一般化機能を持つことが知られています。
PAC-ベイズ理論は、ベイジアン学習によって最小化される自由エネルギー基準が、外れ値によって汚染されていないサンプリング分布の仮定の下で、ギブス予測子 (つまり、事後から無作為に抽出された単一モデル) の一般化誤差の境界であることを示しています。
この観点は、モデルが正しく指定されておらず、アンサンブルが必要な場合、およびデータが外れ値の影響を受けている場合に、ベイジアン学習の制限を正当化するものです。
最近の研究では、PAC$^m$ と呼ばれる PAC-Bayes 境界が導出され、アンサンブル予測子のパフォーマンスを説明する自由エネルギー メトリックが導入され、誤った仕様の下でパフォーマンスが向上しました。
この作業は、一般化された対数スコア関数と PAC$^m$ アンサンブル境界を組み合わせた、新しい堅牢な自由エネルギー基準を提示します。
提案された自由エネルギー訓練基準は、モデルの仕様ミスと外れ値の有害な影響を同時に打ち消すことができる予測分布を生成します。

要約(オリジナル)

Standard Bayesian learning is known to have suboptimal generalization capabilities under model misspecification and in the presence of outliers. PAC-Bayes theory demonstrates that the free energy criterion minimized by Bayesian learning is a bound on the generalization error for Gibbs predictors (i.e., for single models drawn at random from the posterior) under the assumption of sampling distributions uncontaminated by outliers. This viewpoint provides a justification for the limitations of Bayesian learning when the model is misspecified, requiring ensembling, and when data is affected by outliers. In recent work, PAC-Bayes bounds – referred to as PAC$^m$ – were derived to introduce free energy metrics that account for the performance of ensemble predictors, obtaining enhanced performance under misspecification. This work presents a novel robust free energy criterion that combines the generalized logarithm score function with PAC$^m$ ensemble bounds. The proposed free energy training criterion produces predictive distributions that are able to concurrently counteract the detrimental effects of model misspecification and outliers.

arxiv情報

著者 Matteo Zecchin,Sangwoo Park,Osvaldo Simeone,Marios Kountouris,David Gesbert
発行日 2023-03-28 16:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク