Misspecification uncertainties in near-deterministic regression

要約

予想される損失は、学習に対する堅牢な PAC ベイズ境界を許容するモデル汎化誤差の上限です。
ただし、損失の最小化は、モデルが観測値を正確に再現できない場合の誤った仕様を無視することが知られています。
これにより、大規模なデータにおけるパラメータの不確実性が大幅に過小評価されたり、パラメータが過小評価されたりする限界が生じます。
私たちは、科学と工学に広く関連する領域である、ほぼ決定論的で、仕様が誤っており、パラメーターが不足しているサロゲート モデルの一般化エラーを分析します。
発散汎化誤差を回避し、この制約を尊重するアンサンブル \textit{ansatz} を導出するには、事後分布がすべてのトレーニング ポイントをカバーする必要があることを示します。これは、線形モデルの場合、最小限のオーバーヘッドで済みます。
アトミスティック機械学習の高次元データセットに適用する前に、モデル問題で効率的なアプローチを実証します。
仕様の誤りによるパラメータの不確実性は、パラメータが過小評価された制限内でも存続し、正確な予測とテストエラーの境界を提供します。

要約(オリジナル)

The expected loss is an upper bound to the model generalization error which admits robust PAC-Bayes bounds for learning. However, loss minimization is known to ignore misspecification, where models cannot exactly reproduce observations. This leads to significant underestimates of parameter uncertainties in the large data, or underparameterized, limit. We analyze the generalization error of near-deterministic, misspecified and underparametrized surrogate models, a regime of broad relevance in science and engineering. We show posterior distributions must cover every training point to avoid a divergent generalization error and derive an ensemble \textit{ansatz} that respects this constraint, which for linear models incurs minimal overhead. The efficient approach is demonstrated on model problems before application to high dimensional datasets in atomistic machine learning. Parameter uncertainties from misspecification survive in the underparametrized limit, giving accurate prediction and bounding of test errors.

arxiv情報

著者 Thomas D Swinburne,Danny Perez
発行日 2024-04-09 16:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.data-an, stat.ML パーマリンク