Post-Hoc Reversal: Are We Selecting Models Prematurely?

要約

トレーニング済みモデルは、パフォーマンス、ロバスト性、不確実性推定などを向上させるために、温度スケーリング (TS)、アンサンブル、確率的重み平均化 (SWA) などのポストホック変換を使用して構成されることがよくあります。ただし、このような変換は通常、ベース モデルが完了した後にのみ適用されます。
標準的な手段によってすでに完成されています。
この論文では、広範な実証研究によってこの慣行に挑戦します。
特に、ポストホック変換を適用した後にパフォーマンス傾向が逆転する、ポストホック反転と呼ばれる現象を示します。
この現象は、ノイズが多い環境で特に顕著になります。
たとえば、ベース モデルはトレーニングの初期段階では過度にオーバーフィットしますが、従来のアンサンブルと SWA は両方とも、より多くのエポックでトレーニングされたベース モデルを優先します。
事後反転は、二重降下の出現を抑制し、基本モデルで見られるテスト損失とテストエラーの間の不一致を軽減することもできます。
私たちの調査結果に基づいて、ポストホック選択を提案します。これは、ポストホックメトリクスが早期停止、チェックポイント設定、より広範なハイパーパラメーターの選択などのモデル開発の決定に情報を与えるシンプルな手法です。
当社の実験分析は、衛星画像、言語モデリング、国勢調査予測、ソーシャル ネットワーク分析などの領域からの現実世界の視覚、言語、表およびグラフのデータセットに及びます。
LLM 命令チューニング データセットでは、ポストホック選択により、単純な選択と比較して 1.5 倍を超える MMLU の改善が得られます。
コードは https://github.com/rishabh-ranjan/post-hoc-reversal で入手できます。

要約(オリジナル)

Trained models are often composed with post-hoc transforms such as temperature scaling (TS), ensembling and stochastic weight averaging (SWA) to improve performance, robustness, uncertainty estimation, etc. However, such transforms are typically applied only after the base models have already been finalized by standard means. In this paper, we challenge this practice with an extensive empirical study. In particular, we demonstrate a phenomenon that we call post-hoc reversal, where performance trends are reversed after applying these post-hoc transforms. This phenomenon is especially prominent in high-noise settings. For example, while base models overfit badly early in training, both conventional ensembling and SWA favor base models trained for more epochs. Post-hoc reversal can also suppress the appearance of double descent and mitigate mismatches between test loss and test error seen in base models. Based on our findings, we propose post-hoc selection, a simple technique whereby post-hoc metrics inform model development decisions such as early stopping, checkpointing, and broader hyperparameter choices. Our experimental analyses span real-world vision, language, tabular and graph datasets from domains like satellite imaging, language modeling, census prediction and social network analysis. On an LLM instruction tuning dataset, post-hoc selection results in > 1.5x MMLU improvement compared to naive selection. Code is available at https://github.com/rishabh-ranjan/post-hoc-reversal.

arxiv情報

著者 Rishabh Ranjan,Saurabh Garg,Mrigank Raman,Carlos Guestrin,Zachary Chase Lipton
発行日 2024-04-11 14:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク