Efficient Bayesian Learning Curve Extrapolation using Prior-Data Fitted Networks

要約

学習曲線の外挿は、以前のエポックのパフォーマンスに基づいて、トレーニングの後のエポックでのモデルのパフォーマンスを予測することを目的としています。
この研究では、学習曲線の外挿に固有の不確実性があるためベイジアンアプローチは正当であるが、既存の方法は (i) 過度に制限的である、および/または (ii) 計算コストが高い、と主張します。
この文脈で、事前データ適合ニューラル ネットワーク (PFN) の最初のアプリケーションについて説明します。
PFN は、単一の前方パスで近似ベイズ推論を実行するために、事前に生成されたデータに基づいて事前トレーニングされた変換器です。
我々は、MCMCを使用して従来技術で提案されたパラメトリック事前学習から生成された1,000万の人工右打ち切り学習曲線を外挿するように訓練されたPFNであるLC-PFNを提案する。
LC-PFN は MCMC よりも 10,000 倍以上高速でありながら、事後予測分布をより正確に近似できることを示します。
また、同じ LC-PFN が、幅広いモデル アーキテクチャのトレーニングから得られる 4 つの学習曲線ベンチマーク (LCBench、NAS-Bench-201、Taskset、PD1​​) から合計 20,000 の実際の学習曲線を推定して、競争力のあるパフォーマンスを達成していることも示します。
(MLP、CNN、RNN、およびトランスフォーマー) をさまざまな入力モダリティ (表形式、画像、テキスト、タンパク質データ) を持つ 53 の異なるデータセット上で実行します。
最後に、モデル選択のコンテキストでその可能性を調査し、単純な LC-PFN ベースの予測早期停止基準により、実質的にオーバーヘッドなしで、これらのデータセットのうち 45 個で 2 ~ 6 倍の高速化が得られることがわかりました。

要約(オリジナル)

Learning curve extrapolation aims to predict model performance in later epochs of training, based on the performance in earlier epochs. In this work, we argue that, while the inherent uncertainty in the extrapolation of learning curves warrants a Bayesian approach, existing methods are (i) overly restrictive, and/or (ii) computationally expensive. We describe the first application of prior-data fitted neural networks (PFNs) in this context. A PFN is a transformer, pre-trained on data generated from a prior, to perform approximate Bayesian inference in a single forward pass. We propose LC-PFN, a PFN trained to extrapolate 10 million artificial right-censored learning curves generated from a parametric prior proposed in prior art using MCMC. We demonstrate that LC-PFN can approximate the posterior predictive distribution more accurately than MCMC, while being over 10 000 times faster. We also show that the same LC-PFN achieves competitive performance extrapolating a total of 20 000 real learning curves from four learning curve benchmarks (LCBench, NAS-Bench-201, Taskset, and PD1) that stem from training a wide range of model architectures (MLPs, CNNs, RNNs, and Transformers) on 53 different datasets with varying input modalities (tabular, image, text, and protein data). Finally, we investigate its potential in the context of model selection and find that a simple LC-PFN based predictive early stopping criterion obtains 2 – 6x speed-ups on 45 of these datasets, at virtually no overhead.

arxiv情報

著者 Steven Adriaensen,Herilalaina Rakotoarison,Samuel Müller,Frank Hutter
発行日 2023-10-31 13:30:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク