Predicting the Performance of Foundation Models via Agreement-on-the-Line

要約

ラベルが不足している領域での分布外のパフォーマンスを推定することは、基盤モデルを安全に展開するために重要です。
最近、ニューラル ネットワークのアンサンブルが「ライン上の合意」現象を観察し、これを利用してラベルなしで OOD パフォーマンスを確実に予測できることが示されました。
ただし、多数のエポックにわたって分布内データに基づいてゼロからトレーニングされる古典的なニューラル ネットワークとは対照的に、基礎モデルは高度に事前トレーニングされた重みによる最小限の微調整を受けるため、ライン上の一致を観察するために必要なアンサンブルの多様性が低下する可能性があります。
私たちの研究では、単一の基礎モデルから複数の実行を軽く微調整する場合、トレーニング中のランダム性の選択 (線形ヘッドの初期化、データの順序付け、およびデータのサブセット化) によって、ライン上の一致レベルが大幅に異なる可能性があることを実証しました。
結果として得られるアンサンブル。
驚くべきことに、視覚と言語のベンチマーク全体で微調整された基礎モデルの一致を確実に誘導できるのは、ランダムなヘッド初期化だけです。
次に、異なるデータセットで事前トレーニングされ、同じタスクで微調整された複数の基礎モデルのアンサンブルも、ライン上の一致を示す可能性があることを示します。
全体として、多様なアンサンブルを注意深く構築することにより、ライン上の合意に基づいた手法を利用して、基礎モデルの OOD パフォーマンスを高精度で予測できます。

要約(オリジナル)

Estimating the out-of-distribution performance in regimes where labels are scarce is critical to safely deploy foundation models. Recently, it was shown that ensembles of neural networks observe the phenomena ‘agreement-on-the-line’, which can be leveraged to reliably predict OOD performance without labels. However, in contrast to classical neural networks that are trained on in-distribution data from scratch for numerous epochs, foundation models undergo minimal finetuning from heavily pretrained weights, which may reduce the ensemble diversity needed to observe agreement-on-the-line. In our work, we demonstrate that when lightly finetuning multiple runs from a single foundation model, the choice of randomness during training (linear head initialization, data ordering, and data subsetting) can lead to drastically different levels of agreement-on-the-line in the resulting ensemble. Surprisingly, only random head initialization is able to reliably induce agreement-on-the-line in finetuned foundation models across vision and language benchmarks. Second, we demonstrate that ensembles of multiple foundation models pretrained on different datasets but finetuned on the same task can also show agreement-on-the-line. In total, by careful construction of a diverse ensemble, we can utilize agreement-on-the-line-based methods to predict the OOD performance of foundation models with high precision.

arxiv情報

著者 Rahul Saxena,Taeyoun Kim,Aman Mehra,Christina Baek,Zico Kolter,Aditi Raghunathan
発行日 2024-10-24 15:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク