Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance

要約

予測を改善し、限られたリソースを効率的に使用するために、カスタマイズされた小規模なデータセット上で大規模な事前トレーニングされた画像および言語モデルを微調整することがますます一般的になってきています。
微調整には、転送学習に最適なモデルを特定する必要があり、転送可能性を定量化することで、すべての候補モデル/タスクのペアに対するコストのかかる再トレーニングを回避できます。
この論文では、共分散推定に関する統計的問題が H スコア (新しいメトリクスの一般的なベースライン) のパフォーマンス低下の原因であることを示し、収縮ベースの推定量を提案します。
これにより、H スコア相関パフォーマンスが絶対的に最大 80% 向上し、最先端の LogME 測定と競合するようになります。
収縮ベースの H スコアは、LogME と比較して $3\times$-10$\times$ 高速に計算されます。
さらに、あまり一般的ではないターゲット (ソースではなく) タスク選択の設定についても調べます。
NCE、LEEPなどの最近の指標について、ラベルの数やクラス不均衡比などが異なるこのような設定で、主要な指標として誤って表示されるというこれまで見落とされていた問題を示します。
私たちは修正を提案し、そのような設定での相対精度に対する相関パフォーマンスを測定することを推奨します。
私たちは、ビジョン モデルとグラフ ニューラル ネットワークの両方での約 164,000 回の (微調整トライアル) 実験によって、私たちの発見を裏付けています。

要約(オリジナル)

Fine-tuning of large pre-trained image and language models on small customized datasets has become increasingly popular for improved prediction and efficient use of limited resources. Fine-tuning requires identification of best models to transfer-learn from and quantifying transferability prevents expensive re-training on all of the candidate models/tasks pairs. In this paper, we show that the statistical problems with covariance estimation drive the poor performance of H-score — a common baseline for newer metrics — and propose shrinkage-based estimator. This results in up to 80% absolute gain in H-score correlation performance, making it competitive with the state-of-the-art LogME measure. Our shrinkage-based H-score is $3\times$-10$\times$ faster to compute compared to LogME. Additionally, we look into a less common setting of target (as opposed to source) task selection. We demonstrate previously overlooked problems in such settings with different number of labels, class-imbalance ratios etc. for some recent metrics e.g., NCE, LEEP that resulted in them being misrepresented as leading measures. We propose a correction and recommend measuring correlation performance against relative accuracy in such settings. We support our findings with ~164,000 (fine-tuning trials) experiments on both vision models and graph neural networks.

arxiv情報

著者 Shibal Ibrahim,Natalia Ponomareva,Rahul Mazumder
発行日 2023-05-26 15:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク