Measuring the Instability of Fine-Tuning

要約

さまざまなランダム シードを使用してダウンストリーム タスクで事前トレーニング済みの言語モデルを微調整することは、特に小さなデータセットでは不安定であることが示されています。
これまでの多くの研究がこの不安定性を調査し、それを軽減する方法を提案してきました。
ただし、ほとんどの研究は、パフォーマンス スコア (SD) の標準偏差のみを尺度として使用しており、これは不安定性の狭い特徴付けです。
このホワイト ペーパーでは、SD と、さまざまなレベルの粒度で不安定性を定量化する他の 6 つの尺度を分析します。
さらに、これらの対策の有効性を評価するための体系的なフレームワークを提案します。
最後に、既存の不安定性緩和方法を再評価することにより、さまざまな対策間の一貫性と違いを分析します。
私たちの結果が、微調整不安定性のより良い測定の開発に役立つことを願っています。

要約(オリジナル)

Fine-tuning pre-trained language models on downstream tasks with varying random seeds has been shown to be unstable, especially on small datasets. Many previous studies have investigated this instability and proposed methods to mitigate it. However, most studies only used the standard deviation of performance scores (SD) as their measure, which is a narrow characterization of instability. In this paper, we analyze SD and six other measures quantifying instability at different levels of granularity. Moreover, we propose a systematic framework to evaluate the validity of these measures. Finally, we analyze the consistency and difference between different measures by reassessing existing instability mitigation methods. We hope our results will inform the development of better measurements of fine-tuning instability.

arxiv情報

著者 Yupei Du,Dong Nguyen
発行日 2023-02-15 16:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク