Measuring the Instability of Fine-Tuning

要約

さまざまなランダム シードを使用した下流タスクでの事前トレーニング済み言語モデルの微調整は、特に小規模なデータセットでは不安定であることが示されています。
これまでの多くの研究では、この不安定性が調査され、それを軽減する方法が提案されてきました。
しかし、ほとんどの研究では、不安定性の狭い特徴付けであるパフォーマンス スコアの標準偏差 (SD) のみを尺度として使用していました。
この論文では、SD と、さまざまな粒度レベルで不安定性を定量化する他の 6 つの尺度を分析します。
さらに、これらの対策の有効性を評価するための体系的な枠組みを提案します。
最後に、既存の不安定性緩和方法を再評価することにより、さまざまな対策間の一貫性と差異を分析します。
私たちの結果が、不安定性の微調整のより良い測定法の開発に役立つことを願っています。

要約(オリジナル)

Fine-tuning pre-trained language models on downstream tasks with varying random seeds has been shown to be unstable, especially on small datasets. Many previous studies have investigated this instability and proposed methods to mitigate it. However, most studies only used the standard deviation of performance scores (SD) as their measure, which is a narrow characterization of instability. In this paper, we analyze SD and six other measures quantifying instability at different levels of granularity. Moreover, we propose a systematic framework to evaluate the validity of these measures. Finally, we analyze the consistency and difference between different measures by reassessing existing instability mitigation methods. We hope our results will inform the development of better measurements of fine-tuning instability.

arxiv情報

著者 Yupei Du,Dong Nguyen
発行日 2023-10-01 10:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク