要約
微調整する大規模な言語モデル(LLMS)におけるランダム種子の影響は、モデルのパフォーマンスに潜在的な影響を与えているにもかかわらず、ほとんど見落とされています。この調査では、接着剤とスーパーグルーベンチマークを使用してLLMSに対するランダムシードの効果を体系的に評価します。
精度やF1などの従来のメトリックを通じてマクロレベルの影響を分析し、その平均と分散を計算してパフォーマンスの変動を定量化します。
マイクロレベルの効果をキャプチャするために、実行中の個々の予測の安定性を測定する新しいメトリック、一貫性を導入します。
私たちの実験は、マクロレベルとミクロレベルの両方で有意な分散を明らかにし、微調整と評価におけるランダム種子を慎重に検討する必要性を強調しています。
要約(オリジナル)
The impact of random seeds in fine-tuning large language models (LLMs) has been largely overlooked despite its potential influence on model performance.In this study, we systematically evaluate the effects of random seeds on LLMs using the GLUE and SuperGLUE benchmarks. We analyze the macro-level impact through traditional metrics like accuracy and F1, calculating their mean and variance to quantify performance fluctuations. To capture the micro-level effects, we introduce a novel metric, consistency, measuring the stability of individual predictions across runs. Our experiments reveal significant variance at both macro and micro levels, underscoring the need for careful consideration of random seeds in fine-tuning and evaluation.
arxiv情報
著者 | Hao Zhou,Guergana Savova,Lijing Wang |
発行日 | 2025-03-10 13:42:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google