Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities

要約

適切なトレーニング データの選択は、(1) 強力な機能を引き出し、(2) 多様なタスクにわたってバランスの取れたパフォーマンスを達成することを目的とした大規模言語モデル (LLM) の効果的な命令の微調整にとって非常に重要です。
影響ベースの手法では、モデルの予測に対する各トレーニング サンプルの寄与を推定することで (1) を達成することが期待できますが、(2) では困難なことがよくあります。
私たちの体系的な調査により、このパフォーマンスの低下は、特定のタスクが本質的に他のタスクよりも大きな影響力を持つという固有のバイアスに起因する可能性があることが明らかになりました。
その結果、データ選択はこれらのタスクに偏ることが多く、他のタスクに対するモデルのパフォーマンスを損なうだけでなく、直感に反して、これらの影響力の高いタスク自体のパフォーマンスにも悪影響を及ぼします。
解決策として、バランスがとれた影響力のあるデータ選択アルゴリズムである BIDS を提案します。
BIDS は、まずトレーニング データの影響スコアを正規化し、次に、最も過小評価されているタスクに対して最も大きな影響力を持つトレーニング サンプルを選択することによって、データ選択のバランスを繰り返します。
5 つの多様な機能にわたる 7 つのベンチマークで Llama-3 と Mistral-v0.3 の両方を使用した実験では、BIDS が最先端の影響ベースのアルゴリズムと他の非影響ベースの選択フレームワークの両方を一貫して上回るパフォーマンスを示しています。
驚くべきことに、BIDS によって選択された 15% のサブセットでのトレーニングは、完全なデータセットのトレーニングよりもはるかにバランスのとれたパフォーマンスで優れたパフォーマンスを発揮することさえあります。
私たちの分析では、多様な機能をバランスよく学習するには、インスタンス レベルの正規化と、選択したデータの反復最適化の両方の重要性がさらに強調されています。

要約(オリジナル)

Selecting appropriate training data is crucial for effective instruction fine-tuning of large language models (LLMs), which aims to (1) elicit strong capabilities, and (2) achieve balanced performance across a diverse range of tasks. Influence-based methods show promise in achieving (1) by estimating the contribution of each training example to the model’s predictions, but often struggle with (2). Our systematic investigation reveals that this underperformance can be attributed to an inherent bias where certain tasks intrinsically have greater influence than others. As a result, data selection is often biased towards these tasks, not only hurting the model’s performance on others but also, counterintuitively, harms performance on these high-influence tasks themselves. As a remedy, we propose BIDS, a Balanced and Influential Data Selection algorithm. BIDS first normalizes influence scores of the training data, and then iteratively balances data selection by choosing the training example with the highest influence on the most underrepresented task. Experiments with both Llama-3 and Mistral-v0.3 on seven benchmarks spanning five diverse capabilities show that BIDS consistently outperforms both state-of-the-art influence-based algorithms and other non-influence-based selection frameworks. Surprisingly, training on a 15% subset selected by BIDS can even outperform full-dataset training with a much more balanced performance. Our analysis further highlights the importance of both instance-level normalization and iterative optimization of selected data for balanced learning of diverse capabilities.

arxiv情報

著者 Qirun Dai,Dylan Zhang,Jiaqi W. Ma,Hao Peng
発行日 2025-01-21 14:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク