Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement


私たちの方法では、選択されたサブセットが完全なデータセットを効果的に表すために、k-means クラスタリングを採用しています。
私たちは、クラスターからインスタンスをリサンプリングし、トレーニング反復ごとに各クラスターの重要性とサンプリングの重みを再評価するアクティブ ラーニング手法にヒントを得た反復改良手法を提案します。
自然言語推論、一般的な世界知識、コードおよび数学推論タスクにわたる広範な評価を通じて、またさまざまなファミリーのモデルを微調整することによって、一貫した改善が観察され、ランダムな選択に対して 7% の向上、現状に対して 3.8% の向上を達成しました。
私たちの研究は、LLM を微調整して広範な評価タスク全体のパフォーマンスを向上させる際の多様性優先サンプリングの重要性を強調しています。
私たちのコードは https://github.com/for-ai/iterative-data-selection で入手できます。


Finetuning large language models on instruction data is crucial for enhancing pre-trained knowledge and improving instruction-following capabilities. As instruction datasets proliferate, selecting optimal data for effective training becomes increasingly important. This work addresses the question: How can we determine the optimal subset of data for effective training? While existing research often emphasizes local criteria like instance quality for subset selection, we argue that a global approach focused on data diversity is more critical. Our method employs k-means clustering to ensure the selected subset effectively represents the full dataset. We propose an iterative refinement method inspired by active learning techniques to resample instances from clusters, reassessing each cluster’s importance and sampling weight in every training iteration. This approach reduces the effect of outliers and automatically filters out clusters containing low-quality data. Through extensive evaluation across natural language reasoning, general world knowledge, code and math reasoning tasks, and by fine-tuning models from various families, we observe consistent improvements, achieving a 7% increase over random selection and a 3.8% improvement over state-of-the-art sampling methods. Our work highlights the significance of diversity-first sampling when finetuning LLMs to enhance performance across a broad array of evaluation tasks. Our code is available at https://github.com/for-ai/iterative-data-selection.


著者 Simon Yu,Liangyu Chen,Sara Ahmadian,Marzieh Fadaee
発行日 2024-09-17 17:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク