Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement

要約

命令データに基づいて大規模な言語モデルを微調整することは、事前トレーニングされた知識を強化し、命令に従う能力を向上させるために非常に重要です。
指導データセットが急増するにつれて、効果的なトレーニングに最適なデータを選択することがますます重要になります。
この研究は、効果的なトレーニングに最適なデータのサブセットをどのように決定できるかという質問に対処します。
既存の研究では、サブセット選択におけるインスタンスの品質などのローカルな基準が重視されることが多いですが、データの多様性に焦点を当てたグローバルなアプローチがより重要であると主張します。
私たちの方法では、選択されたサブセットが完全なデータセットを効果的に表すために、k-means クラスタリングを採用しています。
私たちは、クラスターからインスタンスをリサンプリングし、トレーニング反復ごとに各クラスターの重要性とサンプリングの重みを再評価するアクティブ ラーニング手法にヒントを得た反復改良手法を提案します。
このアプローチにより、外れ値の影響が軽減され、低品質のデータを含むクラスターが自動的に除外されます。
自然言語推論、一般的な世界知識、コードおよび数学推論タスクにわたる広範な評価を通じて、またさまざまなファミリーのモデルを微調整することによって、一貫した改善が観察され、ランダムな選択に対して 7% の向上、現状に対して 3.8% の向上を達成しました。
-最先端のサンプリング手法。
私たちの研究は、LLM を微調整して広範な評価タスク全体のパフォーマンスを向上させる際の多様性優先サンプリングの重要性を強調しています。
私たちのコードは https://github.com/for-ai/iterative-data-selection で入手できます。

要約(オリジナル)

Finetuning large language models on instruction data is crucial for enhancing pre-trained knowledge and improving instruction-following capabilities. As instruction datasets proliferate, selecting optimal data for effective training becomes increasingly important. This work addresses the question: How can we determine the optimal subset of data for effective training? While existing research often emphasizes local criteria like instance quality for subset selection, we argue that a global approach focused on data diversity is more critical. Our method employs k-means clustering to ensure the selected subset effectively represents the full dataset. We propose an iterative refinement method inspired by active learning techniques to resample instances from clusters, reassessing each cluster’s importance and sampling weight in every training iteration. This approach reduces the effect of outliers and automatically filters out clusters containing low-quality data. Through extensive evaluation across natural language reasoning, general world knowledge, code and math reasoning tasks, and by fine-tuning models from various families, we observe consistent improvements, achieving a 7% increase over random selection and a 3.8% improvement over state-of-the-art sampling methods. Our work highlights the significance of diversity-first sampling when finetuning LLMs to enhance performance across a broad array of evaluation tasks. Our code is available at https://github.com/for-ai/iterative-data-selection.

arxiv情報

著者 Simon Yu,Liangyu Chen,Sara Ahmadian,Marzieh Fadaee
発行日 2024-09-17 17:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク