MoDS: Model-oriented Data Selection for Instruction Tuning

要約

命令チューニングは、大規模言語モデル (LLM) にユーザー命令に従う機能を装備するための事実上の方法となっています。
通常、基礎 LLM を微調整するために、数十万または数百万の命令追従ペアが使用されます。
最近、少数の高品質な指導データで十分であることがいくつかの研究で示されています。
ただし、特定の LLM に適切な命令データを選択する方法はまだ未解決の問題です。
この問題に対処するために、本稿では、品質、カバレッジ、必要性の 3 つの側面を考慮した新しい基準に基づいて指示データを選択するモデル指向データ選択 (MoDS) アプローチを紹介します。
まず、私たちのアプローチでは、品質評価モデルを利用して元の命令データセットから高品質のサブセットをフィルターで除外し、次に高品質のサブセットからカバレッジの良いシード命令データセットをさらに選択するアルゴリズムを設計します。
シード データセットを適用して基礎 LLM を微調整し、初期の命令追従 LLM を取得します。
最後に、初期の命令追従 LLM で実行の悪い命令データを見つけ出し、LLM をさらに改善するために必要な命令であるとみなす必要性評価モデルを開発します。
このようにして、元の命令データセットから、小規模で高品質、広範囲をカバーする必要性の高いサブセットを取得できます。
実験結果は、私たちのアプローチによって選択された 4,000 の命令ペアで微調整されたモデルは、214k の命令データを含む完全な元のデータセットで微調整されたモデルよりも優れたパフォーマンスを発揮できることを示しています。

要約(オリジナル)

Instruction tuning has become the de facto method to equip large language models (LLMs) with the ability of following user instructions. Usually, hundreds of thousands or millions of instruction-following pairs are employed to fine-tune the foundation LLMs. Recently, some studies show that a small number of high-quality instruction data is enough. However, how to select appropriate instruction data for a given LLM is still an open problem. To address this problem, in this paper we present a model-oriented data selection (MoDS) approach, which selects instruction data based on a new criteria considering three aspects: quality, coverage and necessity. First, our approach utilizes a quality evaluation model to filter out the high-quality subset from the original instruction dataset, and then designs an algorithm to further select from the high-quality subset a seed instruction dataset with good coverage. The seed dataset is applied to fine-tune the foundation LLM to obtain an initial instruction-following LLM. Finally, we develop a necessity evaluation model to find out the instruction data which are performed badly in the initial instruction-following LLM and consider them necessary instructions to further improve the LLMs. In this way, we can get a small high-quality, broad-coverage and high-necessity subset from the original instruction datasets. Experimental results show that, the model fine-tuned with 4,000 instruction pairs selected by our approach could perform better than the model fine-tuned with the full original dataset which includes 214k instruction data.

arxiv情報

著者 Qianlong Du,Chengqing Zong,Jiajun Zhang
発行日 2023-11-27 09:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク