Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

要約

大規模な言語モデルは通常、事前トレーニングと微調整という 2 つのトレーニング段階を経ます。
大規模な事前トレーニングにより、自然言語応答を生成する強力な機能がモデルに与えられたにもかかわらず、これらの事前トレーニングされたモデルは依然として人間の指示を理解できないことがあります。
言語モデルの命令の解釈と応答の能力を強化するために、この分野では命令の微調整が重要な方法として浮上しています。
最近の研究では、大規模な言語モデルを微調整して、高品質の命令追従データが少量であっても良好なパフォーマンスを発揮できることがわかりました。
ただし、言語モデルを微調整するための高品質のデータセットの選択には、従うべき明確なガイドラインがまだありません。
この論文では、命令に従うデータ品質を評価するための線形ルールである InstructMining を提案します。
特定の自然言語インジケーターを使用して InstructMining を定式化します。
データ品質とこれらの指標の関係を調査するために、私たちはさらに広範な微調整実験を実施します。
実験結果は、InstructMining のパラメーターの推定に適用されます。
そのパフォーマンスをさらに調査するために、InstructMining を使用して、目に見えないデータセットから高品質のデータを選択します。
結果は、InstructMining がさまざまな命令に従うデータセットから比較的高品質のサンプルを選択するのに役立つことを示しています。
フィルターされていないデータセットで微調整されたモデルと比較して、InstructMining で選択されたデータセットで微調整されたモデルは 42.5% のケースでパフォーマンスが向上しました。

要約(オリジナル)

Large language models typically undergo two training stages, pretraining and finetuning. Despite that large-scale pretraining endows the model with strong capabilities to generate natural language responses, these pretrained models can still fail to understand human instructions at times. To enhance language models’ ability of interpreting and responding to instructions, instruction finetuning has emerged as a critical method in this area. Recent studies found that large language models can be finetuned to perform well even with a small amount of high-quality instruction-following data. However, the selection of high-quality datasets for finetuning language models still lacks clear guidelines to follow. In this paper, we propose InstructMining, a linear rule for evaluating instruction-following data quality. We formulate InstructMining using specific natural language indicators. To investigate the relationship between data quality and these indicators, we further conduct extensive finetuning experiments. The experiment results are then applied to estimating parameters in InstructMining. To further investigate its performance, we use InstructMining to select high-quality data from unseen datasets. Results demonstrate that InstructMining can help select relatively high-quality samples from various instruction-following datasets. Compared to models finetuned on unfiltered datasets, models finetuned on InstructMining selected datasets perform better on 42.5% cases.

arxiv情報

著者 Yihan Cao,Yanbin Kang,Lichao Sun
発行日 2023-07-12 16:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク