要約
大規模言語モデル (LLM) の命令追従能力を強化するには、主にかなりの命令チューニング データセットが必要です。
ただし、これらの膨大な量により、かなりの計算負荷と注釈コストが課せられます。
モデル自体が同等またはさらに効果的なサブセットをアクティブにサンプリングできるようにする、ラベル効率の高い命令調整方法を調査するために、自己進化メカニズム DiverseEvol を導入します。
このプロセスでは、モデルは人間やより高度な LLM の介入を必要とせずに、トレーニング サブセットを繰り返し拡張して自身のパフォーマンスを向上させます。
データ サンプリング手法の鍵は、モデルが現在の埋め込み空間に従って既存のデータ ポイントとは最も異なる新しいデータ ポイントを選択するため、選択したサブセットの多様性を高めることにあります。
3 つのデータセットとベンチマークにわたる広範な実験により、DiverseEvol の有効性が実証されました。
元のデータセットの 8% 未満でトレーニングされたモデルは、完全なデータで微調整した場合と比較してパフォーマンスを維持または向上させます。
また、1 回限りのサンプリングではなく、指示データの多様性と反復スキームの重要性を分析するための経験的証拠も提供します。
私たちのコードは https://github.com/OFA-Sys/DiverseEvol.git で公開されています。
要約(オリジナル)
Enhancing the instruction-following ability of Large Language Models (LLMs) primarily demands substantial instruction-tuning datasets. However, the sheer volume of these imposes a considerable computational burden and annotation cost. To investigate a label-efficient instruction tuning method that allows the model itself to actively sample subsets that are equally or even more effective, we introduce a self-evolving mechanism DiverseEvol. In this process, a model iteratively augments its training subset to refine its own performance, without requiring any intervention from humans or more advanced LLMs. The key to our data sampling technique lies in the enhancement of diversity in the chosen subsets, as the model selects new data points most distinct from any existing ones according to its current embedding space. Extensive experiments across three datasets and benchmarks demonstrate the effectiveness of DiverseEvol. Our models, trained on less than 8% of the original dataset, maintain or improve performance compared with finetuning on full data. We also provide empirical evidence to analyze the importance of diversity in instruction data and the iterative scheme as opposed to one-time sampling. Our code is publicly available at https://github.com/OFA-Sys/DiverseEvol.git.
arxiv情報
著者 | Shengguang Wu,Keming Lu,Benfeng Xu,Junyang Lin,Qi Su,Chang Zhou |
発行日 | 2023-11-14 14:10:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google