要約
最近の研究では、高品質で多様なインストラクションチューニングデータセットをキュレーションすることで、インストラクションフォローイング能力を大幅に向上できることが示されている。しかし、そのようなデータセットの作成は困難であり、ほとんどの研究は手作業によるキュレーションや独自の言語モデルに依存している。また、学習指導の多様性をどのように定義すればよいのか、多様性と品質はどのように依存するのか、データセットの品質と多様性をどのように最適化すればよいのか、といった課題もある。これらの問題を解決するために、我々は新しいアルゴリズム、Quality-Diversity Instruction Tuning (QDIT)を提案する。QDITはデータセットの多様性と品質を同時に制御する簡単な方法を提供し、多様性と品質が命令チューニング性能に与える影響について詳細な研究を行うことを可能にする。この研究から、我々は2つの重要な洞察を得ました。(1)データの多様性と品質の間には自然なトレードオフがあること、(2)データの多様性を高めることで、最悪の場合の命令追従性能が大幅に改善され、ロバスト性が向上すること。QDITの性能を複数の大規模命令チューニングデータセットで検証し、QDITが品質主導のデータ選択と比較して、ワーストケースと平均ケースの性能を大幅に改善できることを発見した。
要約(オリジナル)
Recent works have shown that by curating high quality and diverse instruction tuning datasets, we can significantly improve instruction-following capabilities. However, creating such datasets is difficult and most works rely on manual curation or proprietary language models. Automatic data curation is difficult as it is still not clear how we can define diversity for instruction tuning, how diversity and quality depend on one other, and how we can optimize dataset quality and diversity. To resolve these issue, we propose a new algorithm, Quality-Diversity Instruction Tuning (QDIT). QDIT provides a simple method to simultaneously control dataset diversity and quality, allowing us to conduct an in-depth study on the effect of diversity and quality on instruction tuning performance. From this study we draw two key insights (1) there is a natural tradeoff between data diversity and quality and (2) increasing data diversity significantly improves the worst case instruction following performance, therefore improving robustness. We validate the performance of QDIT on several large scale instruction tuning datasets, where we find it can substantially improve worst and average case performance compared to quality-driven data selection.
arxiv情報
著者 | Alexander Bukharin,Tuo Zhao |
発行日 | 2024-02-05 16:41:10+00:00 |
arxivサイト | arxiv_id(pdf) |