Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs

要約

大規模言語モデル (LLM) がより多くのユースケースに適用されるようになると、微調整用の高品質なタスク固有のデータセットを作成することがモデル改善のボトルネックになります。
高品質の人間データを使用することは、モデルのパフォーマンスを引き出すための最も一般的なアプローチですが、多くのシナリオでは法外なコストがかかります。
合成データやハイブリッド データの生成など、いくつかの代替方法も登場していますが、特にリソースに制約のあるシナリオや検証が容易ではないタスクにおいて、これらのアプローチの有効性は依然として不明瞭です。
これを調査するために、さまざまな合成データ生成戦略を 3 つの代表的なカテゴリ (回答拡張、質問言い換え、新しい質問) にグループ化し、さまざまな制約 (シード命令セットのサイズとクエリ バジェット) の下でトレーニングされた学生 LLM のパフォーマンスを研究しました。
これらの戦略は設定間で同等に効果的ではないことを実証します。
特に、最適なデータ生成戦略は、利用可能な教師クエリの予算とシード命令セットのサイズの比率に大きく依存します。
この比率が低い場合は、既存の質問に対する新しい回答を生成することが最も効果的ですが、この比率が増加すると、新しい質問を生成することが最適になります。
すべてのタスクにわたって、増強方法の選択やその他の設計上の選択が、高データ領域よりも低〜中データ領域で大幅に重要であることがわかりました。
各手法のスケーラビリティ、合成データの検証の重要性、合成データ生成でのさまざまな LLM の使用などの追加要素を考慮して、設定全体で適切な拡張手法を選択するための実用的なフレームワークを提供します。

要約(オリジナル)

As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories — Answer Augmentation, Question Rephrase and New Question — and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.

arxiv情報

著者 Yung-Chieh Chan,George Pu,Apaar Shanker,Parth Suresh,Penn Jenks,John Heyer,Sam Denton
発行日 2024-10-30 06:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク