Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates

要約

命令データセットで大規模言語モデル (LLM) を微調整することは、生成機能を向上させる一般的な方法です。
ただし、命令データセットを手動でキュレーションするには高価で時間がかかる可能性があり、LLM で生成されたデータは労働集約的ではありませんが、ユーザーのプライバシー契約や LLM プロバイダーのサービス利用規約に違反する可能性があります。
したがって、人間や LLM によって生成されず、それでも LLM 生成能力を向上させるサンプルを使用して命令データセットを構築する方法を模索します。
この研究では、ランダム トークンに対する単純なパターンで構成されるトレーニング データをプログラムで生成するフレームワークである Cookbook を紹介します。これにより、法的およびプライバシーの問題を回避する、スケーラブルでコスト効率の高いアプローチが実現します。
まず、Cookbook はテンプレート (データ生成 Python 関数) を使用して、目的のタスクに対応する明示的なパターンベースのルールをモデルに学習させるトレーニング データを生成します。
クックブックで生成されたデータを微調整すると、対応するタスクのパフォーマンスが最大 52.7 精度ポイント向上することがわかりました。
次に、命令データセットは複数の下流タスクのパフォーマンスを同時に向上させるため、Cookbook はさまざまなテンプレートからのデータを混合して複数のタスクのパフォーマンスを最適化する方法をアルゴリズムで学習します。
標準マルチタスク GPT4ALL 評価スイートでは、クックブックで生成されたデータセットを使用して微調整された Mistral-7B は、他の 7B パラメーターで命令調整されたモデルと比較して平均で最高の精度を達成し、8 タスク中 3 タスクで最高のパフォーマンスを発揮するモデルです。
最後に、Cookbook によってパフォーマンスが向上する時期と理由を分析し、モデルの世代がテンプレート ルールに忠実に従っていることによって向上が主に説明されることを検証できるメトリクスを提示します。

要約(オリジナル)

Fine-tuning large language models (LLMs) on instruction datasets is a common way to improve their generative capabilities. However, instruction datasets can be expensive and time-consuming to manually curate, and while LLM-generated data is less labor-intensive, it may violate user privacy agreements or terms of service of LLM providers. Therefore, we seek a way of constructing instruction datasets with samples that are not generated by humans or LLMs but still improve LLM generative capabilities. In this work, we introduce Cookbook, a framework that programmatically generates training data consisting of simple patterns over random tokens, resulting in a scalable, cost-effective approach that avoids legal and privacy issues. First, Cookbook uses a template — a data generating Python function — to produce training data that encourages the model to learn an explicit pattern-based rule that corresponds to a desired task. We find that fine-tuning on Cookbook-generated data is able to improve performance on its corresponding task by up to 52.7 accuracy points. Second, since instruction datasets improve performance on multiple downstream tasks simultaneously, Cookbook algorithmically learns how to mix data from various templates to optimize performance on multiple tasks. On the standard multi-task GPT4ALL evaluation suite, Mistral-7B fine-tuned using a Cookbook-generated dataset attains the best accuracy on average compared to other 7B parameter instruction-tuned models and is the best performing model on 3 out of 8 tasks. Finally, we analyze when and why Cookbook improves performance and present a metric that allows us to verify that the improvement is largely explained by the model’s generations adhering better to template rules.

arxiv情報

著者 Avanika Narayan,Mayee F. Chen,Kush Bhatia,Christopher Ré
発行日 2024-10-07 17:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク