SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

要約

コンピューティングとメモリの制約により、大規模言語モデル (LLM) の機能を小さなスチューデント モデルに抽出することが望ましい場合がよくあります。
分類タスクでこれを行う 1 つの方法はデータセット合成を使用することです。これは、LLM から各ラベルの例を生成することで実現できます。
従来の合成アプローチでは、LLM のパラメトリック知識に依存して使用可能な例を生成する、少数ショット プロンプトが使用されていました。
ただし、これにより、繰り返しの問題、人気のあるエンティティに対する偏見、および人間のテキストとの文体の違いが生じます。
この研究では、検索拡張を使用してデータセット合成プロセスに多様性を導入する Synthesize by Retrieval and Refinement (SynthesizRR) を提案します。取得されたパッセージが異なると、LLM に異なるコンテンツがシードされてサンプルが生成されます。
私たちは、複雑な合成戦略を必要とする、トピック分類、感情分析、トーン検出、ユーモアをカバーする 6 つのデータセットの合成を実証的に研究しています。
SynthesizRR は、32 ショットのプロンプトと従来の 4 つのアプローチと比較して、語彙と意味の多様性、人間が書いたテキストとの類似性、蒸留パフォーマンスを大幅に向上させることがわかりました。
https://github.com/amazon-science/synthesizrr で広範なコードベースをリリースしています。

要約(オリジナル)

It is often desirable to distill the capabilities of large language models (LLMs) into smaller student models due to compute and memory constraints. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM’s parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is seeded with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find that SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to 32-shot prompting and four prior approaches. We release our extensive codebase at https://github.com/amazon-science/synthesizrr

arxiv情報

著者 Abhishek Divekar,Greg Durrett
発行日 2024-07-08 11:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク