CorrSynth — A Correlated Sampling Method for Diverse Dataset Generation from LLMs

要約

大規模言語モデル (LLM) は、ゼロショットおよび少数ショット プロンプトを使用したさまざまなタスクで顕著なパフォーマンスを実証しました。
データ合成の機能は近年よく研究されてきましたが、生成されたデータは多様性の欠如、プロンプトへの遵守の低下、およびジェネレーター モデルからデータに入り込む潜在的なバイアスに悩まされています。
この研究では、多様性の高いデータセットを生成するという課題に取り組み、それに基づいて学生モデルが下流タスク用にトレーニングされます。
デコード時間のガイダンスベースのアプローチを採用し、相関サンプリング戦略を使用して、より多様で入力プロンプトに忠実なデータを生成する CorrSynth を提案します。
さらに、私たちの方法は、分類器ベースのガイダンスなど、他のいくつかのガイダンスベースの技術の複雑さの欠点を克服します。
広範な実験により、私たちはアプローチの有効性を示し、私たちの主張を実証します。
特に、多様性の向上を示すために本質的な評価を実施します。
私たちの実験では、CorrSynth が 4 つのデータセットにわたる競合ベースラインに基づいて生徒の指標と固有の指標の両方を改善することが示されており、私たちの手法の本質的な利点が示されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance in diverse tasks using zero-shot and few-shot prompting. Even though their capabilities of data synthesis have been studied well in recent years, the generated data suffers from a lack of diversity, less adherence to the prompt, and potential biases that creep into the data from the generator model. In this work, we tackle the challenge of generating datasets with high diversity, upon which a student model is trained for downstream tasks. Taking the route of decoding-time guidance-based approaches, we propose CorrSynth, which generates data that is more diverse and faithful to the input prompt using a correlated sampling strategy. Further, our method overcomes the complexity drawbacks of some other guidance-based techniques like classifier-based guidance. With extensive experiments, we show the effectiveness of our approach and substantiate our claims. In particular, we perform intrinsic evaluation to show the improvements in diversity. Our experiments show that CorrSynth improves both student metrics and intrinsic metrics upon competitive baselines across four datasets, showing the innate advantage of our method.

arxiv情報

著者 Suhas S Kowshik,Abhishek Divekar,Vijit Malik
発行日 2024-11-13 12:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク