Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

要約

大規模言語モデル (LLM) は、最近、さまざまな自然言語処理 (NLP) タスクのトレーニング データ ジェネレーターとして活用されています。
これまでの研究では、生成されたデータを使用してモデルをトレーニングするためのさまざまなアプローチが検討されてきましたが、一般に単純なクラス条件付きプロンプトに依存しているため、生成されたデータの多様性が制限され、LLM の体系的なバイアスが継承される可能性があります。
したがって、我々は、多様で属性の生成されたデータを生成する可能性のある、多様な属性のプロンプト (たとえば、長さやスタイルなどの属性の指定) を使用したトレーニング データの生成を調査します。
私たちの調査は、高いカーディナリティと多様なドメインを持つデータセットに焦点を当てており、結果として得られるモデルのパフォーマンスの点で、属性付きプロンプトが単純なクラス条件付きプロンプトよりも優れていることを示しています。
さらに、バイアス、多様性、効率などの重要な側面を含むデータ生成に関する包括的な実証研究を紹介し、3 つの重要な観察結果を強調します。まず、単純なプロンプトによって生成された合成データセットは、地域的な偏りなどの重大なバイアスを示します。
第二に、属性の多様性はモデルのパフォーマンスを向上させる上で極めて重要な役割を果たします。
最後に、属性付きプロンプトは、後者に関連する ChatGPT のクエリ コストの 5% のみを利用しながら、単純なクラス条件付きプロンプトのパフォーマンスを実現します。
今後の研究を促進するために、生成されたデータセットと使用されたプロンプトを公開します。
データとコードは \url{https://github.com/yueyu1030/AttrPrompt} で入手できます。

要約(オリジナル)

Large language models (LLMs) have been recently leveraged as training data generators for various natural language processing (NLP) tasks. While previous research has explored different approaches to training models using generated data, they generally rely on simple class-conditional prompts, which may limit the diversity of the generated data and inherit systematic biases of LLM. Thus, we investigate training data generation with diversely attributed prompts (e.g., specifying attributes like length and style), which have the potential to yield diverse and attributed generated data. Our investigation focuses on datasets with high cardinality and diverse domains, wherein we demonstrate that attributed prompts outperform simple class-conditional prompts in terms of the resulting model’s performance. Additionally, we present a comprehensive empirical study on data generation encompassing vital aspects like bias, diversity, and efficiency, and highlight three key observations: firstly, synthetic datasets generated by simple prompts exhibit significant biases, such as regional bias; secondly, attribute diversity plays a pivotal role in enhancing model performance; lastly, attributed prompts achieve the performance of simple class-conditional prompts while utilizing only 5\% of the querying cost of ChatGPT associated with the latter. We release the generated dataset and used prompts to facilitate future research. The data and code will be available on \url{https://github.com/yueyu1030/AttrPrompt}.

arxiv情報

著者 Yue Yu,Yuchen Zhuang,Jieyu Zhang,Yu Meng,Alexander Ratner,Ranjay Krishna,Jiaming Shen,Chao Zhang
発行日 2023-06-28 03:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク