Under the Surface: Tracking the Artifactuality of LLM-Generated Data

要約

この研究では、人工データの生成における大規模言語モデル (LLM) の役割の拡大について詳しく掘り下げています。
注釈、設定、指示プロンプト、シミュレートされたダイアログ、フリー テキストなど、さまざまな出力を作成するために LLM が採用されることが増えています。
これらの形式の LLM 生成データはアプリケーションで交差することが多いため、相互に影響を及ぼし、トレーニング サイクルに組み込まれる人工データの品質と多様性について重大な懸念が生じ、人工データ エコシステムが形成されます。
私たちの知る限り、これは、「タスクラベル」のようなより厳密に制約されたデータから、より緩やかに制約された「自由形式のテキスト」まで、LLM によって生成されたさまざまなタイプのテキストデータを集約した最初の研究です。
次に、LLM が生成した人工データの品質と意味をストレス テストし、既存のさまざまなベンチマークにわたって人間のデータと比較します。
人工データは人間のパフォーマンスに匹敵する能力があるにもかかわらず、この論文は、特にLLMが人間が生成した本質的なコンテンツの微妙な理解を見逃してしまう複雑なタスクにおいて、重大な隠れた格差を明らかにしています。
この研究では、LLM によって生成された多様なデータを批判的に調査し、データ作成時および LLM の使用時の倫理的実践の必要性を強調しています。
これは、人間の特性や行動を再現する際の LLM の欠点を強調し、将来の研究開発のために LLM が生成するコンテンツで生成されるバイアスやアーティファクトに対処することの重要性を強調しています。
すべてのデータとコードはプロジェクト ページで入手できます。

要約(オリジナル)

This work delves into the expanding role of large language models (LLMs) in generating artificial data. LLMs are increasingly employed to create a variety of outputs, including annotations, preferences, instruction prompts, simulated dialogues, and free text. As these forms of LLM-generated data often intersect in their application, they exert mutual influence on each other and raise significant concerns about the quality and diversity of the artificial data incorporated into training cycles, leading to an artificial data ecosystem. To the best of our knowledge, this is the first study to aggregate various types of LLM-generated text data, from more tightly constrained data like ‘task labels’ to more lightly constrained ‘free-form text’. We then stress test the quality and implications of LLM-generated artificial data, comparing it with human data across various existing benchmarks. Despite artificial data’s capability to match human performance, this paper reveals significant hidden disparities, especially in complex tasks where LLMs often miss the nuanced understanding of intrinsic human-generated content. This study critically examines diverse LLM-generated data and emphasizes the need for ethical practices in data creation and when using LLMs. It highlights the LLMs’ shortcomings in replicating human traits and behaviors, underscoring the importance of addressing biases and artifacts produced in LLM-generated content for future research and development. All data and code are available on our project page.

arxiv情報

著者 Debarati Das,Karin De Langis,Anna Martin,Jaehyung Kim,Minhwa Lee,Zae Myung Kim,Shirley Hayati,Risako Owan,Bin Hu,Ritik Parkar,Ryan Koo,Jonginn Park,Aahan Tyagi,Libby Ferland,Sanjali Roy,Vincent Liu,Dongyeop Kang
発行日 2024-01-26 07:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク