要約
大規模言語モデル (LLM) により、トレーニングやテスト用の合成データセットの生成など、ゼロショットおよび少数ショットの学習設定でさまざまなアプリケーションが可能になりました。
ただし、これらの合成データセットを確実に使用するには、それらが現実世界のデータをどの程度代表しているかを理解することが不可欠です。
私たちは、LLM を通じて合成データを生成し、それをさまざまな NLP タスクのベンチマークとして使用することの有効性を評価することで、これを調査します。
6 つのデータセットと 3 つの異なるタスクにわたる実験では、合成データは、意図分類などの単純なタスクではさまざまな方法のパフォーマンスを効果的にキャプチャできますが、固有表現認識などのより複雑なタスクでは不十分であることがわかりました。
さらに、バイアス係数と呼ばれる新しい指標を提案します。これは、ベンチマーク データの生成とタスクの実行の両方に同じ LLM が使用された場合に導入されるバイアスを評価します。
小規模な LLM は独自に生成されたデータに対してバイアスを示すのに対し、より大きなモデルはそうでないことがわかりました。
全体として、私たちの調査結果は、ベンチマークとしての合成データの有効性はタスクによって異なり、実務者は可能な限り複数のより大きなモデルから生成されたデータに依存する必要があることを示唆しています。
要約(オリジナル)
Large language models (LLMs) have enabled a range of applications in zero-shot and few-shot learning settings, including the generation of synthetic datasets for training and testing. However, to reliably use these synthetic datasets, it is essential to understand how representative they are of real-world data. We investigate this by assessing the effectiveness of generating synthetic data through LLM and using it as a benchmark for various NLP tasks. Our experiments across six datasets, and three different tasks, show that while synthetic data can effectively capture performance of various methods for simpler tasks, such as intent classification, it falls short for more complex tasks like named entity recognition. Additionally, we propose a new metric called the bias factor, which evaluates the biases introduced when the same LLM is used to both generate benchmarking data and to perform the tasks. We find that smaller LLMs exhibit biases towards their own generated data, whereas larger models do not. Overall, our findings suggest that the effectiveness of synthetic data as a benchmark varies depending on the task, and that practitioners should rely on data generated from multiple larger models whenever possible.
arxiv情報
著者 | Gaurav Maheshwari,Dmitry Ivanov,Kevin El Haddad |
発行日 | 2024-09-18 13:20:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google