JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLM

要約

最近のいくつかの研究では、教師ありトレーニング データの効果的なジェネレーターとしての大規模言語モデル (LLM) の可能性が強調されており、推論効率の向上やデータ収集に関連するコストの削減などの利点が提供されています。
ただし、これらの研究は主に英語の課題に焦点を当てています。
この論文では、LLM は他の言語タスクの熟練したトレーニング データ ジェネレーターとして機能できるか?という基本的な研究の疑問に取り組みます。
具体的には、LLM を活用して、6 つの多様な日本の下流タスクにわたって、少数ショットおよびゼロショット学習シナリオの下で教師ありトレーニング データを合成します。
その後、この合成データを利用してコンパクトなモデル (BERT など) をトレーニングします。
この新しい方法論は JAPAGEN と呼ばれます。
私たちの実験結果は、JAPAGEN が正式なテキスト入力を必要とする分類タスクにおいて堅牢なパフォーマンスを達成し、従来の LLM プロンプト戦略と比較して競合する結果を示していることを強調しています。

要約(オリジナル)

Recently some studies have highlighted the potential of Large Language Models (LLMs) as effective generators of supervised training data, offering advantages such as enhanced inference efficiency and reduced costs associated with data collection. However, these studies have predominantly focused on English language tasks. In this paper, we address the fundamental research question: Can LLMs serve as proficient training data generators for other language tasks? Specifically, we leverage LLMs to synthesize supervised training data under few-shot and zero-shot learning scenarios across six diverse Japanese downstream tasks. Subsequently, we utilize this synthesized data to train compact models (e.g., BERT). This novel methodology is termed JAPAGEN. Our experimental findings underscore that JAPAGEN achieves robust performance in classification tasks that necessitate formal text inputs, demonstrating competitive results compared to conventional LLM prompting strategies.

arxiv情報

著者 Takuro Fujii,Satoru Katsumata
発行日 2024-12-09 18:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク