Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs

要約

ほとんどの NLP タスクは教師あり学習としてモデル化されているため、効果的なモデルをトレーニングするにはラベル付きトレーニング データが必要です。
ただし、このようなデータを十分な品質と量で手動で作成するには、コストと時間がかかることが知られています。
現在の研究では、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探索することで、このボトルネックに対処しています。
ここでは、強力な LLM に、下流の NLP モデルのトレーニングに使用できるラベル付きデータを生成するためのタスクの説明が求められます。
たとえば、LLM は、「全体的に肯定的な感情を持つ映画レビューを 500 件生成し、否定的な感情を持つ別の 500 件の映画レビューを生成する」ように求められる場合があります。
生成されたデータはバイナリ感情分類器のトレーニングに使用され、LLM をより小規模な生徒モデルに対する教師として効果的に活用できます。
このデモでは、データセット生成用のオープンソース Python ツールキットである Fabricator を紹介します。
Fabricator は、一般的なデータセット生成ワークフローを実装し、幅広いダウンストリーム NLP タスク (テキスト分類、質問応答、エンティティ認識など) をサポートし、迅速な実験を容易にするためによく知られたライブラリと統合されています。
Fabricator では、研究者が LLM を使用して再現可能なデータセット生成実験を実施できるようにサポートし、実務者がこのアプローチを下流タスク用のモデルのトレーニングに適用できるように支援することを目指しています。

要約(オリジナル)

Most NLP tasks are modeled as supervised learning and thus require labeled training data to train effective models. However, manually producing such data at sufficient quality and quantity is known to be costly and time-intensive. Current research addresses this bottleneck by exploring a novel paradigm called zero-shot learning via dataset generation. Here, a powerful LLM is prompted with a task description to generate labeled data that can be used to train a downstream NLP model. For instance, an LLM might be prompted to ‘generate 500 movie reviews with positive overall sentiment, and another 500 with negative sentiment.’ The generated data could then be used to train a binary sentiment classifier, effectively leveraging an LLM as a teacher to a smaller student model. With this demo, we introduce Fabricator, an open-source Python toolkit for dataset generation. Fabricator implements common dataset generation workflows, supports a wide range of downstream NLP tasks (such as text classification, question answering, and entity recognition), and is integrated with well-known libraries to facilitate quick experimentation. With Fabricator, we aim to support researchers in conducting reproducible dataset generation experiments using LLMs and help practitioners apply this approach to train models for downstream tasks.

arxiv情報

著者 Jonas Golde,Patrick Haller,Felix Hamborg,Julian Risch,Alan Akbik
発行日 2023-09-18 08:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク