DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework

要約

多様な情報の量が増加するにつれて、任意のトピックを分類する需要がますます重要になってきています。
この課題に対処するために、少数ショットのトピック分類用の分類器をトレーニングするように設計されたシンプルなフレームワークである DRAFT を導入します。
DRAFT は、特定のトピックのいくつかの例をクエリとして使用して、高密度レトリーバー モデルを使用してカスタマイズされたデータセットを構築します。
カスタマイズされたデータセットの構築には、特定のトピックに関連する複数のクエリを効率的に処理するマルチクエリ取得 (MQR) アルゴリズムが適用されます。
次に、カスタマイズされたデータセットを使用して分類器を微調整し、トピックを識別します。
私たちが提案したアプローチの有効性を実証するために、広く使用されている分類ベンチマーク データセットと、実際のアプリケーションで遭遇する多様なコンテンツをシミュレートする 291 の多様なトピックを含む手動で構築されたデータセットの両方で評価を実施します。
DRAFT は、パラメーターが 177 分の 1 であるにもかかわらず、数ショットのトピック分類タスクにおいて、GPT-3 175B や InstructGPT 175B などのインコンテキスト学習を使用するベースラインと比較して、競合または優れたパフォーマンスを示し、その有効性を示しています。

要約(オリジナル)

With the growing volume of diverse information, the demand for classifying arbitrary topics has become increasingly critical. To address this challenge, we introduce DRAFT, a simple framework designed to train a classifier for few-shot topic classification. DRAFT uses a few examples of a specific topic as queries to construct Customized dataset with a dense retriever model. Multi-query retrieval (MQR) algorithm, which effectively handles multiple queries related to a specific topic, is applied to construct the Customized dataset. Subsequently, we fine-tune a classifier using the Customized dataset to identify the topic. To demonstrate the efficacy of our proposed approach, we conduct evaluations on both widely used classification benchmark datasets and manually constructed datasets with 291 diverse topics, which simulate diverse contents encountered in real-world applications. DRAFT shows competitive or superior performance compared to baselines that use in-context learning, such as GPT-3 175B and InstructGPT 175B, on few-shot topic classification tasks despite having 177 times fewer parameters, demonstrating its effectiveness.

arxiv情報

著者 Keonwoo Kim,Younggun Lee
発行日 2023-12-05 06:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク