Advancing Single- and Multi-task Text Classification through Large Language Model Fine-tuning

要約

エンコーダ専用モデル (BERT、RoBERTa など) と大規模言語モデル (LLM、Llama3 など) の両方がテキスト分類タスクに広く使用されています。
ただし、特に微調整が必​​要な場合、テキスト分類におけるエンコーダーベースのモデルと LLM のパフォーマンスを比較する体系的な研究は不足しています。
この研究では、サイズやアーキテクチャが異なり、微調整されたアプローチと事前トレーニングされたアプローチの両方を含む、多様なモデルと手法が採用されました。
まず、20 ニュースグループ (20NG) および MASSIVE データセットでこれらの LLM のパフォーマンスを評価し、エンコーダのみの RoBERTa モデルと比較しました。
さらに、両方のデータセットのデータを使用して、インテント検出やスロット充填などの複数の分類タスクを単一のモデルに結合することで、両方のモデル タイプのマルチタスク機能を調査しました。
私たちの結果は、完全に微調整された Llama3-70B モデルが、さまざまな分類タスクおよびデータセットにわたって RoBERTa-large およびその他のデコーダー LLM よりも優れていることを示しています。
さらに、統合されたマルチタスクの微調整された LLM は、両方のデータセットの両方のタスクでデュアルモデル設定のパフォーマンスと一致しました。
全体として、私たちの研究は、テキスト分類タスクに関するエンコーダーのみのモデルと LLM モデルの包括的なベンチマークを提供し、2 つ以上の完全に微調整されたデコーダー LLM を組み合わせて遅延を削減し、同等のパフォーマンスを実現する方法を実証します。

要約(オリジナル)

Both encoder-only models (e.g., BERT, RoBERTa) and large language models (LLMs, e.g., Llama3) have been widely used for text classification tasks. However, there is a lack of systematic studies comparing the performance of encoder-based models and LLMs in text classification, particularly when fine-tuning is involved. This study employed a diverse range of models and methods, varying in size and architecture, and including both fine-tuned and pre-trained approaches. We first assessed the performances of these LLMs on the 20 Newsgroups (20NG) and MASSIVE datasets, comparing them to encoder-only RoBERTa models. Additionally, we explored the multi-task capabilities of both model types by combining multiple classification tasks, including intent detection and slot-filling, into a single model using data from both datasets. Our results indicate that fully fine-tuned Llama3-70B models outperform RoBERTa-large and other decoder LLMs across various classification tasks and datasets. Moreover, the consolidated multi-task fine-tuned LLMs matched the performance of dual-model setups in both tasks across both datasets. Overall, our study provides a comprehensive benchmark of encoder-only and LLM models on text classification tasks and demonstrates a method to combine two or more fully fine-tuned decoder LLMs for reduced latency and equivalent performance.

arxiv情報

著者 Hang Zhao,Qile P. Chen,Yijing Barry Zhang,Gang Yang
発行日 2024-12-11 18:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク