Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data

要約

機械学習ベースの分類器は、感情分析、ニュース分類、有毒なコメント分類など、テキスト分類に使用されています。
ただし、監視された機械学習モデルには、トレーニングのために大量のラベル付きデータが必要であることが多く、手動注釈は労働集約的であり、ドメイン固有の知識が必要であり、比較的高い注釈コストにつながります。
この問題に対処するために、手動でラベル付けされたデータを必要とせずに、大規模な言語モデル(LLMS)をアクティブな学習フレームワークに統合し、高いクロスタスクテキスト分類パフォーマンスを実現するアプローチを提案します。
さらに、分類タスクにGPTを直接適用するのと比較して、当社のアプローチでは、分類パフォーマンスの93%以上を保持し、計算時間と金銭的コストの約6%しか必要とされず、パフォーマンスとリソース効率のバランスをとります。
これらの調査結果は、テキスト分類タスクにおけるLLMSおよびアクティブ学習アルゴリズムの効率的な利用に関する新しい洞察を提供し、より広範なアプリケーションへの道を開きます。

要約(オリジナル)

Machine learning-based classifiers have been used for text classification, such as sentiment analysis, news classification, and toxic comment classification. However, supervised machine learning models often require large amounts of labeled data for training, and manual annotation is both labor-intensive and requires domain-specific knowledge, leading to relatively high annotation costs. To address this issue, we propose an approach that integrates large language models (LLMs) into an active learning framework, achieving high cross-task text classification performance without the need for any manually labeled data. Furthermore, compared to directly applying GPT for classification tasks, our approach retains over 93% of its classification performance while requiring only approximately 6% of the computational time and monetary cost, effectively balancing performance and resource efficiency. These findings provide new insights into the efficient utilization of LLMs and active learning algorithms in text classification tasks, paving the way for their broader application.

arxiv情報

著者 Yejian Zhang,Shingo Takada
発行日 2025-05-05 12:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク