ActiveLLM: Large Language Model-based Active Learning for Textual Few-Shot Scenarios

要約

アクティブ ラーニングは、学習を最も強化するインスタンスを優先することで、アノテーションの労力を最小限に抑えるように設計されています。
ただし、多くのアクティブ ラーニング戦略は、効果を発揮するには大量の初期データを必要とする「コールド スタート」問題に悩まされています。
この制限により、多くの場合、ショット数が少ないシナリオではすでに良好なパフォーマンスを発揮する事前トレーニング済みモデルの有用性が低下します。
これに対処するために、インスタンスの選択に GPT-4、Llama 3、Mistral Large などの大規模言語モデルを活用する新しいアクティブ ラーニング アプローチである ActiveLLM を導入します。
ActiveLLM が少数ショット シナリオにおける BERT 分類器の分類パフォーマンスを大幅に向上させ、従来のアクティブ ラーニング手法と少数ショット学習手法 SetFit の両方を上回るパフォーマンスを示すことを実証します。
さらに、ActiveLLM はショット数が少ないシナリオにも拡張でき、反復的な選択が可能になります。
このように、ActiveLLM は、他のアクティブ ラーニング戦略がコールド スタートの問題を克服するのにも役立ちます。
私たちの結果は、ActiveLLM がさまざまな学習設定全体でモデルのパフォーマンスを向上させるための有望なソリューションを提供することを示唆しています。

要約(オリジナル)

Active learning is designed to minimize annotation efforts by prioritizing instances that most enhance learning. However, many active learning strategies struggle with a ‘cold start’ problem, needing substantial initial data to be effective. This limitation often reduces their utility for pre-trained models, which already perform well in few-shot scenarios. To address this, we introduce ActiveLLM, a novel active learning approach that leverages large language models such as GPT-4, Llama 3, and Mistral Large for selecting instances. We demonstrate that ActiveLLM significantly enhances the classification performance of BERT classifiers in few-shot scenarios, outperforming both traditional active learning methods and the few-shot learning method SetFit. Additionally, ActiveLLM can be extended to non-few-shot scenarios, allowing for iterative selections. In this way, ActiveLLM can even help other active learning strategies to overcome their cold start problem. Our results suggest that ActiveLLM offers a promising solution for improving model performance across various learning setups.

arxiv情報

著者 Markus Bayer,Christian Reuter
発行日 2024-05-17 14:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク