Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models

要約

アクティブ ラーニングは、ラベル付きデータがないにもかかわらず、ラベル付きの小さなサブセットを取得するために使用される反復的なラベル付けプロセスです。これにより、テキスト分類などの教師ありタスクのモデルをトレーニングできるようになります。
アクティブ ラーニングは、事前トレーニングされた言語モデルによる改善により近年大幅に進歩していますが、通常は少数のラベル付きデータ セットよりもかなり大量に利用できるにもかかわらず、無視されがちなデータのラベルなし部分には未開発の可能性があります。
データ。
ここでは、ラベルのないデータから擬似ラベルを取得するためにモデルを使用する半教師ありアプローチである自己トレーニングを、テキスト分類の能動学習の効率を向上させるためにどのように使用できるかを調査します。
以前の 4 つの自己トレーニング アプローチの広範な再現から始めて、そのうちのいくつかはアクティブ ラーニングまたは自然言語処理の文脈で初めて評価され、新しく効果的な自己トレーニング戦略である HAST を考案します。
4 つのテキスト分類ベンチマークでは、再現された自己トレーニング アプローチよりも優れたパフォーマンスを示し、データの 25% のみを使用して、4 つのデータセットのうち 3 つについて以前の実験と同等の分類結果に達しました。

要約(オリジナル)

Active learning is an iterative labeling process that is used to obtain a small labeled subset, despite the absence of labeled data, thereby enabling to train a model for supervised tasks such as text classification. While active learning has made considerable progress in recent years due to improvements provided by pre-trained language models, there is untapped potential in the often neglected unlabeled portion of the data, although it is available in considerably larger quantities than the usually small set of labeled data. Here we investigate how self-training, a semi-supervised approach where a model is used to obtain pseudo-labels from the unlabeled data, can be used to improve the efficiency of active learning for text classification. Starting with an extensive reproduction of four previous self-training approaches, some of which are evaluated for the first time in the context of active learning or natural language processing, we devise HAST, a new and effective self-training strategy, which is evaluated on four text classification benchmarks, on which it outperforms the reproduced self-training approaches and reaches classification results comparable to previous experiments for three out of four datasets, using only 25% of the data.

arxiv情報

著者 Christopher Schröder,Gerhard Heyer
発行日 2024-06-13 15:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク