A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks

要約

これは、ラベル付きデータがないために従来の微調整が不可能なコールド スタート シナリオでのアクティブ ラーニング (AL) タスクにおける BERT ベースのコンテキスト エンベディングの有効性を調査した最初の研究です。
私たちの主な貢献は、より堅牢な微調整パイプライン – DoTCAL – の提案です。これは、(1) マスクされた言語モデリングによる埋め込みのドメイン適応を通じてラベルなしデータを完全に活用する、(2) という 2 つのステップを使用して、AL 内のラベル付きデータへの依存を軽減します。
) AL によって選択されたラベル付きデータを使用してモデルの重みをさらに調整します。
私たちの評価では、インスタンスの選択と分類という AL プロセスの 2 つの重要な段階で、BERT ベースの埋め込みを、Bag of Words (BoW)、Latent Semantic Indexing (LSI)、FastText などの他の一般的なテキスト表現パラダイムと対比しています。
さまざまな AL バジェット (ラベル付けされたインスタンスの数) とインスタンス数 (約 5,000 ~ 300,000) を使用して 8 つの ATC ベンチマークで実施された実験では、DoTCAL の優れた有効性が実証され、Macro-F1 で最大 33% の改善を達成しながら、ラベル付けの労力を従来のマクロ F1 に比べて半分に削減できました。
従来のワンステップ方式。
また、いくつかのタスクでは、特に低予算のシナリオや分類が難しいタスクにおいて、BoW と LSI (情報の集約により) が BERT よりも優れた結果 (最大 59% ) を生み出すこともわかりました。これは非常に驚くべきことです。

要約(オリジナル)

This is the first work to investigate the effectiveness of BERT-based contextual embeddings in active learning (AL) tasks on cold-start scenarios, where traditional fine-tuning is infeasible due to the absence of labeled data. Our primary contribution is the proposal of a more robust fine-tuning pipeline – DoTCAL – that diminishes the reliance on labeled data in AL using two steps: (1) fully leveraging unlabeled data through domain adaptation of the embeddings via masked language modeling and (2) further adjusting model weights using labeled data selected by AL. Our evaluation contrasts BERT-based embeddings with other prevalent text representation paradigms, including Bag of Words (BoW), Latent Semantic Indexing (LSI), and FastText, at two critical stages of the AL process: instance selection and classification. Experiments conducted on eight ATC benchmarks with varying AL budgets (number of labeled instances) and number of instances (about 5,000 to 300,000) demonstrate DoTCAL’s superior effectiveness, achieving up to a 33% improvement in Macro-F1 while reducing labeling efforts by half compared to the traditional one-step method. We also found that in several tasks, BoW and LSI (due to information aggregation) produce results superior (up to 59% ) to BERT, especially in low-budget scenarios and hard-to-classify tasks, which is quite surprising.

arxiv情報

著者 Fabiano Belém,Washington Cunha,Celso França,Claudio Andrade,Leonardo Rocha,Marcos André Gonçalves
発行日 2024-07-24 13:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.IR, cs.LG パーマリンク