AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets

要約

少数派のクラスは自然にほとんど発生しないため、不均衡な分類タスクのアクティブ ラーニングは困難です。
したがって、少数派のインスタンスをキャプチャするには、ラベルのないデータの大規模なプールを収集することが不可欠です。
標準的なプールベースのアクティブ ラーニングは、大規模なプールでは計算コストが高く、多くの場合、初期決定境界をオーバーフィットすることで精度が低くなり、入力空間を探索して少数派のインスタンスを見つけることができません。
これらの問題に対処するために、私たちは AnchorAL を提案します。
各反復で、AnchorAL はラベル付きセットまたはアンカーからクラス固有のインスタンスを選択し、プールから最も類似したラベルなしインスタンスを取得します。
この結果として得られるサブプールは、アクティブ ラーニングに使用されます。
小さな固定サイズのサブプール AnchorAL を使用すると、アクティブ ラーニング戦略を大規模なプールに拡張できます。
各反復で異なるアンカーを動的に選択することにより、クラスのバランスが促進され、最初の決定境界のオーバーフィットが防止され、少数派インスタンスの新しいクラスターの発見が促進されます。
さまざまな分類タスク、アクティブ ラーニング戦略、モデル アーキテクチャにわたる実験 AnchorAL は、(i) 高速で、多くの場合、実行時間が数時間から数分に短縮され、(ii) よりパフォーマンスの高いモデルをトレーニングし、(iii) 競合する手法よりもバランスの取れたデータセットを返します。

要約(オリジナル)

Active learning for imbalanced classification tasks is challenging as the minority classes naturally occur rarely. Gathering a large pool of unlabelled data is thus essential to capture minority instances. Standard pool-based active learning is computationally expensive on large pools and often reaches low accuracy by overfitting the initial decision boundary, thus failing to explore the input space and find minority instances. To address these issues we propose AnchorAL. At each iteration, AnchorAL chooses class-specific instances from the labelled set, or anchors, and retrieves the most similar unlabelled instances from the pool. This resulting subpool is then used for active learning. Using a small, fixed-sized subpool AnchorAL allows scaling any active learning strategy to large pools. By dynamically selecting different anchors at each iteration it promotes class balance and prevents overfitting the initial decision boundary, thus promoting the discovery of new clusters of minority instances. Experiments across different classification tasks, active learning strategies, and model architectures AnchorAL is (i) faster, often reducing runtime from hours to minutes, (ii) trains more performant models, (iii) and returns more balanced datasets than competing methods.

arxiv情報

著者 Pietro Lesci,Andreas Vlachos
発行日 2024-04-08 15:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク