BAL: Balancing Diversity and Novelty for Active Learning

要約

アクティブ ラーニングの目的は、データセットのサブセットに戦略的にラベルを付けて、所定のラベル付け予算内でパフォーマンスを最大化することです。
この研究では、自己教師あり学習によって取得された特徴を利用します。
多様なデータを識別するために、単純かつ強力な指標であるクラスター距離差を導入します。
続いて、多様で不確実なデータのバランスをとるための適応サブプールを構築する新しいフレームワークであるバランシング アクティブ ラーニング (BAL) を紹介します。
私たちのアプローチは、広く認識されているベンチマークで確立されたすべてのアクティブ ラーニング手法を 1.20% 上回ります。
さらに、我々は、より大きなラベル予算とより小さなラベル予算の両方を含む、拡張された設定の下で提案したフレームワークの有効性を評価します。
実験結果は、サンプルの 80% をラベル付けすると、現在の SOTA メソッドのパフォーマンスが 0.74% 低下するのに対し、私たちが提案する BAL は完全なデータセットに匹敵するパフォーマンスを達成することを示しています。
コードは https://github.com/JulietLJY/BAL で入手できます。

要約(オリジナル)

The objective of Active Learning is to strategically label a subset of the dataset to maximize performance within a predetermined labeling budget. In this study, we harness features acquired through self-supervised learning. We introduce a straightforward yet potent metric, Cluster Distance Difference, to identify diverse data. Subsequently, we introduce a novel framework, Balancing Active Learning (BAL), which constructs adaptive sub-pools to balance diverse and uncertain data. Our approach outperforms all established active learning methods on widely recognized benchmarks by 1.20%. Moreover, we assess the efficacy of our proposed framework under extended settings, encompassing both larger and smaller labeling budgets. Experimental results demonstrate that, when labeling 80% of the samples, the performance of the current SOTA method declines by 0.74%, whereas our proposed BAL achieves performance comparable to the full dataset. Codes are available at https://github.com/JulietLJY/BAL.

arxiv情報

著者 Jingyao Li,Pengguang Chen,Shaozuo Yu,Shu Liu,Jiaya Jia
発行日 2023-12-26 08:14:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク