要約
アクティブ ラーニングの目的は、データセットのサブセットに戦略的にラベルを付けて、所定のラベル付け予算内でパフォーマンスを最大化することです。
この研究では、自己教師あり学習によって取得された特徴を利用します。
多様なデータを識別するために、単純かつ強力な指標であるクラスター距離差を導入します。
続いて、多様で不確実なデータのバランスをとるための適応サブプールを構築する新しいフレームワークであるバランシング アクティブ ラーニング (BAL) を紹介します。
私たちのアプローチは、広く認識されているベンチマークで確立されたすべてのアクティブ ラーニング手法を 1.20% 上回ります。
さらに、我々は、より大きなラベル予算とより小さなラベル予算の両方を含む、拡張された設定の下で提案したフレームワークの有効性を評価します。
実験結果は、サンプルの 80% をラベル付けすると、現在の SOTA メソッドのパフォーマンスが 0.74% 低下するのに対し、私たちが提案する BAL は完全なデータセットに匹敵するパフォーマンスを達成することを示しています。
コードは https://github.com/JulietLJY/BAL で入手できます。
要約(オリジナル)
The objective of Active Learning is to strategically label a subset of the dataset to maximize performance within a predetermined labeling budget. In this study, we harness features acquired through self-supervised learning. We introduce a straightforward yet potent metric, Cluster Distance Difference, to identify diverse data. Subsequently, we introduce a novel framework, Balancing Active Learning (BAL), which constructs adaptive sub-pools to balance diverse and uncertain data. Our approach outperforms all established active learning methods on widely recognized benchmarks by 1.20%. Moreover, we assess the efficacy of our proposed framework under extended settings, encompassing both larger and smaller labeling budgets. Experimental results demonstrate that, when labeling 80% of the samples, the performance of the current SOTA method declines by 0.74%, whereas our proposed BAL achieves performance comparable to the full dataset. Codes are available at https://github.com/JulietLJY/BAL.
arxiv情報
著者 | Jingyao Li,Pengguang Chen,Shaozuo Yu,Shu Liu,Jiaya Jia |
発行日 | 2023-12-26 08:14:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google