Navigating the Pitfalls of Active Learning Evaluation: A Systematic Framework for Meaningful Performance Assessment

要約

能動学習(AL)は、ラベル付けされていないデータのプールから最も情報量の多いサンプルを対話的に選択することで、ラベル付けの負担を軽減することを目的としている。近年、ALクエリー手法の改善に関する広範な研究が行われている一方で、半教師付き学習(Semi-Supervised)や自己教師付き学習(Self-Supervised learning)、あるいは分類器構成の単純な最適化などの新しいパラダイムと比較したALの有効性に疑問を呈する研究もある。このように、今日のALに関する文献は一貫性のない矛盾した状況を提示しており、実務家はALをタスクに使用するかどうか、またどのように使用するかについて不確かなままである。本研究では、この矛盾はAL手法の体系的かつ現実的な評価の欠如から生じていることを論証する。具体的には、AL評価に必要なデリケートな考慮事項を反映した、現在の文献における5つの重要な落とし穴を特定する。さらに、これらの落とし穴を克服し、AL手法の性能について意味のある記述を可能にする評価フレームワークを提示する。我々のプロトコルの妥当性を実証するために、様々なデータセット、クエリー手法、AL設定、学習パラダイムにまたがる、画像分類の大規模な経験的研究とベンチマークを提示する。我々の発見は、文献の一貫性のない状況を明らかにし、実践的な推奨を行うことを可能にする。ベンチマークは https://github.com/IML-DKFZ/realistic-al でホストされている。

要約(オリジナル)

Active Learning (AL) aims to reduce the labeling burden by interactively selecting the most informative samples from a pool of unlabeled data. While there has been extensive research on improving AL query methods in recent years, some studies have questioned the effectiveness of AL compared to emerging paradigms such as semi-supervised (Semi-SL) and self-supervised learning (Self-SL), or a simple optimization of classifier configurations. Thus, today’s AL literature presents an inconsistent and contradictory landscape, leaving practitioners uncertain about whether and how to use AL in their tasks. In this work, we make the case that this inconsistency arises from a lack of systematic and realistic evaluation of AL methods. Specifically, we identify five key pitfalls in the current literature that reflect the delicate considerations required for AL evaluation. Further, we present an evaluation framework that overcomes these pitfalls and thus enables meaningful statements about the performance of AL methods. To demonstrate the relevance of our protocol, we present a large-scale empirical study and benchmark for image classification spanning various data sets, query methods, AL settings, and training paradigms. Our findings clarify the inconsistent picture in the literature and enable us to give hands-on recommendations for practitioners. The benchmark is hosted at https://github.com/IML-DKFZ/realistic-al .

arxiv情報

著者 Carsten T. Lüth,Till J. Bungert,Lukas Klein,Paul F. Jaeger
発行日 2023-11-03 16:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク