Exploiting Diversity of Unlabeled Data for Label-Efficient Semi-Supervised Active Learning

要約

大規模なラベル付きデータセットの可用性は、ディープラーニングを成功させるための重要な要素です。
ただし、大規模なデータセットのラベルに注釈を付けることは、一般的に時間と費用がかかります。
アクティブラーニングは、ラベリングに最も重要なサンプルを選択することにより、高価なラベリングの問題に対処する研究分野です。
多様性ベースのサンプリングアルゴリズムは、アクティブラーニングのための表現ベースのアプローチの不可欠なコンポーネントとして知られています。
この論文では、アクティブラーニング設定での初期ラベリングのために最も有益なサンプルのセットを選択するための新しい多様性ベースの初期データセット選択アルゴリズムを紹介します。
自己教師あり表現学習は、初期データセット選択アルゴリズムでサンプルの多様性を考慮するために使用されます。
また、一貫性ベースの埋め込みで多様性ベースのサンプリングを使用する、新しいアクティブラーニングクエリ戦略を提案します。
一貫性ベースの埋め込みスキームの多様性を備えた一貫性情報を考慮することにより、提案された方法は、半教師あり学習設定でラベル付けするためのより有益なサンプルを選択することができます。
比較実験は、提案された方法が、ラベルのないデータの多様性を利用することにより、以前の能動学習アプローチと比較して、CIFAR-10およびCaltech-101データセットで説得力のある結果を達成することを示しています。

要約(オリジナル)

The availability of large labeled datasets is the key component for the success of deep learning. However, annotating labels on large datasets is generally time-consuming and expensive. Active learning is a research area that addresses the issues of expensive labeling by selecting the most important samples for labeling. Diversity-based sampling algorithms are known as integral components of representation-based approaches for active learning. In this paper, we introduce a new diversity-based initial dataset selection algorithm to select the most informative set of samples for initial labeling in the active learning setting. Self-supervised representation learning is used to consider the diversity of samples in the initial dataset selection algorithm. Also, we propose a novel active learning query strategy, which uses diversity-based sampling on consistency-based embeddings. By considering the consistency information with the diversity in the consistency-based embedding scheme, the proposed method could select more informative samples for labeling in the semi-supervised learning setting. Comparative experiments show that the proposed method achieves compelling results on CIFAR-10 and Caltech-101 datasets compared with previous active learning approaches by utilizing the diversity of unlabeled data.

arxiv情報

著者 Felix Buchert,Nassir Navab,Seong Tae Kim
発行日 2022-07-25 16:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク