要約
能動学習は、最初にアノテーションすべき最も重要なデータを繰り返し選択することで、アノテーションの効率を向上させることを約束する。しかし、我々はこの約束と著しく矛盾することを発見した。すなわち、能動学習は最初の数回の選択ではランダムな選択と同じように効率的にデータを選択することができない。我々はこれを、偏った異常な初期クエリによって引き起こされる、ビジョン能動学習におけるコールドスタート問題と呼ぶ。本論文では、対比学習の3つの利点、すなわち、(1)アノテーションが不要、(2)擬似ラベルによりラベルの多様性を確保し偏りを軽減、(3)対比特徴により典型データを決定し外れ値を軽減、を利用することで、コールドスタート問題への対処を模索する。CIFAR-10-LTと3つの医用画像データセット(大腸病理、腹部CT、血球顕微鏡)に対して実験を行った。我々の初期クエリは、既存のアクティブクエリ戦略を大幅に上回るだけでなく、ランダム選択も大きく上回る。我々は、コールドスタート問題に対する我々の解決策が、ビジョン能動学習における初期クエリを選択するためのシンプルかつ強力なベースラインとなることを予見している。コードはこちら: https://github.com/c-liangyu/CSVAL
要約(オリジナル)
Active learning promises to improve annotation efficiency by iteratively selecting the most important data to be annotated first. However, we uncover a striking contradiction to this promise: active learning fails to select data as efficiently as random selection at the first few choices. We identify this as the cold start problem in vision active learning, caused by a biased and outlier initial query. This paper seeks to address the cold start problem by exploiting the three advantages of contrastive learning: (1) no annotation is required; (2) label diversity is ensured by pseudo-labels to mitigate bias; (3) typical data is determined by contrastive features to reduce outliers. Experiments are conducted on CIFAR-10-LT and three medical imaging datasets (i.e. Colon Pathology, Abdominal CT, and Blood Cell Microscope). Our initial query not only significantly outperforms existing active querying strategies but also surpasses random selection by a large margin. We foresee our solution to the cold start problem as a simple yet strong baseline to choose the initial query for vision active learning. Code is available: https://github.com/c-liangyu/CSVAL
arxiv情報
著者 | Liangyu Chen,Yutong Bai,Siyu Huang,Yongyi Lu,Bihan Wen,Alan L. Yuille,Zongwei Zhou |
発行日 | 2022-10-05 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |