Simple but Effective Unsupervised Classification for Specified Domain Images: A Case Study on Fungi Images

要約

深層学習には、高品質のラベル付きデータセットが不可欠です。
従来の手動によるアノテーション方法は、コストが高く非効率であるだけでなく、専門知識が必要な特殊な領域では課題が生じます。
自己教師あり手法では、特徴抽出にラベルのないデータを利用しているにもかかわらず、効果的な特殊な画像分類のためにモデルをガイドするために、依然として数百または数千のラベル付きインスタンスが必要です。
現在の教師なし学習方法は、事前のアノテーションなしで自動分類を提供しますが、精度が犠牲になることがよくあります。
その結果、注釈付きデータのない特殊なドメイン画像にとって、高品質のラベル付きデータセットを効率的に調達することは依然として差し迫った課題となっています。
これに対処するために、3 つの主要なアイデアを備えた教師なし分類手法が導入されています。1) 事前トレーニング済みモデルと多様体学習を使用した 2 段階の特徴次元削減、2) 複数のクラスタリング アルゴリズムからの投票メカニズム、3) クラスタリング アルゴリズムの代わりにポストホック
以前の手動の注釈。
このアプローチは、真菌画像データで実証されているように、分類精度において教師あり手法を上回っており、公開データセットと非公開データセットでそれぞれ 94.1% と 96.7% を達成しています。
提案された教師なし分類方法は、事前にアノテーションが付けられたデータセットへの依存を軽減し、データ分類のための閉ループを可能にします。
この手法のシンプルさと使いやすさは、さまざまな分野の研究者にデータセットの構築の利便性をもたらし、特殊な領域での画像の AI アプリケーションを促進します。

要約(オリジナル)

High-quality labeled datasets are essential for deep learning. Traditional manual annotation methods are not only costly and inefficient but also pose challenges in specialized domains where expert knowledge is needed. Self-supervised methods, despite leveraging unlabeled data for feature extraction, still require hundreds or thousands of labeled instances to guide the model for effective specialized image classification. Current unsupervised learning methods offer automatic classification without prior annotation but often compromise on accuracy. As a result, efficiently procuring high-quality labeled datasets remains a pressing challenge for specialized domain images devoid of annotated data. Addressing this, an unsupervised classification method with three key ideas is introduced: 1) dual-step feature dimensionality reduction using a pre-trained model and manifold learning, 2) a voting mechanism from multiple clustering algorithms, and 3) post-hoc instead of prior manual annotation. This approach outperforms supervised methods in classification accuracy, as demonstrated with fungal image data, achieving 94.1% and 96.7% on public and private datasets respectively. The proposed unsupervised classification method reduces dependency on pre-annotated datasets, enabling a closed-loop for data classification. The simplicity and ease of use of this method will also bring convenience to researchers in various fields in building datasets, promoting AI applications for images in specialized domains.

arxiv情報

著者 Zhaocong liu,Fa Zhang,Lin Cheng,Huanxi Deng,Xiaoyan Yang,Zhenyu Zhang,Chichun Zhou
発行日 2023-11-15 14:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク