要約
深層学習に基づく画像表現学習(IRL)手法の開発は、様々な画像理解問題に対して大きな注目を集めている。これらの手法の多くは、注釈付き学習画像を大量かつ高品質に入手する必要があるが、その収集には時間とコストがかかる。ラベリングコストを削減するために、クラウドソースデータ、自動ラベリング手順、または市民科学プロジェクトが考えられる。しかし、このようなアプローチでは、トレーニングデータにラベルノイズが含まれるリスクが高まる。判別推論が採用された場合、ノイズの多いラベルにオーバーフィッティングしてしまう可能性がある。これは最適でない学習手順、ひいては画像の不正確な特徴付けにつながる。これに対処するために、我々は生成推論統合ラベルノイズ頑健深層表現学習(GRID)アプローチを導入する。我々のアプローチは、ノイズラベル下のIRLのための識別的推論と生成的推論の相補的な特性をモデル化することを目的とする。この目的のために、我々はまず、教師付き変分オートエンコーダを通して、生成的推論を識別的推論に統合する。これにより、GRIDは、ノイズのあるラベルを持つ学習サンプルを自動的に検出することができます。次に、我々のラベルノイズに頑健なハイブリッド表現学習戦略により、GRIDは、生成的推論によるこれらのサンプルのIRLと、識別的推論による他のサンプルのIRLの学習手順全体を調整する。我々のアプローチは、選択されるIRL手法とは独立に、ノイズの多いラベルの干渉を防ぎながら、識別可能な画像表現を学習します。このように、既存の手法とは異なり、GRIDはアノテーションの種類、ニューラルネットワークアーキテクチャ、損失関数、学習タスクに依存しないため、様々な問題に直接利用することができる。実験結果は、最先端の手法と比較してその有効性を示しています。GRIDのコードは、https://github.com/gencersumbul/GRID で公開されています。
要約(オリジナル)
The development of deep learning based image representation learning (IRL) methods has attracted great attention for various image understanding problems. Most of these methods require the availability of a high quantity and quality of annotated training images, which can be time-consuming and costly to gather. To reduce labeling costs, crowdsourced data, automatic labeling procedures or citizen science projects can be considered. However, such approaches increase the risk of including label noise in training data. It may result in overfitting on noisy labels when discriminative reasoning is employed. This leads to sub-optimal learning procedures, and thus inaccurate characterization of images. To address this, we introduce a generative reasoning integrated label noise robust deep representation learning (GRID) approach. Our approach aims to model the complementary characteristics of discriminative and generative reasoning for IRL under noisy labels. To this end, we first integrate generative reasoning into discriminative reasoning through a supervised variational autoencoder. This allows GRID to automatically detect training samples with noisy labels. Then, through our label noise robust hybrid representation learning strategy, GRID adjusts the whole learning procedure for IRL of these samples through generative reasoning and that of other samples through discriminative reasoning. Our approach learns discriminative image representations while preventing interference of noisy labels independently from the IRL method being selected. Thus, unlike the existing methods, GRID does not depend on the type of annotation, neural network architecture, loss function or learning task, and thus can be directly utilized for various problems. Experimental results show its effectiveness compared to state-of-the-art methods. The code of GRID is publicly available at https://github.com/gencersumbul/GRID.
arxiv情報
著者 | Gencer Sumbul,Begüm Demir |
発行日 | 2023-08-04 11:50:14+00:00 |
arxivサイト | arxiv_id(pdf) |