MENTOR: Human Perception-Guided Pretraining for Increased Generalization

要約

人間の知覚を畳み込みニューラル ネットワーク (CNN) のトレーニングに組み込むことで、開集合認識タスクにおけるそのようなモデルの汎化能力が向上しました。
活発な研究課題の 1 つは、常に制限されている人間の知覚データを (モデル アーキテクチャ内の) どこで、どのように効率的にモデルのトレーニング戦略に組み込むかということです。
この論文では、オープンセットの異常検出を任務とする CNN を 2 回の独自のトレーニング ラウンドでトレーニングすることで、この問題に対処する MENTOR (human pErceptioN-guided preTraining for増加geneRalization) を紹介します。
まず、クラス ラベルを使用せずに、入力画像を与えられて人間の顕著性マップを学習するようにオートエンコーダーをトレーニングします。
したがって、オートエンコーダーには、人間の知覚を模倣するドメイン固有の顕著な特徴を発見するという使命があります。
次に、デコーダ部分を削除し、エンコーダの上に分類層を追加し、この新しいモデルを従来どおり微調整します。
MENTOR の利点は 2 つあることを示します。(a) 異常検出タスク (この論文では、未知の虹彩提示攻撃、合成的に生成された顔、胸部 X 線画像の異常の検出について実証) を使用したモデルと比較して、精度が大幅に向上します。
従来の転移学習 (例: ImageNet で事前トレーニングされたモデルから重みを取得する)、および人間の知覚ガイダンスを損失関数に組み込んだ最先端のアプローチでトレーニングされたモデル、および (b) モデルの効率の向上
最先端のトレーニング方法と比較して、収束に必要なエポックが少なくなります。

要約(オリジナル)

Incorporating human perception into training of convolutional neural networks (CNN) has boosted generalization capabilities of such models in open-set recognition tasks. One of the active research questions is where (in the model architecture) and how to efficiently incorporate always-limited human perceptual data into training strategies of models. In this paper, we introduce MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization), which addresses this question through two unique rounds of training the CNNs tasked with open-set anomaly detection. First, we train an autoencoder to learn human saliency maps given an input image, without class labels. The autoencoder is thus tasked with discovering domain-specific salient features which mimic human perception. Second, we remove the decoder part, add a classification layer on top of the encoder, and fine-tune this new model conventionally. We show that MENTOR’s benefits are twofold: (a) significant accuracy boost in anomaly detection tasks (in this paper demonstrated for detection of unknown iris presentation attacks, synthetically-generated faces, and anomalies in chest X-ray images), compared to models utilizing conventional transfer learning (e.g., sourcing the weights from ImageNet-pretrained models) as well as to models trained with the state-of-the-art approach incorporating human perception guidance into loss functions, and (b) an increase in the efficiency of model training, requiring fewer epochs to converge compared to state-of-the-art training methods.

arxiv情報

著者 Colton R. Crum,Adam Czajka
発行日 2024-02-12 17:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク