Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training

要約

機械学習モデルは、トレーニング プロセスに人間の知覚情報を組み込むと、分類タスクの精度が向上することを示しています。
ただし、人間がガイドするモデルをトレーニングする際の課題は、人間の顕著性に関する画像の注釈の収集に関連するコストです。
大規模なトレーニング セット内のすべての画像のアノテーション データを収集すると、法外なコストがかかる可能性があります。
この作業では、「教師」モデル (人間が注釈を付けた少量のデータでトレーニングされた) を利用して、教師モデルの顕著性マップによって追加のデータに注釈を付けます。
次に、「学生」モデルは、注釈付きの大量のトレーニング データを使用してトレーニングされます。
このアプローチにより、人間が提供した限られた数のアノテーションを、モデルが生成した任意の多数の画像アノテーションで補うことが可能になります。
教師と生徒のトレーニング パラダイムによって達成される精度を、(1) 利用可能な人間の顕著性のアノテーションをすべて使用したトレーニングと、(2) 人間の顕著性のアノテーションなしで利用可能なすべてのトレーニング データを使用した場合と比較します。
困難な問題の例として合成顔検出と偽虹彩検出を使用し、4 つのモデル アーキテクチャ (DenseNet、ResNet、Xception、および Inception) と 2 つの顕著性推定方法 (CAM と RISE) にわたる結果を報告します。
結果は、私たちの教師と生徒のトレーニング パラダイムにより、両方のベースラインのパフォーマンスを大幅に超えるモデルが得られることを示しており、これは、私たちのアプローチが少量の人による注釈を有効に活用して、任意の量の追加トレーニング データの顕著性マップを生成できることを示しています。

要約(オリジナル)

Machine learning models have shown increased accuracy in classification tasks when the training process incorporates human perceptual information. However, a challenge in training human-guided models is the cost associated with collecting image annotations for human salience. Collecting annotation data for all images in a large training set can be prohibitively expensive. In this work, we utilize ‘teacher’ models (trained on a small amount of human-annotated data) to annotate additional data by means of teacher models’ saliency maps. Then, ‘student’ models are trained using the larger amount of annotated training data. This approach makes it possible to supplement a limited number of human-supplied annotations with an arbitrarily large number of model-generated image annotations. We compare the accuracy achieved by our teacher-student training paradigm with (1) training using all available human salience annotations, and (2) using all available training data without human salience annotations. We use synthetic face detection and fake iris detection as example challenging problems, and report results across four model architectures (DenseNet, ResNet, Xception, and Inception), and two saliency estimation methods (CAM and RISE). Results show that our teacher-student training paradigm results in models that significantly exceed the performance of both baselines, demonstrating that our approach can usefully leverage a small amount of human annotations to generate salience maps for an arbitrary amount of additional training data.

arxiv情報

著者 Colton R. Crum,Aidan Boyd,Kevin Bowyer,Adam Czajka
発行日 2023-11-09 18:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク