What do neural networks learn in image classification? A frequency shortcut perspective

要約

周波数分析は、ニューラル ネットワーク (NN) における表現学習のメカニズムを理解するのに役立ちます。
この分野のほとんどの研究は、回帰タスクに関する NN の学習ダイナミクスに焦点を当てていますが、分類に関する研究はほとんどありません。
この研究は後者を経験的に調査し、周波数のショートカットについての理解を深めます。
まず、さまざまな周波数帯域に偏りを持つように設計された合成データセットに対して実験を実行します。
私たちの結果は、NN は分類のための単純な解決策を見つける傾向があり、トレーニング中に最初に何を学習するかは、低周波数または高周波数の最も特徴的な周波数特性に依存することを示しています。
次に、この現象を自然画像上で確認します。
クラスごとの周波数特性を測定するためのメトリックと、周波数のショートカットを特定する方法を提案します。
結果は、目的を最も単純化するものに応じて、周波数ショートカットはテクスチャ ベースまたは形状ベースにすることができることを示しています。
3 番目に、配布外 (OOD) テスト セットでの周波数ショートカットの移転可能性を検証します。
私たちの結果は、周波数ショートカットはデータセット間で転送される可能性があり、より大きなモデル容量とデータ増強によって完全に回避することはできないことを示唆しています。
今後の研究では、頻度のショートカット学習を軽減する効果的なトレーニング スキームに焦点を当てることをお勧めします。

要約(オリジナル)

Frequency analysis is useful for understanding the mechanisms of representation learning in neural networks (NNs). Most research in this area focuses on the learning dynamics of NNs for regression tasks, while little for classification. This study empirically investigates the latter and expands the understanding of frequency shortcuts. First, we perform experiments on synthetic datasets, designed to have a bias in different frequency bands. Our results demonstrate that NNs tend to find simple solutions for classification, and what they learn first during training depends on the most distinctive frequency characteristics, which can be either low- or high-frequencies. Second, we confirm this phenomenon on natural images. We propose a metric to measure class-wise frequency characteristics and a method to identify frequency shortcuts. The results show that frequency shortcuts can be texture-based or shape-based, depending on what best simplifies the objective. Third, we validate the transferability of frequency shortcuts on out-of-distribution (OOD) test sets. Our results suggest that frequency shortcuts can be transferred across datasets and cannot be fully avoided by larger model capacity and data augmentation. We recommend that future research should focus on effective training schemes mitigating frequency shortcut learning.

arxiv情報

著者 Shunxin Wang,Raymond Veldhuis,Christoph Brune,Nicola Strisciuglio
発行日 2023-08-30 10:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク