要約
視覚信号の明示的な分解方法として機能するフーリエ変換は、畳み込みニューラル ネットワーク (CNN) の分布外一般化動作を説明するために使用されています。
以前の研究では、振幅スペクトルが分布のシフトによって引き起こされる外乱の影響を受けやすいことが示されています。
一方、位相スペクトルは、高度に構造化された空間情報を保存します。これは、堅牢な視覚表現学習にとって重要です。
ただし、位相スペクトルの空間的関係は、これまでの研究ではまだ解明されていません。
この論文では、領域一般化 (DG) と周波数成分の間の関係を明らかにし、位相スペクトルの空間関係を調査することを目的としています。
具体的には、まず、位相スペクトルを半因果因子として解釈し、振幅スペクトルを非因果因子として解釈するフーリエベースの構造因果モデルを導入します。
次に、DG の問題に対処するために位相整合 (PhaMa) を提案します。
私たちの方法では、振幅スペクトルに摂動を導入し、位相成分を一致させるための空間関係を確立します。
複数のベンチマークでの実験を通じて、提案した手法がドメイン汎化タスクと分散外ロバスト性タスクにおいて最先端のパフォーマンスを達成することを実証します。
要約(オリジナル)
The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous studies have indicated that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for robust visual representation learning. However, the spatial relationships of phase spectrum remain unexplored in previous researches. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components, and explore the spatial relationships of the phase spectrum. Specifically, we first introduce a Fourier-based structural causal model which interprets the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Then, we propose Phase Matching (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
arxiv情報
著者 | Chengming Hu,Yeqian Du,Rui Wang,Hao Chen |
発行日 | 2023-08-01 15:23:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google