SETA: Semantic-Aware Token Augmentation for Domain Generalization

要約

ドメイン一般化 (DG) は、ターゲット ドメインにアクセスせずに、ドメイン シフトに対するモデルの堅牢性を強化することを目的としています。
DG の一般的なカテゴリの手法はデータ拡張です。これは、ドメイン シフトをシミュレートする仮想サンプルを生成することに重点を置いています。
ただし、DG の既存の拡張技術は主に畳み込みニューラル ネットワーク (CNN) 向けに調整されており、トークンベースのアーキテクチャ、つまりビジョン トランスフォーマー (ViT) や多層パーセプトロン (MLP) モデルでの探索は限られています。
この論文では、従来の CNN ベースの拡張手法がトークンベースのモデルに及ぼす影響を研究し、全体的な形状情報をモデルに学習させるインセンティブが欠如しているため、そのパフォーマンスが次善であることを明らかにしました。
この問題に取り組むために、SEmantic-aware Token Augmentation (SETA) 手法を提案します。
SETA は、グローバルな形状特徴を維持しながら、ローカル エッジ キューを摂動させることによってトークン フィーチャを変換し、それによって形状情報のモデル学習を強化します。
モデルの汎化能力をさらに強化するために、DG の 2 つの最先端のスタイル拡張メソッドと組み合わせた、私たちのメソッドの 2 つの様式化されたバリアントを導入します。
私たちは、私たちの方法に対する理論的な洞察を提供し、一般化のリスク限界を軽減する際のその有効性を実証します。
5 つのベンチマークに関する包括的な実験により、私たちの手法がさまざまな ViT および MLP アーキテクチャにわたって SOTA パフォーマンスを達成できることが証明されました。
私たちのコードは https://github.com/lingeringlight/SETA で入手できます。

要約(オリジナル)

Domain generalization (DG) aims to enhance the model robustness against domain shifts without accessing target domains. A prevalent category of methods for DG is data augmentation, which focuses on generating virtual samples to simulate domain shifts. However, existing augmentation techniques in DG are mainly tailored for convolutional neural networks (CNNs), with limited exploration in token-based architectures, i.e., vision transformer (ViT) and multi-layer perceptrons (MLP) models. In this paper, we study the impact of prior CNN-based augmentation methods on token-based models, revealing their performance is suboptimal due to the lack of incentivizing the model to learn holistic shape information. To tackle the issue, we propose the SEmantic-aware Token Augmentation (SETA) method. SETA transforms token features by perturbing local edge cues while preserving global shape features, thereby enhancing the model learning of shape information. To further enhance the generalization ability of the model, we introduce two stylized variants of our method combined with two state-of-the-art style augmentation methods in DG. We provide a theoretical insight into our method, demonstrating its effectiveness in reducing the generalization risk bound. Comprehensive experiments on five benchmarks prove that our method achieves SOTA performances across various ViT and MLP architectures. Our code is available at https://github.com/lingeringlight/SETA.

arxiv情報

著者 Jintao Guo,Lei Qi,Yinghuan Shi,Yang Gao
発行日 2024-10-21 14:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク