DGMamba: Domain Generalization via Generalized State Space Model

要約

Domain Generalization~(DG) は、さまざまなシーンにおける流通シフト問題の解決を目的としています。
既存のアプローチは、畳み込みニューラル ネットワーク (CNN) またはビジョン トランスフォーマー (ViT) に基づいていますが、これらには限られた受容野や二次複雑さの問題があります。
Mamba は、新興状態空間モデル (SSM) として、優れた線形の複雑さとグローバルな受容野を備えています。
それにもかかわらず、隠れ状態の問題と不適切なスキャン メカニズムのため、配布シフトに対処するために DG に適用することはほとんどできません。
本稿では、DGMambaと呼ばれるDGのための新しいフレームワークを提案します。このフレームワークは、目に見えない領域に対する強い一般化性に優れ、同時に大域的受容野と効率的な線形複雑性の利点を備えています。
私たちの DGMamba は、Hidden State Suppressing~(HSS) と Semantic-aware Patch洗練~(SPR) という 2 つのコア コンポーネントを侵害します。
特に、HSS は、出力予測中のドメイン固有の機能に関連する隠れ状態の影響を軽減するために導入されています。
SPR は、モデルがコンテキストではなくオブジェクトに集中するように努めており、Prior-Free Scanning~(PFS) と Domain Context Interchange~(DCI) の 2 つの設計で構成されています。
具体的には、PFS は画像内の非セマンティック パッチをシャッフルして、画像からより柔軟で効果的なシーケンスを作成することを目的としています。DCI は、ドメイン間のパッチを融合することで、不一致の非セマンティック情報とセマンティック情報の組み合わせで Mamba を正規化するように設計されています。
一般的に使用される 4 つの DG ベンチマークに関する広範な実験により、提案された DGMamba が最先端のモデルよりも著しく優れた結果を達成することが実証されました。
コードは公開されます。

要約(オリジナル)

Domain generalization~(DG) aims at solving distribution shift problems in various scenes. Existing approaches are based on Convolution Neural Networks (CNNs) or Vision Transformers (ViTs), which suffer from limited receptive fields or quadratic complexities issues. Mamba, as an emerging state space model (SSM), possesses superior linear complexity and global receptive fields. Despite this, it can hardly be applied to DG to address distribution shifts, due to the hidden state issues and inappropriate scan mechanisms. In this paper, we propose a novel framework for DG, named DGMamba, that excels in strong generalizability toward unseen domains and meanwhile has the advantages of global receptive fields, and efficient linear complexity. Our DGMamba compromises two core components: Hidden State Suppressing~(HSS) and Semantic-aware Patch refining~(SPR). In particular, HSS is introduced to mitigate the influence of hidden states associated with domain-specific features during output prediction. SPR strives to encourage the model to concentrate more on objects rather than context, consisting of two designs: Prior-Free Scanning~(PFS), and Domain Context Interchange~(DCI). Concretely, PFS aims to shuffle the non-semantic patches within images, creating more flexible and effective sequences from images, and DCI is designed to regularize Mamba with the combination of mismatched non-semantic and semantic information by fusing patches among domains. Extensive experiments on four commonly used DG benchmarks demonstrate that the proposed DGMamba achieves remarkably superior results to state-of-the-art models. The code will be made publicly available.

arxiv情報

著者 Shaocong Long,Qianyu Zhou,Xiangtai Li,Xuequan Lu,Chenhao Ying,Yuan Luo,Lizhuang Ma,Shuicheng Yan
発行日 2024-04-11 14:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク