要約
ドメイン一般化セマンティック セグメンテーション (DGSS) は、ターゲット データにはアクセスせずにソース データのみでモデルがトレーニングされる、重要かつ困難なタスクです。
数多くの DGSS 戦略が提案されているにもかかわらず、CNN アーキテクチャにおける一般化機能は依然として限られています。
一部の Transformer ベースのセグメンテーション モデルは有望なパフォーマンスを示しますが、主にサンプル内の注意深い関係をキャプチャすることに焦点を当てており、DGSS に利益をもたらす可能性があるサンプル間の相関関係は無視されています。
この目的を達成するために、同じバッチ内の他の独立したサンプルからの情報を組み込み、コンテキスト情報を強化し、各アテンション ブロックのトレーニング データを多様化することで、DGSS を改善するために Transformer ネットワークのアテンション モジュールを強化します。
具体的には、異なるサンプル間の相関を捕捉し、特徴表現と一般化機能を強化するために、平均ベースのバッチ内アテンション (MIBA) と要素ごとのバッチ内アテンション (EIBA) という 2 つの代替バッチ内アテンション メカニズムを提案します。
バッチ内アテンションに基づいて、セルフ アテンション モジュールと DGSS 用に提案されているバッチ内アテンションを統合する IBAFormer を紹介します。
広範な実験により、IBAFormer が DGSS で SOTA パフォーマンスを達成することが実証され、アブレーション研究により、導入された各コンポーネントの有効性がさらに確認されました。
要約(オリジナル)
Domain generalized semantic segmentation (DGSS) is a critical yet challenging task, where the model is trained only on source data without access to any target data. Despite the proposal of numerous DGSS strategies, the generalization capability remains limited in CNN architectures. Though some Transformer-based segmentation models show promising performance, they primarily focus on capturing intra-sample attentive relationships, disregarding inter-sample correlations which can potentially benefit DGSS. To this end, we enhance the attention modules in Transformer networks for improving DGSS by incorporating information from other independent samples in the same batch, enriching contextual information, and diversifying the training data for each attention block. Specifically, we propose two alternative intra-batch attention mechanisms, namely mean-based intra-batch attention (MIBA) and element-wise intra-batch attention (EIBA), to capture correlations between different samples, enhancing feature representation and generalization capabilities. Building upon intra-batch attention, we introduce IBAFormer, which integrates self-attention modules with the proposed intra-batch attention for DGSS. Extensive experiments demonstrate that IBAFormer achieves SOTA performance in DGSS, and ablation studies further confirm the effectiveness of each introduced component.
arxiv情報
著者 | Qiyu Sun,Huilin Chen,Meng Zheng,Ziyan Wu,Michael Felsberg,Yang Tang |
発行日 | 2023-09-12 14:42:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google