Patch-aware Batch Normalization for Improving Cross-domain Robustness

要約

タイトル:Cross-domain 頑健性を向上させるためのパッチ感知バッチノーマライゼーション

要約:
– 深層学習は画像認識において大きな成功を収めたが、異なる分布に従うトレーニングセットとテストセットがある場合、モデルの性能が低下してしまうCross-domain タスクが課題となっている。
– 既存の多くの方法は、データ拡張のための通常、敵対的学習またはインスタンス正規化を採用している。
– 一方バッチノーマライゼーション(BN)層は、未知のドメインに対してロバストではない場合があり、画像の局所パッチ間に差があることを考慮して、我々はパッチ感知バッチノーマライゼーション(PBN)という新しい方法を提案する。
– 具体的には、バッチの特徴マップを空間次元に沿って重ならないパッチに分割し、それぞれのパッチを独立して正規化し、各イテレーションで共有BNパラメータを共同で最適化する。
– 画像のローカルパッチ間の差異を利用することにより、提案されたPBNは、モデルのパラメータの頑丈性を効果的に高めることができる。
– さらに、各パッチからの統計情報は、グローバルな特徴マップと比べてサイズが小さいため、不正確である可能性があるため、各パッチの正規化のための最終的な統計を得るために、グローバルに蓄積された統計情報と各バッチからの統計情報を統合する。
– 提案されたPBNは、通常のBNを置き換えることができるため、既存の最先端の方法に統合することができる。
– 詳細な実験と分析により、提案されたPBNが分類、物体検出、インスタンス検索、セマンティックセグメンテーションを含む複数のコンピュータビジョンタスクにおいて有効であることが示された。

要約(オリジナル)

Despite the significant success of deep learning in computer vision tasks, cross-domain tasks still present a challenge in which the model’s performance will degrade when the training set and the test set follow different distributions. Most existing methods employ adversarial learning or instance normalization for achieving data augmentation to solve this task. In contrast, considering that the batch normalization (BN) layer may not be robust for unseen domains and there exist the differences between local patches of an image, we propose a novel method called patch-aware batch normalization (PBN). To be specific, we first split feature maps of a batch into non-overlapping patches along the spatial dimension, and then independently normalize each patch to jointly optimize the shared BN parameter at each iteration. By exploiting the differences between local patches of an image, our proposed PBN can effectively enhance the robustness of the model’s parameters. Besides, considering the statistics from each patch may be inaccurate due to their smaller size compared to the global feature maps, we incorporate the globally accumulated statistics with the statistics from each batch to obtain the final statistics for normalizing each patch. Since the proposed PBN can replace the typical BN, it can be integrated into most existing state-of-the-art methods. Extensive experiments and analysis demonstrate the effectiveness of our PBN in multiple computer vision tasks, including classification, object detection, instance retrieval, and semantic segmentation.

arxiv情報

著者 Lei Qi,Dongjia Zhao,Yinghuan Shi,Xin Geng
発行日 2023-04-06 03:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク