要約
人間の視覚は、分散されていない視覚データに簡単に一般化できますが、これは最新の機械学習モデルの能力をはるかに超えています。
ドメインジェネラライゼーション (DG) はこのギャップを埋めることを目的としており、既存の DG メソッドは主に損失関数の設計に焦点を当てています。
この論文では、直交方向、つまりバックボーン アーキテクチャの設計を検討することを提案します。
これは、経験的リスク最小化 (ERM) でトレーニングされた変換器ベースのモデルが、複数の DG データセットで最先端の (SOTA) DG アルゴリズムを使用する CNN ベースのモデルよりも優れているという経験的発見に動機付けられています。
データセット内の相関関係とのアーキテクチャの整合性を研究することにより、分布の変化に対するネットワークの堅牢性を特徴付ける正式なフレームワークを開発します。
この分析により、ビジョン トランスフォーマーに基づいて構築された新しい DG モデル、つまり Generalizable Mixture-of-Experts (GMoE) を提案することができます。
DomainBed での広範な実験では、ERM でトレーニングされた GMoE が SOTA DG ベースラインよりも大幅に優れていることが示されています。
さらに、GMoE は既存の DG メソッドを補完するものであり、DG アルゴリズムでトレーニングすると、そのパフォーマンスが大幅に向上します。
要約(オリジナル)
Human visual perception can easily generalize to out-of-distributed visual data, which is far beyond the capability of modern machine learning models. Domain generalization (DG) aims to close this gap, with existing DG methods mainly focusing on the loss function design. In this paper, we propose to explore an orthogonal direction, i.e., the design of the backbone architecture. It is motivated by an empirical finding that transformer-based models trained with empirical risk minimization (ERM) outperform CNN-based models employing state-of-the-art (SOTA) DG algorithms on multiple DG datasets. We develop a formal framework to characterize a network’s robustness to distribution shifts by studying its architecture’s alignment with the correlations in the dataset. This analysis guides us to propose a novel DG model built upon vision transformers, namely Generalizable Mixture-of-Experts (GMoE). Extensive experiments on DomainBed demonstrate that GMoE trained with ERM outperforms SOTA DG baselines by a large margin. Moreover, GMoE is complementary to existing DG methods and its performance is substantially improved when trained with DG algorithms.
arxiv情報
著者 | Bo Li,Yifei Shen,Jingkang Yang,Yezhen Wang,Jiawei Ren,Tong Che,Jun Zhang,Ziwei Liu |
発行日 | 2023-01-27 06:46:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google