要約
人間の視覚認識は、分散していない視覚データに対しても容易に汎化することができるが、これは最新の機械学習モデルの能力をはるかに超えている。ドメイン汎化(DG)はこのギャップを埋めることを目的としており、既存のDG手法は主に損失関数設計に着目している。本論文では、直交する方向、すなわち、バックボーンアーキテクチャの設計を探求することを提案する。これは、経験的リスク最小化(ERM)を用いて学習させたトランスフォーマーベースモデルが、複数のDGデータセットにおいて、最新(SOTA)DGアルゴリズムを採用したCNNベースモデルを上回るという経験的知見によって動機付けされたものである。我々は、データセット内の相関関係に対するネットワークのアーキテクチャの整合性を調べることで、分布の変化に対するネットワークの頑健性を特徴付ける正式なフレームワークを開発する。この分析により、我々はビジョン変換器に基づいて構築された新しいDGモデル、すなわち一般化可能な混合エキスパート(GMoE)を提案する。DomainBedを用いた広範な実験により、ERMを用いて学習したGMoEはSOTA DGベースラインよりも大きなマージンをもって優れていることが実証された。さらに、GMoEは既存のDG手法と相補的であり、DGアルゴリズムで学習させるとその性能は大幅に改善される。
要約(オリジナル)
Human visual perception can easily generalize to out-of-distributed visual data, which is far beyond the capability of modern machine learning models. Domain generalization (DG) aims to close this gap, with existing DG methods mainly focusing on the loss function design. In this paper, we propose to explore an orthogonal direction, i.e., the design of the backbone architecture. It is motivated by an empirical finding that transformer-based models trained with empirical risk minimization (ERM) outperform CNN-based models employing state-of-the-art (SOTA) DG algorithms on multiple DG datasets. We develop a formal framework to characterize a network’s robustness to distribution shifts by studying its architecture’s alignment to the correlations in the dataset. This analysis guides us to propose a novel DG model built upon vision transformers, namely Generalizable Mixture-of-Experts (GMoE). Extensive experiments on DomainBed demonstrate that GMoE trained with ERM outperforms SOTA DG baselines by a large margin. Moreover, GMoE is complementary to existing DG methods and its performance is substantially improved when trained with DG algorithms.
arxiv情報
著者 | Bo Li,Yifei Shen,Jingkang Yang,Yezhen Wang,Jiawei Ren,Tong Che,Jun Zhang,Ziwei Liu |
発行日 | 2022-11-08 03:29:09+00:00 |
arxivサイト | arxiv_id(pdf) |