要約
ドメイン汎化(DG)は、ソースドメインで学習されたモデルが、未知のドメインに効果的に汎化する能力を強化することを目的としている。近年、シャープネスを考慮した最小化(SAM)は、より汎化されたモデルを得るために損失ランドスケープのシャープネスを低減することで、この分野で有望視されている。しかし、SAMとその変種は、モデルを平坦な最小値へ導くことに失敗することがあり、その学習過程には限界があるため、モデルの汎化のさらなる改善の妨げとなっている。本論文ではまず、モデルが平坦な極小値に収束するように促すことを目的とした、改良されたモデル学習プロセスを提案する。これを達成するために、モデルが収束から遠いときには最小限の効果しか持たないが、モデルが局所最小に近づくにつれて、最小の曲率を示すのに影響力を増す曲率メトリックを設計する。次に、メタ曲率考慮最小化(MeCAM)と呼ばれる、局所極小値付近の曲率を最小化する新しいアルゴリズムをこのメトリックから導出する。具体的には、MeCAMの最適化目的は、通常の学習損失、SAMの代理ギャップ、メタ学習の代理ギャップを同時に最小化する。MeCAMの汎化誤差と収束率に関する理論的分析を提供し、PACS、VLCS、OfficeHome、TerraIncognita、DomainNetの5つのベンチマークDGデータセットを用いた広範な実験を通じて、既存のDG手法に対する優位性を実証する。コードはGitHubで公開される。
要約(オリジナル)
Domain generalization (DG) aims to enhance the ability of models trained on source domains to generalize effectively to unseen domains. Recently, Sharpness-Aware Minimization (SAM) has shown promise in this area by reducing the sharpness of the loss landscape to obtain more generalized models. However, SAM and its variants sometimes fail to guide the model toward a flat minimum, and their training processes exhibit limitations, hindering further improvements in model generalization. In this paper, we first propose an improved model training process aimed at encouraging the model to converge to a flat minima. To achieve this, we design a curvature metric that has a minimal effect when the model is far from convergence but becomes increasingly influential in indicating the curvature of the minima as the model approaches a local minimum. Then we derive a novel algorithm from this metric, called Meta Curvature-Aware Minimization (MeCAM), to minimize the curvature around the local minima. Specifically, the optimization objective of MeCAM simultaneously minimizes the regular training loss, the surrogate gap of SAM, and the surrogate gap of meta-learning. We provide theoretical analysis on MeCAM’s generalization error and convergence rate, and demonstrate its superiority over existing DG methods through extensive experiments on five benchmark DG datasets, including PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet. Code will be available on GitHub.
arxiv情報
著者 | Ziyang Chen,Yiwen Ye,Feilong Tang,Yongsheng Pan,Yong Xia |
発行日 | 2025-03-03 10:39:41+00:00 |
arxivサイト | arxiv_id(pdf) |