Exploring Flat Minima for Domain Generalization with Large Learning Rates

要約

ドメイン一般化 (DG) は、任意の目に見えないドメインに一般化することを目的としています。
DG におけるモデルの一般化を改善するための有望なアプローチは、フラット最小値の特定です。
このタスクの典型的な方法の 1 つは SWAD であり、これにはトレーニング軌跡に沿って重みを平均することが含まれます。
ただし、重み平均が成功するかどうかは重みの多様性に依存しており、小さな学習率でトレーニングする場合は重みの多様性が制限されます。
その代わりに、大きな学習率を活用すると、重みの多様性が促進され、損失状況における平坦な領域の特定が同時に容易になることが観察されています。
ただし、大きな学習率を採用すると収束の問題が発生し、トレーニングの重みを単に平均するだけでは解決できません。
この問題に対処するために、高速な重みと遅い重みの間の平均ではなく重み補間を含む先読みと呼ばれるトレーニング戦略を導入します。
高速重みは大きな学習率で重み空間を探索しますが、学習率は収束しませんが、低速重みはそれを補間して確実に収束します。
さらに、重み補間は、平坦性を測定する局所エントロピー損失を暗黙的に最適化することにより、平坦な最小値を特定するのにも役立ちます。
トレーニング中の過学習をさらに防ぐために、加重平均重みまたは累積履歴重みを使用してトレーニング重みを正規化する 2 つの変形を提案します。
この新しい観点を利用して、私たちの手法は分類とセマンティック セグメンテーション ドメインの一般化ベンチマークの両方で最先端のパフォーマンスを達成します。
コードは https://github.com/koncle/DG-with-Large-LR で入手できます。

要約(オリジナル)

Domain Generalization (DG) aims to generalize to arbitrary unseen domains. A promising approach to improve model generalization in DG is the identification of flat minima. One typical method for this task is SWAD, which involves averaging weights along the training trajectory. However, the success of weight averaging depends on the diversity of weights, which is limited when training with a small learning rate. Instead, we observe that leveraging a large learning rate can simultaneously promote weight diversity and facilitate the identification of flat regions in the loss landscape. However, employing a large learning rate suffers from the convergence problem, which cannot be resolved by simply averaging the training weights. To address this issue, we introduce a training strategy called Lookahead which involves the weight interpolation, instead of average, between fast and slow weights. The fast weight explores the weight space with a large learning rate, which is not converged while the slow weight interpolates with it to ensure the convergence. Besides, weight interpolation also helps identify flat minima by implicitly optimizing the local entropy loss that measures flatness. To further prevent overfitting during training, we propose two variants to regularize the training weight with weighted averaged weight or with accumulated history weight. Taking advantage of this new perspective, our methods achieve state-of-the-art performance on both classification and semantic segmentation domain generalization benchmarks. The code is available at https://github.com/koncle/DG-with-Large-LR.

arxiv情報

著者 Jian Zhang,Lei Qi,Yinghuan Shi,Yang Gao
発行日 2023-09-12 15:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク