Lookaround Optimizer: $k$ steps around, 1 step average

要約

Weight Average (WA) は、深いネットワークのアンサンブルが容易であり、一般化を促進する効果があるため、活発な研究トピックです。
しかし、既存の重み平均アプローチは、多くの場合、事後的に 1 つのトレーニング軌道に沿ってのみ実行されます (つまり、トレーニング プロセス全体が終了した後に重みが平均化されます)。これにより、ネットワーク間の多様性が大幅に低下し、有効性が損なわれます。
アンサンブルで。
このペーパーでは、重み平均にインスピレーションを得て、より一般化されたより平坦な最小値をもたらす、単純かつ効果的な SGD ベースのオプティマイザーである Lookaround を提案します。
具体的には、Lookaround は、トレーニング期間全体にわたって、アラウンド ステップと平均ステップという 2 つのステップを繰り返します。
各反復では、1) アラウンド ステップは共通点から開始し、それぞれ異なるデータ拡張によって変換されたデータに基づいて複数のネットワークを同時にトレーニングします。2) 平均ステップは、これらのトレーニングされたネットワークを平均して、平均化されたネットワークを取得します。これは、
次の反復の開始点。
アラウンド ステップは機能の多様性を向上させ、平均ステップはトレーニング全体を通じてこれらのネットワークの重みの局所性を保証します。これは WA が機能するために不可欠です。
私たちは収束分析によって Lookaround の優位性を理論的に説明し、CIFAR や ImageNet などの一般的なベンチマークで CNN と ViT の両方を使用して Lookaround を評価する広範な実験を行い、最先端技術に対する明らかな優位性を実証しています。
私たちのコードは https://github.com/Ardcy/Lookaround で入手できます。

要約(オリジナル)

Weight Average (WA) is an active research topic due to its simplicity in ensembling deep networks and the effectiveness in promoting generalization. Existing weight average approaches, however, are often carried out along only one training trajectory in a post-hoc manner (i.e., the weights are averaged after the entire training process is finished), which significantly degrades the diversity between networks and thus impairs the effectiveness in ensembling. In this paper, inspired by weight average, we propose Lookaround, a straightforward yet effective SGD-based optimizer leading to flatter minima with better generalization. Specifically, Lookaround iterates two steps during the whole training period: the around step and the average step. In each iteration, 1) the around step starts from a common point and trains multiple networks simultaneously, each on transformed data by a different data augmentation, and 2) the average step averages these trained networks to get the averaged network, which serves as the starting point for the next iteration. The around step improves the functionality diversity while the average step guarantees the weight locality of these networks during the whole training, which is essential for WA to work. We theoretically explain the superiority of Lookaround by convergence analysis, and make extensive experiments to evaluate Lookaround on popular benchmarks including CIFAR and ImageNet with both CNNs and ViTs, demonstrating clear superiority over state-of-the-arts. Our code is available at https://github.com/Ardcy/Lookaround.

arxiv情報

著者 Jiangtao Zhang,Shunyu Liu,Jie Song,Tongtian Zhu,Zhengqi Xu,Mingli Song
発行日 2023-06-13 10:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク