DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural Networks

要約

ニューラル ネットワークの一般化は、現実の世界で安全に展開するために重要です。
一般化を改善するための一般的なトレーニング戦略には、データ拡張、アンサンブル、およびモデル平均化の使用が含まれます。
この作業では、最初に、トレーニング ミニバッチ内で多様な拡張を利用する一般化のための驚くほどシンプルだが強力なベンチマークを確立し、これが特徴のよりバランスの取れた分布を学習できることを示します。
さらに、最初にさまざまな拡張 (またはドメイン) を使用して多様なモデルをトレーニングして損失盆地を探索し、さらにそれらの重みを集約して専門知識を組み合わせ、一般化を改善する Diversify-Aggregate-Repeat Training (DART) 戦略を提案します。
トレーニング全体で集計のステップを繰り返すと、全体的な最適化の軌道が改善され、個々のモデルの損失障壁が十分に低くなり、それらを組み合わせることで一般化が改善されることがわかります。
シェンらによって提案されたフレームワークにキャストすることにより、アプローチに光を当てます。
そして理論的には、それが実際によりよく一般化することを示しています。
ドメイン内一般化の改善に加えて、一般的な DomainBed フレームワークのドメイン一般化ベンチマークでも SOTA のパフォーマンスを示しています。
私たちの方法は一般的であり、いくつかの基本トレーニング アルゴリズムと簡単に統合して、パフォーマンスを向上させることができます。

要約(オリジナル)

Generalization of neural networks is crucial for deploying them safely in the real world. Common training strategies to improve generalization involve the use of data augmentations, ensembling and model averaging. In this work, we first establish a surprisingly simple but strong benchmark for generalization which utilizes diverse augmentations within a training minibatch, and show that this can learn a more balanced distribution of features. Further, we propose Diversify-Aggregate-Repeat Training (DART) strategy that first trains diverse models using different augmentations (or domains) to explore the loss basin, and further Aggregates their weights to combine their expertise and obtain improved generalization. We find that Repeating the step of Aggregation throughout training improves the overall optimization trajectory and also ensures that the individual models have a sufficiently low loss barrier to obtain improved generalization on combining them. We shed light on our approach by casting it in the framework proposed by Shen et al. and theoretically show that it indeed generalizes better. In addition to improvements in In- Domain generalization, we demonstrate SOTA performance on the Domain Generalization benchmarks in the popular DomainBed framework as well. Our method is generic and can easily be integrated with several base training algorithms to achieve performance gains.

arxiv情報

著者 Samyak Jain,Sravanti Addepalli,Pawan Sahu,Priyam Dey,R. Venkatesh Babu
発行日 2023-02-28 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク