Soft Merging: A Flexible and Robust Soft Model Merging Approach for Enhanced Neural Network Performance

要約

深層学習で広く使用されている最適化アルゴリズムである確率的勾配降下法 (SGD) は、問題の非凸性の性質により、多くの場合、局所最適値への収束に限定されます。
これらの局所最適化を活用してモデルのパフォーマンスを向上させることは、依然として困難な作業です。
ニューラル ネットワークの固有の複雑さを考慮すると、得られた局所最適モデルを単純に算術平均すると、望ましくない結果が生じます。
この論文では、複数のモデルの迅速なマージを容易にし、ニューラル ネットワークの特定部分のマージを簡素化し、極値を持つ悪意のあるモデルに対する堅牢性を強化する {\em ソフト マージ} 手法を提案します。
これは、指定された局所最適モデルのモデル重みを変更せずに、ハード具体的な分布を使用して $l_0$ ノルムのサロゲートを通じてゲート パラメーターを学習することで実現されます。
このマージ プロセスは、より良い局所最適値に収束することでモデルのパフォーマンスを向上させるだけでなく、計算コストを最小限に抑え、確率的勾配降下法と統合された効率的で明示的な学習プロセスを提供します。
徹底した実験により、統合されたニューラル ネットワークの有効性と優れたパフォーマンスが実証されました。

要約(オリジナル)

Stochastic Gradient Descent (SGD), a widely used optimization algorithm in deep learning, is often limited to converging to local optima due to the non-convex nature of the problem. Leveraging these local optima to improve model performance remains a challenging task. Given the inherent complexity of neural networks, the simple arithmetic averaging of the obtained local optima models in undesirable results. This paper proposes a {\em soft merging} method that facilitates rapid merging of multiple models, simplifies the merging of specific parts of neural networks, and enhances robustness against malicious models with extreme values. This is achieved by learning gate parameters through a surrogate of the $l_0$ norm using hard concrete distribution without modifying the model weights of the given local optima models. This merging process not only enhances the model performance by converging to a better local optimum, but also minimizes computational costs, offering an efficient and explicit learning process integrated with stochastic gradient descent. Thorough experiments underscore the effectiveness and superior performance of the merged neural networks.

arxiv情報

著者 Hao Chen,Yusen Wu,Phuong Nguyen,Chao Liu,Yelena Yesha
発行日 2023-09-21 17:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク