Deep Model Fusion: A Survey

要約

ディープ モデルの融合/マージは、複数のディープ ラーニング モデルのパラメーターまたは予測を 1 つのモデルにマージする新しい技術です。
さまざまなモデルの機能を組み合わせて、単一モデルのバイアスとエラーを補い、より優れたパフォーマンスを実現します。
しかし、大規模な深層学習モデル (LLM や基礎モデルなど) での深層モデル融合は、高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面しています。モデル融合は幅広い注目を集めていますが、
現実世界の複雑なタスクを解決できる可能性があるため、この手法に関する完全かつ詳細な調査研究はまだ不足しています。
したがって、モデル融合法をよりよく理解し、その開発を促進するために、最近の進歩を要約する包括的な調査を紹介します。
具体的には、既存のディープ モデル フュージョン手法を次の 4 つに分類します。(1) 「モード接続性」。モデル フュージョンの初期化をより適切に行うために、損失が増加しないパスを介して重み空間内のソリューションを接続します。
(2) 「アライメント」は、ニューラル ネットワーク間のユニットを一致させて、融合のためのより良い条件を作成します。
(3) 古典的なモデル融合手法である「重み平均」は、複数のモデルの重みを平均して、最適解に近いより正確な結果を取得します。
(4) 「アンサンブル学習」は、さまざまなモデルの出力を組み合わせます。これは、最終モデルの精度と堅牢性を向上させるための基礎的な手法です。
さらに、ディープモデル融合が直面する課題を分析し、将来のモデル融合について考えられる研究の方向性を提案します。
私たちのレビューは、さまざまなモデル融合手法と実際の応用手法の間の相関関係を深く理解するのに役立ち、ディープモデル融合の分野の研究を啓発することができます。

要約(オリジナル)

Deep model fusion/merging is an emerging technique that merges the parameters or predictions of multiple deep learning models into a single one. It combines the abilities of different models to make up for the biases and errors of a single model to achieve better performance. However, deep model fusion on large-scale deep learning models (e.g., LLMs and foundation models) faces several challenges, including high computational cost, high-dimensional parameter space, interference between different heterogeneous models, etc. Although model fusion has attracted widespread attention due to its potential to solve complex real-world tasks, there is still a lack of complete and detailed survey research on this technique. Accordingly, in order to understand the model fusion method better and promote its development, we present a comprehensive survey to summarize the recent progress. Specifically, we categorize existing deep model fusion methods as four-fold: (1) ‘Mode connectivity’, which connects the solutions in weight space via a path of non-increasing loss, in order to obtain better initialization for model fusion; (2) ‘Alignment’ matches units between neural networks to create better conditions for fusion; (3) ‘Weight average’, a classical model fusion method, averages the weights of multiple models to obtain more accurate results closer to the optimal solution; (4) ‘Ensemble learning’ combines the outputs of diverse models, which is a foundational technique for improving the accuracy and robustness of the final model. In addition, we analyze the challenges faced by deep model fusion and propose possible research directions for model fusion in the future. Our review is helpful in deeply understanding the correlation between different model fusion methods and practical application methods, which can enlighten the research in the field of deep model fusion.

arxiv情報

著者 Weishi Li,Yong Peng,Miao Zhang,Liang Ding,Han Hu,Li Shen
発行日 2023-09-27 14:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク