Model Fusion via Optimal Transport

要約

異なるモデルの組み合わせは、機械学習アプリケーションで広く使用されているパラダイムです。
最も一般的なアプローチは、モデルのアンサンブルを形成し、個々の予測を平均することですが、このアプローチは、モデルの数に比例して増加するメモリと計算に関するリソースの制約によって実行不可能になることがよくあります。
我々は、関連パラメータを平均化する前に、最適なトランスポートを利用してモデル全体でニューロンを(ソフトに)位置合わせする、ニューラルネットワーク用の層ごとのモデル融合アルゴリズムを提案します。
これにより、異種の非i.i.d.ネットワークでトレーニングされたニューラルネットワーク間で(つまり、再トレーニングを必要とせずに)「ワンショット」の知識伝達が成功裏に得られることを示します。
データ。
どちらのIDでも
そして非ID。
設定では、私たちのアプローチがバニラ平均化よりも大幅に優れていることと、標準的な畳み込みネットワーク (VGG11 など)、残差ネットワーク (ResNet18 など)、およびマルチ
CIFAR10、CIFAR100、および MNIST の層パーセプトロン。
最後に、私たちのアプローチは、異なる幅を持つニューラル ネットワークのパラメーターを組み合わせる原理的な方法も提供し、モデル圧縮へのその応用を検討します。
コードは、https://github.com/sidak/otfusion のリンクから入手できます。

要約(オリジナル)

Combining different models is a widely used paradigm in machine learning applications. While the most common approach is to form an ensemble of models and average their individual predictions, this approach is often rendered infeasible by given resource constraints in terms of memory and computation, which grow linearly with the number of models. We present a layer-wise model fusion algorithm for neural networks that utilizes optimal transport to (soft-) align neurons across the models before averaging their associated parameters. We show that this can successfully yield ‘one-shot’ knowledge transfer (i.e, without requiring any retraining) between neural networks trained on heterogeneous non-i.i.d. data. In both i.i.d. and non-i.i.d. settings , we illustrate that our approach significantly outperforms vanilla averaging, as well as how it can serve as an efficient replacement for the ensemble with moderate fine-tuning, for standard convolutional networks (like VGG11), residual networks (like ResNet18), and multi-layer perceptrons on CIFAR10, CIFAR100, and MNIST. Finally, our approach also provides a principled way to combine the parameters of neural networks with different widths, and we explore its application for model compression. The code is available at the following link, https://github.com/sidak/otfusion.

arxiv情報

著者 Sidak Pal Singh,Martin Jaggi
発行日 2023-05-16 17:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク