Mode Combinability: Exploring Convex Combinations of Permutation Aligned Models

要約

サイズ $d$ の 2 つの順列整列ニューラル ネットワーク パラメーター ベクトル $\Theta_A$ と $\Theta_B$ の要素ごとの凸の組み合わせを調べます。
私たちは、超立方体 $[0,1]^{d}$ とその近傍の要素によってパラメータ化されたこのようなモデルの組み合わせのさまざまな分布を調べることにより、広範な実験を行います。
私たちの発見は、ハイパーキューブの広い領域が低損失値の表面を形成していることを明らかにし、線形モード接続性の概念がモード結合性と呼ばれるより一般的な現象に拡張されていることを示しています。
また、線形モードの接続性とモデルの再盆地に関するいくつかの新しい観察も行っています。
我々は、推移性の特性を実証します。すなわち、共通の 3 番目のモデルに再ベースされた 2 つのモデルも線形モード接続されており、ロバスト性の特性として、ニューロンのマッチングに重大な摂動がある場合でも、結果として得られる組み合わせは動作モデルを形成し続けます。
さらに、モデルの組み合わせの機能と重みの類似性を分析し、結果として得られるモデル間に機能的に大きな違いがあるという意味で、そのような組み合わせは空ではないことを示します。

要約(オリジナル)

We explore element-wise convex combinations of two permutation-aligned neural network parameter vectors $\Theta_A$ and $\Theta_B$ of size $d$. We conduct extensive experiments by examining various distributions of such model combinations parametrized by elements of the hypercube $[0,1]^{d}$ and its vicinity. Our findings reveal that broad regions of the hypercube form surfaces of low loss values, indicating that the notion of linear mode connectivity extends to a more general phenomenon which we call mode combinability. We also make several novel observations regarding linear mode connectivity and model re-basin. We demonstrate a transitivity property: two models re-based to a common third model are also linear mode connected, and a robustness property: even with significant perturbations of the neuron matchings the resulting combinations continue to form a working model. Moreover, we analyze the functional and weight similarity of model combinations and show that such combinations are non-vacuous in the sense that there are significant functional differences between the resulting models.

arxiv情報

著者 Adrián Csiszárik,Melinda F. Kiss,Péter Kőrösi-Szabó,Márton Muntag,Gergely Papp,Dániel Varga
発行日 2023-08-22 15:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク