Deep Linear Probe Generators for Weight Space Learning

要約

重み空間学習は、トレーニング データセットや汎化誤差など、ニューラル ネットワークに関する情報を抽出することを目的としています。
最近のアプローチはモデルの重みから直接学習しますが、重みは高次元であり、ニューロン間の順列対称性が含まれるため、多くの課題が生じます。
別のアプローチであるプロービングでは、一連の学習済み入力 (プローブ) をモデルに渡し、対応する出力に基づいて予測子をトレーニングすることでモデルを表します。
通常、プロービングは単独のアプローチとしては使用されませんが、私たちの予備実験では、バニラのプロービング ベースラインが驚くほどうまく機能することがわかりました。
しかし、現在のプローブ学習戦略は効果がないことがわかりました。
したがって、我々は、プロービングアプローチへのシンプルかつ効果的な修正であるディープリニアプローブジェネレーター(ProbeGen)を提案します。
ProbeGen は、深い線形アーキテクチャを備えた共有ジェネレータ モジュールを追加し、構造化されたプローブに対して誘導バイアスを提供し、オーバーフィッティングを軽減します。
シンプルではありますが、ProbeGen は最先端のものよりも大幅に優れたパフォーマンスを示し、非常に効率的であり、必要な FLOP は他の主要なアプローチよりも 30 ~ 1000 分の 1 です。

要約(オリジナル)

Weight space learning aims to extract information about a neural network, such as its training dataset or generalization error. Recent approaches learn directly from model weights, but this presents many challenges as weights are high-dimensional and include permutation symmetries between neurons. An alternative approach, Probing, represents a model by passing a set of learned inputs (probes) through the model, and training a predictor on top of the corresponding outputs. Although probing is typically not used as a stand alone approach, our preliminary experiment found that a vanilla probing baseline worked surprisingly well. However, we discover that current probe learning strategies are ineffective. We therefore propose Deep Linear Probe Generators (ProbeGen), a simple and effective modification to probing approaches. ProbeGen adds a shared generator module with a deep linear architecture, providing an inductive bias towards structured probes thus reducing overfitting. While simple, ProbeGen performs significantly better than the state-of-the-art and is very efficient, requiring between 30 to 1000 times fewer FLOPs than other top approaches.

arxiv情報

著者 Jonathan Kahana,Eliahu Horwitz,Imri Shuval,Yedid Hoshen
発行日 2024-10-14 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク