要約
公開モデルの利用可能性が高まるにつれ、他のネットワークを入力として使用するニューラル ネットワークをトレーニングできるか?という疑問が生じます。
この論文では、モデルの重みと言語の両方を埋め込んだ関節空間内でモデルを表現する方法を学習します。
ただし、モデルの重みはモデルの意味論的特性とは関係のない大幅な変動 (迷惑変動) を示すことが多いため、モデルの重みに関する機械学習は困難です。
私たちは現実世界のモデルの重要な特性を特定します。ほとんどの公開モデルは小さなモデル ツリーのセットに属しており、ツリー内のすべてのモデルは共通の祖先 (基礎モデルなど) から微調整されています。
重要なのは、各ツリー内でモデル間の迷惑な変動が少ないことがわかります。
たとえば、トレーニング データセットに従ってモデルを分類するには一般に複雑なアーキテクチャが必要ですが、この場合、単一レイヤーでトレーニングされた線形分類器でも効果的なことがよくあります。
線形層は効果的ではありますが、モデルの重みが非常に高次元であるため、計算コストが高くなります。
これに対処するために、理論的に動機づけられた軽量のプローブ手法である Probing Experts (ProbeX) を導入します。
特に、ProbeX は、単一のモデル層の重みから学習するように設計された最初のプローブ手法です。
公開モデルリポジトリの構造を模擬したデータセットの構築・公開も行っています。
私たちの結果は、ProbeX が大規模なモデルの重みを共有の重み言語埋め込み空間に効果的にマッピングできることを示しています。
さらに、ゼロショットモデルの分類と検索を達成するという、私たちの方法の印象的な一般化を実証します。
要約(オリジナル)
The increasing availability of public models begs the question: can we train neural networks that use other networks as input? This paper learns to represent models within a joint space that embeds both model weights and language. However, machine learning on model weights is challenging as model weights often exhibit significant variation unrelated to the models’ semantic properties (nuisance variation). We identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. For example, while classifying models according to their training dataset generally requires complex architectures, in our case, even a linear classifier trained on a single layer is often effective. While effective, linear layers are computationally expensive as model weights are very high dimensional. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated, lightweight probing method. Notably, ProbeX is the first probing method designed to learn from the weights of just a single model layer. We also construct and release a dataset that simulates the structure of public model repositories. Our results show that ProbeX can effectively map the weights of large models into a shared weight-language embedding space. Furthermore, we demonstrate the impressive generalization of our method, achieving zero-shot model classification and retrieval.
arxiv情報
著者 | Eliahu Horwitz,Bar Cavia,Jonathan Kahana,Yedid Hoshen |
発行日 | 2024-10-17 17:17:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google