Learning on Model Weights using Tree Experts

要約

公開されているモデルの数は急速に増えているが、そのほとんどは文書化されていない。タスクに適したモデルを探しているユーザーは、まず各モデルが何をするのかを判断しなければならない。機械学習モデルをトレーニングして、モデルの重みから不足しているドキュメントを直接推測することは困難である。ここで、我々は実世界のモデルの重要な特性を特定する。すなわち、ほとんどの公開モデルは小さなモデル・ツリーの集合に属し、ツリー内のすべてのモデルは共通の祖先(例えば、基礎モデル)から微調整されている。重要なことは、各ツリー内では、モデル間の厄介なばらつきが少ないということです。具体的には、モデル・ツリー間の学習には複雑なアーキテクチャが必要ですが、単一のモデル・レイヤーで訓練された線形分類器でも、ツリー内で機能することがよくあります。効果的ではあるが、このような線形分類器は計算コストが高く、特に多くのパラメータを持つ大規模なモデルを扱う場合には、計算コストが高くなる。これに対処するため、理論的に動機づけられた軽量な手法であるProbing Experts (ProbeX)を紹介する。ProbeXは、特に単一の隠れモデル層の重みから学習するように設計された最初のプロービング手法である。我々は、モデルの学習データセットのカテゴリをその重みのみに基づいて予測することにより、ProbeXの有効性を実証する。興味深いことに、ProbeXはStable Diffusionの重みを重み-言語埋め込み空間にマッピングすることができ、テキストによるモデル検索、すなわちゼロショットモデル分類を可能にする。

要約(オリジナル)

The number of publicly available models is rapidly increasing, yet most remain undocumented. Users looking for suitable models for their tasks must first determine what each model does. Training machine learning models to infer missing documentation directly from model weights is challenging, as these weights often contain significant variation unrelated to model functionality (denoted nuisance). Here, we identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. Concretely, while learning across Model Trees requires complex architectures, even a linear classifier trained on a single model layer often works within trees. While effective, these linear classifiers are computationally expensive, especially when dealing with larger models that have many parameters. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated and lightweight method. Notably, ProbeX is the first probing method specifically designed to learn from the weights of a single hidden model layer. We demonstrate the effectiveness of ProbeX by predicting the categories in a model’s training dataset based only on its weights. Excitingly, ProbeX can map the weights of Stable Diffusion into a weight-language embedding space, enabling model search via text, i.e., zero-shot model classification.

arxiv情報

著者 Eliahu Horwitz,Bar Cavia,Jonathan Kahana,Yedid Hoshen
発行日 2025-06-03 15:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク