Independence Tests for Language Models

要約

次の問題を検討します。2つのモデルの重みを考えると、それらが独立して訓練されているかどうか、つまり独立したランダム初期化からテストできますか?
制約と制約のない2つの設定を検討します。
制約された設定では、モデルアーキテクチャとトレーニングについて仮定を立て、モデルが独立したランダム初期化からトレーニングされているという帰無仮説に関して正確なp値を生成する統計テストのファミリーを提案します。
これらのp値は、いずれかのモデルのトレーニングデータの構成に関係なく有効です。
仮定の下で各モデルの交換可能なコピーをシミュレートし、元の2つのモデルとこれらのコピーとの間の重みと活性化のさまざまな類似性測定値を比較することにより、それらを計算します。
これらのテストのp値を21のオープンウェイトモデル(合計210ペア)のペアで報告し、非独立モデルのすべてのペアを正しく識別します。
多くのトークンで1つのモデルが微調整されたとしても、私たちのテストは引き続き効果的です。
制約のない設定では、トレーニング手順について仮定しない場合、モデルアーキテクチャを変更し、敵対的な回避攻撃を可能にすることができます。以前のテストは機能しなくなりました。
代わりに、2つのモデル間の隠されたアクティベーションに一致する新しいテストを提案します。これは、敵対的な変換とモデルアーキテクチャの変化に堅牢です。
このテストは、ローカライズされたテストを実行することもできます。モデルの特定の非独立コンポーネントを識別することもできます。
これから正確なp値は得られなくなりましたが、経験的には、それが1つとして動作し、非独立モデルを確実に識別します。
特に、テストを使用して、別のモデルから派生した1つのモデルの特定の部分を識別できます(例えば、Llama 3.1-8Bが剪定されてLlama 3.2-3bまたはStripedhyena-7Bの間の共有層を初期化する方法)。

要約(オリジナル)

We consider the following problem: given the weights of two models, can we test whether they were trained independently — i.e., from independent random initializations? We consider two settings: constrained and unconstrained. In the constrained setting, we make assumptions about model architecture and training and propose a family of statistical tests that yield exact p-values with respect to the null hypothesis that the models are trained from independent random initializations. These p-values are valid regardless of the composition of either model’s training data; we compute them by simulating exchangeable copies of each model under our assumptions and comparing various similarity measures of weights and activations between the original two models versus these copies. We report the p-values from these tests on pairs of 21 open-weight models (210 total pairs) and correctly identify all pairs of non-independent models. Our tests remain effective even if one model was fine-tuned for many tokens. In the unconstrained setting, where we make no assumptions about training procedures, can change model architecture, and allow for adversarial evasion attacks, the previous tests no longer work. Instead, we propose a new test which matches hidden activations between two models, and which is robust to adversarial transformations and to changes in model architecture. The test can also do localized testing: identifying specific non-independent components of models. Though we no longer obtain exact p-values from this, empirically we find it behaves as one and reliably identifies non-independent models. Notably, we can use the test to identify specific parts of one model that are derived from another (e.g., how Llama 3.1-8B was pruned to initialize Llama 3.2-3B, or shared layers between Mistral-7B and StripedHyena-7B), and it is even robust to retraining individual layers of either model from scratch.

arxiv情報

著者 Sally Zhu,Ahmed Ahmed,Rohith Kuditipudi,Percy Liang
発行日 2025-03-12 15:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク