Causal Estimation of Memorisation Profiles

要約

言語モデルにおける記憶を理解することは、モデルのトレーニングダイナミクスの研究や著作権侵害の防止など、実用的かつ社会的な意味を持ちます。
以前の研究では、記憶は、インスタンスを予測するモデルの能力に対する、インスタンスを使用したトレーニングの因果効果として定義されています。
この定義は、反事実、つまりモデルがそのインスタンスを認識しなかった場合に何が起こったのかを観察する能力に依存しています。
既存の方法では、この反事実を計算効率よく正確に推定するのが困難です。
さらに、特定のモデル インスタンスではなく、モデル アーキテクチャの記憶量を見積もることがよくあります。
この論文は文献の重要なギャップを埋め、計量経済学による差分設計に基づいて記憶力を推定するための新しく原則に基づいた効率的な方法を提案します。
この方法を使用すると、トレーニング全体を通じて少数のインスタンスでのモデルの動作のみを観察することによって、モデルの記憶プロファイル (トレーニング全体にわたる記憶傾向) を特徴付けることができます。
Pythia モデル スイートを使った実験では、(i) 記憶は大規模なモデルほど強力で永続的であること、(ii) データの順序と学習率によって決定されること、(iii) モデル サイズ全体にわたって安定した傾向があることがわかりました。
より大きなモデルでは、より小さなモデルから予測可能です。

要約(オリジナル)

Understanding memorisation in language models has practical and societal implications, e.g., studying models’ training dynamics or preventing copyright infringements. Prior work defines memorisation as the causal effect of training with an instance on the model’s ability to predict that instance. This definition relies on a counterfactual: the ability to observe what would have happened had the model not seen that instance. Existing methods struggle to provide computationally efficient and accurate estimates of this counterfactual. Further, they often estimate memorisation for a model architecture rather than for a specific model instance. This paper fills an important gap in the literature, proposing a new, principled, and efficient method to estimate memorisation based on the difference-in-differences design from econometrics. Using this method, we characterise a model’s memorisation profile–its memorisation trends across training–by only observing its behaviour on a small set of instances throughout training. In experiments with the Pythia model suite, we find that memorisation (i) is stronger and more persistent in larger models, (ii) is determined by data order and learning rate, and (iii) has stable trends across model sizes, thus making memorisation in larger models predictable from smaller ones.

arxiv情報

著者 Pietro Lesci,Clara Meister,Thomas Hofmann,Andreas Vlachos,Tiago Pimentel
発行日 2024-06-06 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク